Danh mục tài liệu

Phương pháp cải tiến LSTM dựa trên đặc trưng thống kê trong phát hiện DGA botnet

Số trang: 10      Loại file: pdf      Dung lượng: 4.47 MB      Lượt xem: 40      Lượt tải: 0    
Xem trước 2 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Bài viết đề xuất phương pháp phân tích tên miền và phát hiện DGA botnet dựa trên sự kết hợp mạng LSTM (Long Short-Term Memory) với các đặc trưng thống kê như độ dài, entropy, mức độ ý nghĩa của tên miền nhằm tăng khả năng khái quát hóa cho mạng LSTM.
Nội dung trích xuất từ tài liệu:
Phương pháp cải tiến LSTM dựa trên đặc trưng thống kê trong phát hiện DGA botnet Các công trình nghiên cứu phát triển Công nghệ Thông tin và Truyền thông<br /> <br /> <br /> <br /> <br /> Phương pháp cải tiến LSTM dựa trên đặc<br /> trưng thống kê trong phát hiện DGA botnet<br /> Mạc Đình Hiếu, Tống Văn Vạn, Bùi Trọng Tùng, Trần Quang Đức, Nguyễn Linh Giang<br /> Trường Đại học Bách khoa Hà Nội<br /> Tác giả liên hệ: Nguyễn Linh Giang, giangnl@soict.hust.edu.vn<br /> Ngày nhận bài: 15/07/2017, ngày sửa chữa: 15/12/2017, ngày duyệt đăng: 25/12/2018<br /> Xem sớm trực tuyến: 28/12/2018, định danh DOI: 10.32913/rd-ict.vol3.no40.528<br /> Biên tập lĩnh vực điều phối phản biện và quyết định nhận đăng: PGS. TS. Nguyễn Nam Hoàng<br /> <br /> Tóm tắt: Phần lớn botnet sử dụng cơ chế sinh tên miền tự động (DGA: Domain Generation Algorithms) để kết nối và<br /> nhận lệnh từ máy chủ điều khiển. Việc tìm ra dạng DGA botnet thực hiện qua xác định cách thức tạo sinh tên miền đặc<br /> trưng cho loại botnet đó dựa trên những phân tích đặc trưng tên miền thu thập từ các truy vấn DNS. Trong bài báo này<br /> chúng tôi đề xuất phương pháp phân tích tên miền và phát hiện DGA botnet dựa trên sự kết hợp mạng LSTM (Long<br /> Short-Term Memory) với các đặc trưng thống kê như độ dài, entropy, mức độ ý nghĩa của tên miền nhằm tăng khả năng<br /> khái quát hóa cho mạng LSTM. Phương pháp đề xuất được thử nghiệm và đánh giá trên bộ dữ liệu tên miền thu thập<br /> trong thực tế bao gồm một triệu tên miền Alexa và hơn 750 nghìn tên miền được sinh bởi 37 loại DGA botnet. Kết quả<br /> thử nghiệm đã chứng minh tính hiệu quả của phương pháp đề xuất trong cả hai trường hợp phân loại hai lớp và phân loại<br /> đa lớp, với giá trị macro-averaging F1-score cao hơn 5% và nhận biết thêm được 3 loại DGA so với phương pháp phát<br /> hiện DGA botnet dựa trên mạng LSTM truyền thống.<br /> Từ khóa: Phát hiện DGA botnet, LSTM, phát hiện tấn công mạng, an ninh mạng.<br /> <br /> Title: A Method to Improve LSTM using Statistical Features for DGA Botnet Detection<br /> Abstract: Recently, botnets have been the main mean for phishing, spamming, and launching Distributed Denial of Service<br /> attacks. Most bots today use Domain Generation Algorithms (DGA) (also known as domain fluxing) to construct a<br /> resilient Command and Control (C&C) infrastructure. Reverse Engineering has become the prominent approach to<br /> combat botnets. It however needs a malware sample that is not always possible in practice. This paper presents an<br /> extended version of the Long Short-Term Memory (LSTM) network, where the original algorithm is coupled with other<br /> statistical features, namely meaningful character ratio, entropy, and length of the domain names to further improve its<br /> generalization capability. Experiments are carried out on a real-world collected dataset that contains one non-DGA<br /> and 37 DGA malware families. They demonstrated that the new method is able to work on both binary and multi-<br /> class tasks. It also produces at least 5% macro-averaging F1-score improvement as compared to other state-of-the-art<br /> detection techniques while helping to recognize 3 additional DGA families.<br /> Keywords: DGA Botnet, NXDomain, Recurrent Neural Network, Long Short-Term Memory Network.<br /> <br /> <br /> <br /> <br /> I. GIỚI THIỆU miền mới được sinh ra. Cách phát hiện botnet truyền thống<br /> là sử dụng kỹ thuật dịch ngược mã nguồn. Tuy nhiên quá<br /> Botnet là một mạng máy tính trong đó mỗi máy tính trong<br /> trình dịch ngược đòi hỏi nhiều thời gian, công sức, trong<br /> mạng bị lây nhiễm mã độc và được coi là một bot [1].<br /> khi danh sách các địa chỉ phải được cập nhật một cách<br /> Phần lớn botnet ngày nay đều được xây dựng trên cơ sở<br /> thường xuyên.<br /> cơ chế sinh tên miền tự động (DGA: Domain Generation<br /> Algorithms), trong đó bot tự động sinh ra một số lượng Davuth và Kim trong công trình [2] đã đề xuất cơ chế<br /> lớn tên miền và sử dụng một tập con để kết nối với máy phân loại tên miền sử dụng đặc trưng bi-gram và các<br /> chủ điều khiển (C&C: Command and Control). Điểm mạnh thuật toán học máy vector hỗ trợ (SVM: Support Vector<br /> của DGA là nếu địa chỉ của C&C bị phát hiện và chặn tất Machines). Kwon và cộng sự trong công trình [3] đã đề<br /> cả kết nối đến địa chỉ này, mạng botnet không hoàn toàn xuất PsyBoG, một cơ chế phát hiện DGA botnet dựa vào<br /> bị loại bỏ [1–3]. Khi đó, bot vẫn có thể nhận lệnh điều biểu hiện, các đặc trưng thu được từ người dùng từ lưu<br /> khiển thông qua việc ánh xạ địa chỉ IP với một tập tên lượng DNS và cho phép triển khai trong môi trường dữ<br /> <br /> <br /> 33<br /> Các công trình nghiên cứu phát triển Công nghệ Thông tin và Truyền thông<br /> <br /> <br /> liệu lớn. Grill và các cộng sự trong công trình [4] đã đề ...