Mô hình huấn luyện trí tuệ nhân tạo tự động phát hiện và phân loại các truy vấn URL độc hại

Số trang: 14 Loại file: pdf Dung lượng: 930.14 KB Lượt xem: 32 Lượt tải: 0

tailieu_vip

Báo xấu

Xem trước 2 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Bài viết Mô hình huấn luyện trí tuệ nhân tạo tự động phát hiện và phân loại các truy vấn URL độc hại nghiên cứu đánh giá hiệu quả sử dụng các mô hình huấn luyện trí tuệ nhân tạo sử dụng hai phương pháp chính là học máy (Machine Learning) và học sâu (Deep Learning) trong việc tự động phát hiện và phân loại các truy vấn (URL) độc hại.
Nội dung trích xuất từ tài liệu:
Mô hình huấn luyện trí tuệ nhân tạo tự động phát hiện và phân loại các truy vấn URL độc hại Tạp chí KH&CN- Trường Đại học Bình Dương, Vol.4 № 1/2021 MÔ HÌNH HUẤN LUYỆN TRÍ TUỆ NHÂN TẠO TỰ ĐỘNG PHÁT HIỆN VÀ PHÂN LOẠI CÁC TRUY VẤN URL ĐỘC HẠI Hoàng Văn Chí1, Nguyễn Văn Cảnh2, Lê Văn Cường3, Ngô Minh Tiến2, Nguyễn Đức Dũng2 1 Bộ Tư lệnh Tác chiến không gian mạng 2 Trường Đại học Ngô Quyền 3 Trường Đại học Bình Dương Ngày nhận bài: 21/12/2020 Biên tập xong: 21/01/2021 Duyệt đăng: 15/03/2021 TÓM TẮT Bài báo nghiên cứu đánh giá hiệu quả sử dụng các mô hình huấn luyện trí tuệ nhân tạo sử dụng hai phương pháp chính là học máy (Machine Learning) và học sâu (Deep Learning) trong việc tự động phát hiện và phân loại các truy vấn (URL) độc hại. Từ khóa: Truy vấn URL độc hại; Machine Learning; Deep Learning; Trí tuệ nhân tạo. 1. Giới thiệu chung khiến chúng mãi đến giờ mới lại nổi Trong những năm gần đây công lên, chính là vì các nhà khoa học cuối nghệ trí tuệ nhân tạo đã có những bước cùng cũng đã có thể tận dụng tất cả sức phát triển không ngừng, bên cạnh các mạnh điện toán kết hợp với lượng dữ thuật toán học máy (Machine learning) liệu khổng lồ các hình ảnh, video, âm ngày càng được hoàn thiện thì chính sự thanh và văn bản trên Internet – những phát triển rực rỡ của công nghệ học sâu yếu tố quyết định giúp mạng neuron có (Deep learning) với hàng ngàn ứng thể hoạt động hiệu quả. dụng trong các lĩnh vực xử lý ngôn ngữ, Công nghệ Deep learning chiếm ưu giọng nói, xử lý ảnh mà các hãng công thế tuyệt đối trước công nghệ Machine nghệ lớn như Microsoft, Google, learning trong lĩnh vực xử lý ảnh và xử Apple, Amazon nghiên cứu và phát lý ngôn ngữ tự nhiên với khả năng tự triển, đã đưa trí tuệ nhân tạo trở nên gần động tìm và phát hiện đặc trưng của đối gũi trong cuộc sống và là một trong tượng. Điều này là không cần phải tranh những hướng nghiên cứu thúc đẩy sự luận, minh chứng là những kết quả của phát triển của khoa học và công nghệ. hàng nghìn nghiên cứu khác nhau của Công nghệ học sâu thực chất không các nhà khoa học máy tính. Nhưng liệu phải một khái niệm mới, mà đã xuất Deep learning có thực sự tỏ ra ưu thế hiện từ những năm 1950. Rất nhiều đột vượt trội so với Machine learning trong phá về các thuật toán trong đó diễn ra những lĩnh vực khác khi mà tập dữ liệu vào hai thập niên 1980 và 1990. Lý do huấn luyện được trích xuất đặc trưng 1 TC KH&CN- BDU, VOL.4 № 1/2021 Hoàng Văn Chí và cộng sự với hiểu biết của con người (Human nhưng không có nhãn chính xác hoặc intelligent) về các đối tượng được thông báo lỗi. Vì vậy căn cứ vào dữ liệu nghiên cứu? huấn luyện và mục đích sử dụng để lựa Đối với ngành khoa học dữ liệu, khi chọn phương pháp huấn luyện cho phù đã có một cơ sở dữ liệu có chất lượng hợp. Trong nghiên cứu này lựa chọn tốt, bước tiếp theo cần làm là lựa chọn phương pháp học có giám sát, sử dụng phương pháp huấn luyện phù hợp để từ cơ sở dữ liệu là kết quả nghiên cứu và đó phát triển mô hình huấn luyện tối ưu gán nhãn một cách tỉ mỉ tại Viện 10/Bộ nhằm tận dụng tối đa khả năng khai Tư lệnh Tác chiến không gian mạng thác và phân tích dữ liệu của công nghệ [1]. trí tuệ nhân tạo. Với phần mềm và thuật toán do tác Để có cái nhìn tổng thể một cách giả tự phát triển, dữ liệu tự động được khách quan hơn về hai công nghệ Deep thu thập về từ những cơ sở dữ liệu sẵn learning và Machine learning, trong có với độ tin cậy cao tại thời điểm được nghiên cứu này tiến hành so sánh, đánh cập nhật gần nhất, kết hợp tham khảo giá kết quả huấn luyện trí tuệ nhân tạo blacklist tổng hợp các tên miền độc hại sử dụng hai công nghệ kể trên. do các hãng bảo mật nổi tiếng trên thế giới cung cấp (như Ransomware 2. Phương pháp nghiên cứu và sử Tracker, Google Safe Browsing API, dụng dữ liệu Cisco Umbrella, Virus Total API, Có 3 phương pháp huấn luyện chính Panda Security, OpenFish, Kaggle mà công nghệ trí tuệ nhân tạo sử dụng Data, Ad-block, Pi-Hole porn block), đó là huấn luyện không giám sát, huấn đồng thời bổ sung thêm từ các nguồn luyện giám sát và huấn luyện tăng khác để đảm bảo tính mới, tính cân đối cường. Học có giám sát được dùng và đa dạng của cơ sở dữ liệu. Qua bước trong trường hợp tất cả dữ liệu sử dụng tiền xử lý, dữ liệu được trích xuất 10 huấn luyện đều được gán nhãn phân đặc trưng theo chỉ định dựa trên các loại một cách chính xác. Học không có thông số và dấu hiệu nhận biết URL độc giám sát thì ngược lại, được sử dụng hại. Hệ thống tự động thu thập, phân trong trường hợp khám phá các mối tích, trích xuất đặc trưng, gán nhãn dữ quan hệ tiềm ẩn trong một tập dữ liệu liệu chạy liên tục trong 896 giờ, kết quả không được gán nhãn (các mục không thu được 2.688.430 mẫu dữ liệu với được chỉ định trước). Học tăng cường 29.572.730 features (thuộc tính). thì nằm giữa 2 phương pháp trên – có Dữ liệu huấn luyện được chia thành một số hình thức phản hồi có sẵn cho 03 tập với kích thước và tỉ lệ mẫu khác mỗi bước tiên đoán hoặc hành động, 2 TC KH&CN- BD ...