
Mô hình huấn luyện trí tuệ nhân tạo tự động phát hiện và phân loại các truy vấn URL độc hại
Thông tin tài liệu:
Nội dung trích xuất từ tài liệu:
Mô hình huấn luyện trí tuệ nhân tạo tự động phát hiện và phân loại các truy vấn URL độc hại Tạp chí KH&CN- Trường Đại học Bình Dương, Vol.4 № 1/2021 MÔ HÌNH HUẤN LUYỆN TRÍ TUỆ NHÂN TẠO TỰ ĐỘNG PHÁT HIỆN VÀ PHÂN LOẠI CÁC TRUY VẤN URL ĐỘC HẠI Hoàng Văn Chí1, Nguyễn Văn Cảnh2, Lê Văn Cường3, Ngô Minh Tiến2, Nguyễn Đức Dũng2 1 Bộ Tư lệnh Tác chiến không gian mạng 2 Trường Đại học Ngô Quyền 3 Trường Đại học Bình Dương Ngày nhận bài: 21/12/2020 Biên tập xong: 21/01/2021 Duyệt đăng: 15/03/2021 TÓM TẮT Bài báo nghiên cứu đánh giá hiệu quả sử dụng các mô hình huấn luyện trí tuệ nhân tạo sử dụng hai phương pháp chính là học máy (Machine Learning) và học sâu (Deep Learning) trong việc tự động phát hiện và phân loại các truy vấn (URL) độc hại. Từ khóa: Truy vấn URL độc hại; Machine Learning; Deep Learning; Trí tuệ nhân tạo. 1. Giới thiệu chung khiến chúng mãi đến giờ mới lại nổi Trong những năm gần đây công lên, chính là vì các nhà khoa học cuối nghệ trí tuệ nhân tạo đã có những bước cùng cũng đã có thể tận dụng tất cả sức phát triển không ngừng, bên cạnh các mạnh điện toán kết hợp với lượng dữ thuật toán học máy (Machine learning) liệu khổng lồ các hình ảnh, video, âm ngày càng được hoàn thiện thì chính sự thanh và văn bản trên Internet – những phát triển rực rỡ của công nghệ học sâu yếu tố quyết định giúp mạng neuron có (Deep learning) với hàng ngàn ứng thể hoạt động hiệu quả. dụng trong các lĩnh vực xử lý ngôn ngữ, Công nghệ Deep learning chiếm ưu giọng nói, xử lý ảnh mà các hãng công thế tuyệt đối trước công nghệ Machine nghệ lớn như Microsoft, Google, learning trong lĩnh vực xử lý ảnh và xử Apple, Amazon nghiên cứu và phát lý ngôn ngữ tự nhiên với khả năng tự triển, đã đưa trí tuệ nhân tạo trở nên gần động tìm và phát hiện đặc trưng của đối gũi trong cuộc sống và là một trong tượng. Điều này là không cần phải tranh những hướng nghiên cứu thúc đẩy sự luận, minh chứng là những kết quả của phát triển của khoa học và công nghệ. hàng nghìn nghiên cứu khác nhau của Công nghệ học sâu thực chất không các nhà khoa học máy tính. Nhưng liệu phải một khái niệm mới, mà đã xuất Deep learning có thực sự tỏ ra ưu thế hiện từ những năm 1950. Rất nhiều đột vượt trội so với Machine learning trong phá về các thuật toán trong đó diễn ra những lĩnh vực khác khi mà tập dữ liệu vào hai thập niên 1980 và 1990. Lý do huấn luyện được trích xuất đặc trưng 1 TC KH&CN- BDU, VOL.4 № 1/2021 Hoàng Văn Chí và cộng sự với hiểu biết của con người (Human nhưng không có nhãn chính xác hoặc intelligent) về các đối tượng được thông báo lỗi. Vì vậy căn cứ vào dữ liệu nghiên cứu? huấn luyện và mục đích sử dụng để lựa Đối với ngành khoa học dữ liệu, khi chọn phương pháp huấn luyện cho phù đã có một cơ sở dữ liệu có chất lượng hợp. Trong nghiên cứu này lựa chọn tốt, bước tiếp theo cần làm là lựa chọn phương pháp học có giám sát, sử dụng phương pháp huấn luyện phù hợp để từ cơ sở dữ liệu là kết quả nghiên cứu và đó phát triển mô hình huấn luyện tối ưu gán nhãn một cách tỉ mỉ tại Viện 10/Bộ nhằm tận dụng tối đa khả năng khai Tư lệnh Tác chiến không gian mạng thác và phân tích dữ liệu của công nghệ [1]. trí tuệ nhân tạo. Với phần mềm và thuật toán do tác Để có cái nhìn tổng thể một cách giả tự phát triển, dữ liệu tự động được khách quan hơn về hai công nghệ Deep thu thập về từ những cơ sở dữ liệu sẵn learning và Machine learning, trong có với độ tin cậy cao tại thời điểm được nghiên cứu này tiến hành so sánh, đánh cập nhật gần nhất, kết hợp tham khảo giá kết quả huấn luyện trí tuệ nhân tạo blacklist tổng hợp các tên miền độc hại sử dụng hai công nghệ kể trên. do các hãng bảo mật nổi tiếng trên thế giới cung cấp (như Ransomware 2. Phương pháp nghiên cứu và sử Tracker, Google Safe Browsing API, dụng dữ liệu Cisco Umbrella, Virus Total API, Có 3 phương pháp huấn luyện chính Panda Security, OpenFish, Kaggle mà công nghệ trí tuệ nhân tạo sử dụng Data, Ad-block, Pi-Hole porn block), đó là huấn luyện không giám sát, huấn đồng thời bổ sung thêm từ các nguồn luyện giám sát và huấn luyện tăng khác để đảm bảo tính mới, tính cân đối cường. Học có giám sát được dùng và đa dạng của cơ sở dữ liệu. Qua bước trong trường hợp tất cả dữ liệu sử dụng tiền xử lý, dữ liệu được trích xuất 10 huấn luyện đều được gán nhãn phân đặc trưng theo chỉ định dựa trên các loại một cách chính xác. Học không có thông số và dấu hiệu nhận biết URL độc giám sát thì ngược lại, được sử dụng hại. Hệ thống tự động thu thập, phân trong trường hợp khám phá các mối tích, trích xuất đặc trưng, gán nhãn dữ quan hệ tiềm ẩn trong một tập dữ liệu liệu chạy liên tục trong 896 giờ, kết quả không được gán nhãn (các mục không thu được 2.688.430 mẫu dữ liệu với được chỉ định trước). Học tăng cường 29.572.730 features (thuộc tính). thì nằm giữa 2 phương pháp trên – có Dữ liệu huấn luyện được chia thành một số hình thức phản hồi có sẵn cho 03 tập với kích thước và tỉ lệ mẫu khác mỗi bước tiên đoán hoặc hành động, 2 TC KH&CN- BD ...
Tìm kiếm theo từ khóa liên quan:
Truy vấn URL độc hại Trí tuệ nhân tạo Mô hình huấn luyện trí tuệ nhân tạo Thuật toán học máy Công nghệ Deep learningTài liệu có liên quan:
-
Đề cương chi tiết học phần Trí tuệ nhân tạo
12 trang 476 0 0 -
7 trang 282 0 0
-
6 trang 210 0 0
-
Kết quả bước đầu của ứng dụng trí tuệ nhân tạo trong phát hiện polyp đại tràng tại Việt Nam
10 trang 206 0 0 -
9 trang 172 0 0
-
Xu hướng và tác động của cách mạng công nghiệp lần thứ tư đến môi trường thông tin số
9 trang 170 0 0 -
Tìm hiểu về Luật An ninh mạng (hiện hành): Phần 1
93 trang 155 0 0 -
Xác lập tư cách pháp lý cho trí tuệ nhân tạo
6 trang 154 1 0 -
Luận văn tốt nghiệp: Ứng dụng trí tuệ nhân tạo trong xây dựng GAME
120 trang 147 0 0 -
Chuyển đổi số: cơ sở và ứng dụng
18 trang 135 0 0 -
Tác động của ứng dụng công nghệ tài chính đến hiệu quả hoạt động của ngân hàng thương mại Việt Nam
10 trang 122 0 0 -
Nhận dạng giọng chữ cái tiếng Việt sử dụng deep Boltzmann machines
8 trang 96 0 0 -
Dự báo công suất nguồn điện mặt trời sử dụng trí tuệ nhân tạo
12 trang 90 0 0 -
Đồ án tốt nghiệp: Thiết kế và điều khiển robot tự hành dò đường trong mê cung
64 trang 87 0 0 -
Nghiên cứu phương pháp phát hiện sớm xâm nhập bất thường mạng DDOS dựa trên các thuật toán học máy
8 trang 82 0 0 -
Triển khai AI trong dạy học và nghiên cứu khoa học của sinh viên theo xu hướng chuyển đổi số
13 trang 77 0 0 -
95 trang 74 0 0
-
39 trang 73 0 0
-
Độ chính xác nhận dạng trong mô hình Faster R-CNN khi có nhiễu
5 trang 68 0 0 -
Giáo trình Trí tuệ nhân tạo và hệ chuyên gia (Nghề Lập trình máy tính): Phần 1 - CĐ Nghề
103 trang 66 0 0