Danh mục tài liệu

Trích xuất thực thể trong an toàn thông tin sử dụng học sâu

Số trang: 8      Loại file: pdf      Dung lượng: 2.23 MB      Lượt xem: 60      Lượt tải: 0    
Xem trước 1 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Bài viết Trích xuất thực thể trong an toàn thông tin sử dụng học sâu trình bày một phương pháp trích xuất thực thể có tên trong an toàn thông tin sử dụng các kỹ thuật học sâu, là mô hình kết hợp gồm word2vec, BERT, BiLSTM và CRF.
Nội dung trích xuất từ tài liệu:
Trích xuất thực thể trong an toàn thông tin sử dụng học sâu Nguyễn Ngọc Điệp, Nguyễn Thị Thanh Thủy TRÍCH XUẤT THỰC THỂ TRONG AN TOÀN THÔNG TIN SỬ DỤNG HỌC SÂU Nguyễn Ngọc Điệp, Nguyễn Thị Thanh Thủy Học viện Công nghệ Bưu chính Viễn thông Tóm tắt: Hiện nay, với sự gia tăng nhanh chóng của các tạp và đa dạng của văn bản trong lĩnh vực này, việc xác nguồn tài liệu liên quan đến lĩnh vực an toàn thông tin, việc định các thực thể này là một công việc có nhiều thách thức. trích xuất tự động các thông tin quan trọng từ các nguồn Về cơ bản, việc xác định các thực thể trong an toàn thông tài liệu này là một nhu cầu cấp thiết. Một trong những loại tin là bài toán nhận dạng thực thể có tên (NER) trong xử lý thông tin phổ biến cần trích xuất đó là các thực thể có tên, ngôn ngữ tự nhiên. Các thực thể có thể là chương trình phần như tên chương trình phần mềm, tin tặc, chương trình mã mềm, thiết bị, công nghệ, tin tặc hay chương trình độc hại, độc, lỗ hổng, công nghệ, các kỹ thuật,... Tuy nhiên, do tính lỗ hổng (CVE), v.v. Một trong các phương pháp tiếp cận phức tạp, đa dạng, có nhiều đặc trưng về chuyên ngành ban đầu nhanh chóng và hiệu quả để nhận dạng các thực riêng của các nguồn tài liệu này, việc xác định các thực thể thể này là dựa trên luật. Các phương pháp dựa trên luật có có tên hiện còn gặp rất nhiều khó khăn. Gần đây, có một thể trích xuất các thực thể theo mẫu như email, địa chỉ IP số phương pháp tiếp cận để giải quyết bài toán này, trong hay các lỗ hổng phổ biến, hoặc dựa vào tập từ điển để nhận đó nổi trội hơn là các phương pháp dựa trên học sâu, là các dạng ra các thực thể đã biết. Tuy nhiên phương pháp này kỹ thuật tiên tiến nhất, được sử dụng nhiều trong lĩnh vực không phù hợp đối với các trường hợp phức tạp của văn trích xuất thông tin. Trong bài báo này, chúng tôi trình bày bản an toàn thông tin, với cấu trúc văn bản không theo quy một phương pháp trích xuất thực thể có tên trong an toàn tắc thông thường, xuất hiện nhiều thực thể có tên mới, đồng thông tin sử dụng các kỹ thuật học sâu, là mô hình kết hợp thời yêu cầu chi phí cao về cả thời gian, con người và tiền gồm word2vec, BERT, BiLSTM và CRF. Đồng thời, bạc để duy trì, cập nhật kịp thời thông tin mới nhất xuất chúng tôi cũng đề xuất một phương pháp để tăng cường, hiện liên tục trong thời gian tính bằng phút hoặc thậm chí bổ sung dữ liệu cho các thực thể có số lượng ít trong tập bằng giây. dữ liệu. Kết quả cho thấy mô hình đề xuất có độ chính xác khá cao, với độ đo F1 lên tới 72,86% khi thử nghiệm trích Tiếp đó, nhiều phương pháp học máy khác nhau được áp xuất thực thể có tên trên tập dữ liệu văn bản an toàn thông dụng để trích xuất thực thể mới trong các văn bản an toàn tin. Phương pháp tăng cường dữ liệu đề xuất cũng đạt được thông tin như dựa trên Conditional random fields (CRF) [2, hiệu quả khả quan. 3], Support vector machines (SVM) [4], Expectation regularization [5], Bootstrapping algorithm [6], Maximum Từ khóa: An toàn thông tin, trích xuất thực thể, entropy model (ME) [7] nhưng tính hiệu quả chưa thực sự BiLSTM, CRF, BERT. cao, dù cho các phương pháp này đã đạt được kết quả tốt I. GIỚI THIỆU khi nhận dạng thực thể mới trong các văn bản thông thường trong xử lý ngôn ngữ tự nhiên. Nguyên nhân là các mô hình Sự phát triển nhanh chóng của công nghệ Internet kéo này cần phải xác định nhiều đặc trưng thủ công và bỏ qua theo ngày càng nhiều những mối de dọa cho người dùng và mối tương quan của các thực thể, kéo theo đó là việc khó các công ty trên toàn thế giới. Mỗi ngày, có rất nhiều các có thể đáp ứng được với các ứng dụng quy mô lớn [1]. báo cáo điều tra về các mối đe dọa, sự cố về an toàn thông tin cùng nhiều các văn bản về vấn đề an ninh mạng khác Một bước tiến nhảy vọt về xử lý ngôn ngữ tự nhiên trong như các hướng dẫn, chính sách, các công cụ, công nghệ những năm gần đây là học sâu. Đây là mô hình mạng nơ- được cung cấp trên Internet. Việc xác định và phân loại các ron có thể tự học hiệu quả các đặc trưng tổ hợp phi tuyến, thông tin về an toàn thông tin một cách tự động đóng vai trong khi các phương pháp cổ điển như CRF chỉ có thể học trò cấp thiết trong nhiều ứng dụng, và hỗ trợ cho nhiều đối các tổ hợp tuyến tính của các đối tượng đã xác định. Việc tượng người dùng khác nhau như nhân viên kiểm toán, nhà mở rộng khả năng truy cập thông tin, tăng sức mạ ...

Tài liệu được xem nhiều:

Tài liệu có liên quan: