
Trích xuất thực thể trong an toàn thông tin sử dụng học sâu
Thông tin tài liệu:
Nội dung trích xuất từ tài liệu:
Trích xuất thực thể trong an toàn thông tin sử dụng học sâu Nguyễn Ngọc Điệp, Nguyễn Thị Thanh Thủy TRÍCH XUẤT THỰC THỂ TRONG AN TOÀN THÔNG TIN SỬ DỤNG HỌC SÂU Nguyễn Ngọc Điệp, Nguyễn Thị Thanh Thủy Học viện Công nghệ Bưu chính Viễn thông Tóm tắt: Hiện nay, với sự gia tăng nhanh chóng của các tạp và đa dạng của văn bản trong lĩnh vực này, việc xác nguồn tài liệu liên quan đến lĩnh vực an toàn thông tin, việc định các thực thể này là một công việc có nhiều thách thức. trích xuất tự động các thông tin quan trọng từ các nguồn Về cơ bản, việc xác định các thực thể trong an toàn thông tài liệu này là một nhu cầu cấp thiết. Một trong những loại tin là bài toán nhận dạng thực thể có tên (NER) trong xử lý thông tin phổ biến cần trích xuất đó là các thực thể có tên, ngôn ngữ tự nhiên. Các thực thể có thể là chương trình phần như tên chương trình phần mềm, tin tặc, chương trình mã mềm, thiết bị, công nghệ, tin tặc hay chương trình độc hại, độc, lỗ hổng, công nghệ, các kỹ thuật,... Tuy nhiên, do tính lỗ hổng (CVE), v.v. Một trong các phương pháp tiếp cận phức tạp, đa dạng, có nhiều đặc trưng về chuyên ngành ban đầu nhanh chóng và hiệu quả để nhận dạng các thực riêng của các nguồn tài liệu này, việc xác định các thực thể thể này là dựa trên luật. Các phương pháp dựa trên luật có có tên hiện còn gặp rất nhiều khó khăn. Gần đây, có một thể trích xuất các thực thể theo mẫu như email, địa chỉ IP số phương pháp tiếp cận để giải quyết bài toán này, trong hay các lỗ hổng phổ biến, hoặc dựa vào tập từ điển để nhận đó nổi trội hơn là các phương pháp dựa trên học sâu, là các dạng ra các thực thể đã biết. Tuy nhiên phương pháp này kỹ thuật tiên tiến nhất, được sử dụng nhiều trong lĩnh vực không phù hợp đối với các trường hợp phức tạp của văn trích xuất thông tin. Trong bài báo này, chúng tôi trình bày bản an toàn thông tin, với cấu trúc văn bản không theo quy một phương pháp trích xuất thực thể có tên trong an toàn tắc thông thường, xuất hiện nhiều thực thể có tên mới, đồng thông tin sử dụng các kỹ thuật học sâu, là mô hình kết hợp thời yêu cầu chi phí cao về cả thời gian, con người và tiền gồm word2vec, BERT, BiLSTM và CRF. Đồng thời, bạc để duy trì, cập nhật kịp thời thông tin mới nhất xuất chúng tôi cũng đề xuất một phương pháp để tăng cường, hiện liên tục trong thời gian tính bằng phút hoặc thậm chí bổ sung dữ liệu cho các thực thể có số lượng ít trong tập bằng giây. dữ liệu. Kết quả cho thấy mô hình đề xuất có độ chính xác khá cao, với độ đo F1 lên tới 72,86% khi thử nghiệm trích Tiếp đó, nhiều phương pháp học máy khác nhau được áp xuất thực thể có tên trên tập dữ liệu văn bản an toàn thông dụng để trích xuất thực thể mới trong các văn bản an toàn tin. Phương pháp tăng cường dữ liệu đề xuất cũng đạt được thông tin như dựa trên Conditional random fields (CRF) [2, hiệu quả khả quan. 3], Support vector machines (SVM) [4], Expectation regularization [5], Bootstrapping algorithm [6], Maximum Từ khóa: An toàn thông tin, trích xuất thực thể, entropy model (ME) [7] nhưng tính hiệu quả chưa thực sự BiLSTM, CRF, BERT. cao, dù cho các phương pháp này đã đạt được kết quả tốt I. GIỚI THIỆU khi nhận dạng thực thể mới trong các văn bản thông thường trong xử lý ngôn ngữ tự nhiên. Nguyên nhân là các mô hình Sự phát triển nhanh chóng của công nghệ Internet kéo này cần phải xác định nhiều đặc trưng thủ công và bỏ qua theo ngày càng nhiều những mối de dọa cho người dùng và mối tương quan của các thực thể, kéo theo đó là việc khó các công ty trên toàn thế giới. Mỗi ngày, có rất nhiều các có thể đáp ứng được với các ứng dụng quy mô lớn [1]. báo cáo điều tra về các mối đe dọa, sự cố về an toàn thông tin cùng nhiều các văn bản về vấn đề an ninh mạng khác Một bước tiến nhảy vọt về xử lý ngôn ngữ tự nhiên trong như các hướng dẫn, chính sách, các công cụ, công nghệ những năm gần đây là học sâu. Đây là mô hình mạng nơ- được cung cấp trên Internet. Việc xác định và phân loại các ron có thể tự học hiệu quả các đặc trưng tổ hợp phi tuyến, thông tin về an toàn thông tin một cách tự động đóng vai trong khi các phương pháp cổ điển như CRF chỉ có thể học trò cấp thiết trong nhiều ứng dụng, và hỗ trợ cho nhiều đối các tổ hợp tuyến tính của các đối tượng đã xác định. Việc tượng người dùng khác nhau như nhân viên kiểm toán, nhà mở rộng khả năng truy cập thông tin, tăng sức mạ ...
Tìm kiếm theo từ khóa liên quan:
An toàn thông tin Trích xuất thực thể Kỹ thuật học sâu Xử lý ngôn ngữ tự nhiên Phương pháp BiLSTMTài liệu có liên quan:
-
12 trang 337 0 0
-
Đề cương chi tiết bài giảng môn Đảm bảo và an toàn thông tin
25 trang 301 0 0 -
Phương pháp tạo ra văn bản tiếng Việt có đề tài xác định
7 trang 283 0 0 -
Giáo trình Lập trình logic trong prolog: Phần 1
114 trang 224 0 0 -
Giáo trình An toàn, an ninh thông tin và mạng lưới
142 trang 200 0 0 -
Kiến thức căn bản về Máy tính - Phùng Văn Đông
52 trang 194 0 0 -
Xây dựng ontology trợ giúp ra quyết định về đào tạo cho các trường Đại học ở Việt Nam
10 trang 180 0 0 -
Tích hợp DSM và ảnh chụp UAV với mô hình nơ-ron tích chập trong phân loại lớp phủ mặt đất
8 trang 167 0 0 -
74 trang 161 0 0
-
Bài giảng Xử lý ngôn ngữ tự nhiên: Phân tích cú pháp xác suất - Lê Thanh Hương
19 trang 156 0 0 -
Trích xuất danh mục khía cạnh sử dụng BERT với hàm mất mát cân bằng
9 trang 142 0 0 -
Xây dựng các cặp câu hỏi - câu trả lời chất lượng cao từ các trang Web hỏi đáp cộng đồng
9 trang 125 0 0 -
Giáo trình An toàn và bảo mật thông tin - Đại học Bách Khoa Hà Nội
110 trang 118 0 0 -
Về một giải pháp cứng hóa phép tính lũy thừa modulo
7 trang 110 0 0 -
Giáo trình An toàn & Bảo mật thông tin - TS. Nguyễn Khanh Văn (ĐH Bách khoa Hà Nội)
56 trang 108 0 0 -
Giáo trình Nhận dạng và xử lý ảnh: Phần 2
137 trang 102 0 0 -
Tóm tắt luận án Tiến sĩ Kỹ thuật: Sử dụng ngôn ngữ trục trong dịch đa ngữ
27 trang 100 0 0 -
Blockchain – Một số ứng dụng trong trường đại học
12 trang 98 0 0 -
Một số thuật toán giấu tin trong ảnh có bảng màu và áp dụng giấu tin mật trong ảnh GIF
5 trang 97 0 0 -
Bài giảng An toàn thông tin: Chương 7 - ThS. Nguyễn Thị Phong Dung
31 trang 84 0 0