Danh mục tài liệu

Ứng dụng tối ưu hóa đa mục tiêu trong bài toán tự động phân loại thư rác

Số trang: 6      Loại file: pdf      Dung lượng: 1,007.38 KB      Lượt xem: 27      Lượt tải: 0    
Xem trước 2 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Bài báo trình bày một giải pháp cho vấn đề này dựa trên việc ứng dụng mô hình tối ưu hóa đa mục tiêu trong thiết kế các bộ lọc thư rác. Để đánh giá giải pháp, nhóm tác giả đã thực hiện thí nghiệm thiết kế các luật lọc thư rác cho phần mềm SpamAssassin sử dụng dữ liệu thư điện tử tiếng Việt. Kết quả thí nghiệm cho thấy phương pháp mới không chỉ cho kết quả tốt hơn so với các phương pháp hiện có mà còn cho phép đánh giá “sự thỏa hiệp” (tradeoff) giữa hai tỉ lệ nói trên khi thiết kế bộ lọc thư rác. Mời các bạn cùng tham khảo!
Nội dung trích xuất từ tài liệu:
Ứng dụng tối ưu hóa đa mục tiêu trong bài toán tự động phân loại thư rác HộiHội Thảo Thảo Quốc Quốc Gia2015 Gia 2015về vềĐiện Điện Tử, Tử,Truyền Truyền Thông Thông và vàCông CôngNghệ NghệThông TinTin Thông (ECIT 2015) (ECIT 2015) Ứng dụng tối ưu hóa đa mục tiêu trong bài toán tự động phân loại thư rác Nguyễn Xuân Thắng1, Trần Quang Anh2 , Trịnh Bảo Ngọc1 và Nguyễn Thanh Hà2 1 : Đại học Hà Nội. Email: {nxthang, ngoctb}@hanu.edu.vn 2 : Học Viện Công Nghệ Bưu Chính Viễn Thông. Email: tqanh@ptit.edu.vn; thanhha140589@gmail.com Abstract— Một vấn đề còn tồn tại trong các hệ thống phân loại tự Hiện tại quy trình thiết kế bộ lọc thư rác theo phương pháp động thư rác dựa trên nội dung là làm sao để cân bằng giữa độ học máy gồm các bước như sau: chính xác phân loại thư rác và tỉ lệ chặn nhầm thư hợp lệ khi - Sử dụng các tập mẫu để huấn luyện bộ phân loại tự động. thiết kế các bộ lọc thư rác. Bài báo trình bày một giải pháp cho - Chọn một ngưỡng T dùng để xác định xem một thư mới có vấn đề này dựa trên việc ứng dụng mô hình tối ưu hóa đa mục phải là thư rác hay không. Thư mới được tách thành các tiêu trong thiết kế các bộ lọc thư rác. Để đánh giá giải pháp, nhóm tác giả đã thực hiện thí nghiệm thiết kế các luật lọc thư rác đặc trưng và so sánh với các đặc trưng đã được ghi nhận cho phần mềm SpamAssassin sử dụng dữ liệu thư điện tử tiếng bởi bộ huấn luyện. Nếu tổng trọng số của các đặc trưng Việt. Kết quả thí nghiệm cho thấy phương pháp mới không chỉ này lớn hơn giá trị T thì thư mới sẽ được phân loại là thư cho kết quả tốt hơn so với các phương pháp hiện có mà còn cho rác. phép đánh giá “sự thỏa hiệp” (tradeoff) giữa hai tỉ lệ nói trên khi - Tính toán các tham số SDR và FAR để đánh giá hiệu quả thiết kế bộ lọc thư rác. của bộ lọc. Theo quy trình trên giá trị của SDR và FAR phụ thuộc vào Keywords- Lọc thư rác, tối ưu hóa đa mục tiêu, giải thuật di ngưỡng T và trọng số của các đặc trưng. Để tìm ra bộ lọc có truyền, SpamAssassin. SDR và FAR phù hợp người dùng phải thử các giá trị T và I. GIỚI THIỆU trọng số khác nhau rồi lặp lại cả quy trình. Lưu ý là quá trình huấn luyện bộ phân loại thường rất tốn thời gian do tập mẫu Ngày nay, thư điện tử đã trở thành một công cụ đắc lực lớn. Hơn nữa, quy trình chưa hỗ trợ việc đánh giá “sự thỏa phục vụ cho nhu cầu trao đổi thông tin của các cơ quan, tổ hiệp” giữa SDR và FAR. chức, doanh nghiệp cũng như mỗi cá nhân. Tuy nhiên, thư điện Nhóm tác giả đề xuất giải pháp cho vấn đề trên bằng cách tử cũng đang bị lợi dụng để phát tán thư rác, lây lan virus máy coi yêu cầu thiết kế bộ lọc thư rác là một bài toán tối ưu hóa đa tính và lừa đảo trực tuyến, gây thiệt hại lớn cho người sử dụng. mục tiêu trong đó ta cần tìm giá trị ngưỡng T và các trọng số Nhiều giải pháp đã được đưa ra để đối phó với vấn nạn thư rác, của mỗi đặc trưng sao cho tham số SDR và FAR của bộ lọc thư trong đó đáng kể nhất là các giải pháp tự động phân loại thư rác là tối ưu. Giải pháp này được áp dụng để thiết kế bộ lọc thư rác dựa trên nội dung thông qua học máy. Phương pháp này rác trên nền tảng phần mềm SpamAssassin [1] với các đặc cần có hai tập mẫu riêng biệt chứa các thư rác và các thư hợp lệ trưng được trích chọn là các luật và trọng số của mỗi đặc trưng đã được phân loại chính xác từ trước. Từ các tập mẫu này, một là điểm của luật tương ứng. Do đặc thù của bài toán tối ưu đa thuật toán học máy được sử dụng để trích chọn các đặc trưng mục tiêu được mô tả trong bài báo là có không gian tìm kiếm nội dung (thường là từ hoặc cụm từ) của thư rác, đánh trọng số ...

Tài liệu được xem nhiều:

Tài liệu có liên quan: