
Ứng dụng tối ưu hóa đa mục tiêu trong bài toán tự động phân loại thư rác
Thông tin tài liệu:
Nội dung trích xuất từ tài liệu:
Ứng dụng tối ưu hóa đa mục tiêu trong bài toán tự động phân loại thư rác HộiHội Thảo Thảo Quốc Quốc Gia2015 Gia 2015về vềĐiện Điện Tử, Tử,Truyền Truyền Thông Thông và vàCông CôngNghệ NghệThông TinTin Thông (ECIT 2015) (ECIT 2015) Ứng dụng tối ưu hóa đa mục tiêu trong bài toán tự động phân loại thư rác Nguyễn Xuân Thắng1, Trần Quang Anh2 , Trịnh Bảo Ngọc1 và Nguyễn Thanh Hà2 1 : Đại học Hà Nội. Email: {nxthang, ngoctb}@hanu.edu.vn 2 : Học Viện Công Nghệ Bưu Chính Viễn Thông. Email: tqanh@ptit.edu.vn; thanhha140589@gmail.com Abstract— Một vấn đề còn tồn tại trong các hệ thống phân loại tự Hiện tại quy trình thiết kế bộ lọc thư rác theo phương pháp động thư rác dựa trên nội dung là làm sao để cân bằng giữa độ học máy gồm các bước như sau: chính xác phân loại thư rác và tỉ lệ chặn nhầm thư hợp lệ khi - Sử dụng các tập mẫu để huấn luyện bộ phân loại tự động. thiết kế các bộ lọc thư rác. Bài báo trình bày một giải pháp cho - Chọn một ngưỡng T dùng để xác định xem một thư mới có vấn đề này dựa trên việc ứng dụng mô hình tối ưu hóa đa mục phải là thư rác hay không. Thư mới được tách thành các tiêu trong thiết kế các bộ lọc thư rác. Để đánh giá giải pháp, nhóm tác giả đã thực hiện thí nghiệm thiết kế các luật lọc thư rác đặc trưng và so sánh với các đặc trưng đã được ghi nhận cho phần mềm SpamAssassin sử dụng dữ liệu thư điện tử tiếng bởi bộ huấn luyện. Nếu tổng trọng số của các đặc trưng Việt. Kết quả thí nghiệm cho thấy phương pháp mới không chỉ này lớn hơn giá trị T thì thư mới sẽ được phân loại là thư cho kết quả tốt hơn so với các phương pháp hiện có mà còn cho rác. phép đánh giá “sự thỏa hiệp” (tradeoff) giữa hai tỉ lệ nói trên khi - Tính toán các tham số SDR và FAR để đánh giá hiệu quả thiết kế bộ lọc thư rác. của bộ lọc. Theo quy trình trên giá trị của SDR và FAR phụ thuộc vào Keywords- Lọc thư rác, tối ưu hóa đa mục tiêu, giải thuật di ngưỡng T và trọng số của các đặc trưng. Để tìm ra bộ lọc có truyền, SpamAssassin. SDR và FAR phù hợp người dùng phải thử các giá trị T và I. GIỚI THIỆU trọng số khác nhau rồi lặp lại cả quy trình. Lưu ý là quá trình huấn luyện bộ phân loại thường rất tốn thời gian do tập mẫu Ngày nay, thư điện tử đã trở thành một công cụ đắc lực lớn. Hơn nữa, quy trình chưa hỗ trợ việc đánh giá “sự thỏa phục vụ cho nhu cầu trao đổi thông tin của các cơ quan, tổ hiệp” giữa SDR và FAR. chức, doanh nghiệp cũng như mỗi cá nhân. Tuy nhiên, thư điện Nhóm tác giả đề xuất giải pháp cho vấn đề trên bằng cách tử cũng đang bị lợi dụng để phát tán thư rác, lây lan virus máy coi yêu cầu thiết kế bộ lọc thư rác là một bài toán tối ưu hóa đa tính và lừa đảo trực tuyến, gây thiệt hại lớn cho người sử dụng. mục tiêu trong đó ta cần tìm giá trị ngưỡng T và các trọng số Nhiều giải pháp đã được đưa ra để đối phó với vấn nạn thư rác, của mỗi đặc trưng sao cho tham số SDR và FAR của bộ lọc thư trong đó đáng kể nhất là các giải pháp tự động phân loại thư rác là tối ưu. Giải pháp này được áp dụng để thiết kế bộ lọc thư rác dựa trên nội dung thông qua học máy. Phương pháp này rác trên nền tảng phần mềm SpamAssassin [1] với các đặc cần có hai tập mẫu riêng biệt chứa các thư rác và các thư hợp lệ trưng được trích chọn là các luật và trọng số của mỗi đặc trưng đã được phân loại chính xác từ trước. Từ các tập mẫu này, một là điểm của luật tương ứng. Do đặc thù của bài toán tối ưu đa thuật toán học máy được sử dụng để trích chọn các đặc trưng mục tiêu được mô tả trong bài báo là có không gian tìm kiếm nội dung (thường là từ hoặc cụm từ) của thư rác, đánh trọng số ...
Tìm kiếm theo từ khóa liên quan:
Kỷ yếu hội nghị Quốc gia về Điện tử truyền thông Bài toán tự động phân loại thư rác Lọc thư rác Tối ưu hóa đa mục tiêu Giải thuật di truyền Quy trình thiết kế bộ lọc thư rácTài liệu có liên quan:
-
LUẬN VĂN: TÌM HIỂU PHƯƠNG PHÁP HỌC TÍCH CỰC VÀ ỨNG DỤNG CHO BÀI TOÁN LỌC THƯ RÁC
65 trang 260 0 0 -
7 trang 204 0 0
-
12 trang 202 0 0
-
Kỹ thuật điều chế QPSK cho hệ thống thông tin quang vô tuyến DWDM
6 trang 153 0 0 -
6 trang 146 0 0
-
Phương pháp chênh lệch trong hiện thực hóa các hàm phức tạp trên ASIC cho các hệ thống DSP
6 trang 127 0 0 -
Khảo sát thuật toán OSD sử dụng bộ mã RS và kỹ thuật điều chế QAM
5 trang 127 0 0 -
Hệ phương trình phi tuyến và giải thuật di truyền - Phương pháp nghiên cứu khoa học
16 trang 94 0 0 -
Bài giảng Lý thuyết điều khiển tự động: Chương 2.7 - TS. Nguyễn Thu Hà
10 trang 60 0 0 -
9 trang 51 0 0
-
Nghiên cứu hệ thống điều khiển thông minh: Phần 1
232 trang 43 0 0 -
Mô hình nghiên cứu thực nghiệm về truyền dữ liệu thời gian thực sử dụng ánh sáng đèn LED
6 trang 41 0 0 -
Tối ưu đa mục tiêu và ứng dụng trong kỹ thuật
3 trang 39 0 0 -
Điều khiển ổn định hệ Acrobot sử dụng giải thuật LQR-GA
8 trang 38 0 0 -
Nén tín hiệu ECG và bảo mật thông tin bệnh nhân
4 trang 38 0 0 -
Kỹ thuật tái sử dụng tần số mềm trong mạng LTE
5 trang 37 0 0 -
Một phương thức phát hiện bất thường trong lưu lượng mạng
4 trang 36 0 0 -
Cực tiểu hóa thời gian trễ trung bình trong một mạng hàng đợi bằng giải thuật di truyền.
6 trang 35 0 0 -
Xây dựng bộ điều khiển hồi tiếp tuyến tính hóa vào-ra cho hệ con lắc ngược quay
10 trang 35 0 0 -
Phân tích tính hội tụ của thuật toán di truyền lai mới
8 trang 35 0 0