Danh mục tài liệu

Sự ảnh hưởng của phương pháp tách từ trong bài toán phân lớp văn bản tiếng Việt

Số trang: 10      Loại file: pdf      Dung lượng: 613.88 KB      Lượt xem: 16      Lượt tải: 0    
Xem trước 2 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Bài viết so sánh sự ảnh hưởng của các phương pháp tách từ lên hiệu quả phân lớp văn bản tiếng Việt, để từ đó chọn ra phương pháp hiệu quả nhất. Thực nghiệm trên tập dữ liệu 6,000 văn bản thuộc 10 chủ đề và tập dữ liệu 105,293 quyển sách thuộc 166 chủ đề với giải thuật máy học SVM cho thấy rằng kết quả phân lớp với các phương pháp tách từ khác nhau tuy có sự khác biệt nhưng không có ý nghĩa thống kê trong bài toán phân lớp văn bản tiếng Việt.
Nội dung trích xuất từ tài liệu:
Sự ảnh hưởng của phương pháp tách từ trong bài toán phân lớp văn bản tiếng Việt Kỷ yếu Hội nghị Khoa học Quốc gia lần thứ IX ―Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR9)‖; Cần Thơ, ngày 4-5/8/2016 DOI: 10.15625/vap.2016.00084 SỰ ẢNH HƯỞNG CỦA PHƯƠNG PHÁP TÁCH TỪ TRONG BÀI TOÁN PHÂN LỚP VĂN BẢN TIẾNG VIỆT Phạm Nguyên Khang, Trần Nguyễn Minh Thư, Phạm Thế Phi, Đỗ Thanh Nghị Khoa Công nghệ thông tin & Truyền thông, Trường Đại học Cần Thơ {pnkhang, tnmthu, ptphi, dtnghi}@cit.ctu.edu.vn TÓM TẮT— Tách từ là một bước quan trọng không thể thiếu trong xử lý ngôn ngữ tự nhiên, nhằm xác định được ranh giới các từ có trong văn bản. Trong tiếng Việt, ngoài từ đơn (một âm tiết), còn có từ ghép (đa âm tiết). Điều này gây khó khăn cho việc tách từ tự động một cách chính xác, ảnh hưởng đến kết quả của các bài toán phân tích dữ liệu văn bản như: gom nhóm, phân lớp văn bản. Hai tiếp cận chính để tách từ là dựa trên từ điển và thống kê (hoặc kết hợp hai tiếp cận). Trong bài toán phân lớp văn bản, tách từ mới chỉ là bước tiền xử lý và biểu diễn dữ liệu. Bước kế tiếp là sử dụng một mô hình máy học để huấn luyện bộ phân lớp. Đối với một số mô hình máy học như máy học véc-tơ hỗ trợ (SVM), phân tích thành phần chính, phân tích tương ứng, các từ ghép có thể được phát hiện dựa vào sự đồng xuất hiện của các âm tiết mà không cần đến một bước tách từ chính xác. Trong bài báo này, chúng tôi nghiên cứu so sánh sự ảnh hưởng của các phương pháp tách từ lên hiệu quả phân lớp văn bản tiếng Việt, để từ đó chọn ra phương pháp hiệu quả nhất. Thực nghiệm trên tập dữ liệu 6,000 văn bản thuộc 10 chủ đề và tập dữ liệu 105,293 quyển sách thuộc 166 chủ đề với giải thuật máy học SVM cho thấy rằng kết quả phân lớp với các phương pháp tách từ khác nhau tuy có sự khác biệt nhưng không có ý nghĩa thống kê trong bài toán phân lớp văn bản tiếng Việt. Từ khóa— Tách từ, phương pháp tách từ tiếng Việt, xử lý ngôn ngữ tự nhiên, phân lớp văn bản. I. GIỚI THIỆU Với sự phát triển nhanh chóng của công nghệ thông tin, nguồn thông tin trực tuyến (online) dưới dạng văn bản xuất hiện càng ngày càng nhiều. Nguồn thông tin này đến từ các thư viện điện tử, thư điện tử, trang web, hệ thống tìm kiếm và tra cứu thông tin. Việc khám phá tri thức tiềm ẩn từ kho dữ liệu văn bản là cần thiết cho việc quản lý, khai thác hiệu quả nguồn thông tin văn bản khổng lồ này. Phân lớp văn bản (text categorization) là một trong những kỹ thuật chính để xử lý và tổ chức dữ liệu văn bản. Kỹ thuật phân lớp văn bản được dùng để gán nhãn tự động các bản tin, sắp xếp tổ chức email hay tập tin, nhận dạng thư rác. Có để định nghĩa ngắn ngọn bài toán phân lớp văn bản như sau: gán nhãn cho từng văn bản theo chủ đề đã được định nghĩa trước dựa vào nội dung của văn bản. Phân lớp văn bản thường được dựa trên mô hình ngữ nghĩa hoặc máy học. Tuy nhiên như bài phỏng vấn được thực hiện bởi M. Lucas (Tạp chí Mappa Mundi) năm 1999, M. Hearst cho rằng tiếp cận ngữ nghĩa là vấn đề rất khó, phức tạp. Vì vậy, tiếp cận dựa trên máy học tự động lại đơn giản và cho nhiều kết quả tốt trong thực tiễn. Hầu hết các phương pháp phân loại văn bản dựa trên mô hình thống kê từ và các giải thuật máy học phân lớp (Dumais et al., 1998), (Sebastiani, 1999), (Manning et al., 2008). Bước đầu tiên trong phân lớp văn bản là biến đổi văn bản từ chuỗi ký tự về dạng phù hợp với các giải thuật học máy. Đặc điểm chung của nguồn dữ liệu văn bản là không có cấu trúc (độ dài khác nhau) trong khi đa số các giải thuật đòi hỏi dữ liệu huấn luyện phải có cấu trúc (chiều dài các véc-tơ đặc trưng phải giống nhau chẳng hạn). Các nghiên cứu trong lĩnh vực truy vấn thông tin đã chỉ ra rằng thứ tự của các từ trong văn bản đóng vai trò không quan trọng lắm đối với hầu hết các bài toán phân tích, xử lý dữ liệu văn bản (Joachims, 1999). Chính vì thế mô hình túi từ (Salton et al., 1975) là một mô hình phổ biến cho biểu diễn dữ liệu văn bản. Theo mô hình này, mỗi từ (khác nhau) trong văn bản sẽ là một đặc trưng (feature) và tần số xuất hiện của nó trong văn bản là giá trị của đặc trưng tương ứng. Quá trình trích đặc trưng bao gồm tách từ (word segmentation) và đếm số lần xuất hiện của các từ trong văn bản. Như thế, văn bản sẽ được biểu diễn dưới dạng véc-tơ tần số. Bước tiếp theo là huấn luyện mô hình học tự động từ bảng dữ liệu này. Các mô hình máy học thường sử dụng như giải thuật k-NN (Fix & Hodges, 1952), naive Bayes (Good, 1965), cây quyết định (Quinlan, 1993), (Breiman et al., 1984), máy học véc-tơ hỗ trợ (Vapnik, 1995), giải thuật tập hợp mô hình bao gồm Boosting (Freund & Schapire, 1995), (Breiman, 1998) và rừng ngẫu nhiên (Breiman, 2001). Các nghiên cứu về máy học trước đây của (Phạm et al., 2006), (Phạm et al., 2008), (Đỗ, 2012), (Đỗ & Phạm, 2013) đề xuất các giải thuật máy học dựa trên tập hợp mô hình, máy học ...