Danh mục tài liệu

Về một phương pháp xác định mục tiêu văn bản trong tiếng Việt

Số trang: 5      Loại file: pdf      Dung lượng: 487.63 KB      Lượt xem: 23      Lượt tải: 0    
Xem trước 2 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Bài viết giới thiệu mô hình xác định mục tiêu của văn bản tiếng Việt dựa trên cơ sở áp dụng hai giải thuật: Giải thuật phân tách từ tiếng Việt sử dụng trường điều kiện ngẫu nhiên (CRFs) và giải thuật phân loại văn bản StarSpace.
Nội dung trích xuất từ tài liệu:
Về một phương pháp xác định mục tiêu văn bản trong tiếng ViệtThông tin khoa học công nghệ VỀ MỘT PHƯƠNG PHÁP XÁC ĐỊNH MỤC TIÊU VĂN BẢN TRONG TIẾNG VIỆT Nguyễn Cảnh Hùng*, Đặng Hoàng Minh Tóm tắt: Trong bài báo này, chúng tôi giới thiệu mô hình xác định mục tiêu của văn bản tiếng Việt dựa trên cơ sở áp dụng hai giải thuật: giải thuật phân tách từ tiếng Việt sử dụng trường điều kiện ngẫu nhiên (CRFs) [1] và giải thuật phân loại văn bản StarSpace [2]. Kết quả thử nghiệm cho thấy, mô hình đề xuất đã tiến hành phân loại văn bản theo mục tiêu với độ chính xác tốt (hơn 90%) trên tập dữ liệu kiểm tra.Từ khóa: Phân loại văn bản; Tách từ; Các trường điều kiện ngẫu nhiên. 1. ĐẶT VẤN ĐỀ Bài toán phân loại văn bản là một trong các lĩnh vực thu hút được sự chú ý rất lớn củacộng đồng nghiên cứu khóa học. Thực tế này xuất phát từ ý nghĩa thực tiễn của nó. Có thểđịnh nghĩa, một bài toán phân loại văn bản (Text Classification) là một phép ánh xạ mộtvăn bản (hoặc câu văn) sang một tập hữu hạn các chủ đề dựa trên nội dung của văn bản đó.Chính vì vậy, khi giải thuật phân loại văn bản được xây dựng, nó có thể được ứng dụngtheo nhiều cách như: phân loại văn bản theo cảm xúc của người viết (tích cực hay tiêucực); phân loại văn bản theo chủ đề (như: thể thao, chính trị, kinh tế,...). Bài toán xác địnhmục tiêu của văn bản cũng là một dạng không tách rời của bài toán phân loại văn bản.Trên thế giới hiện nay, rất nhiều giải thuật phân loại văn bản dựa trên Deep Learning[3] đãchứng minh được tính ưu việt của nó so với các công nghệ trước đó [4]. Tuy nhiên, việc áp dụng trực tiếp các giải thuật này vào ngôn ngữ tiếng Việt thườngđem lại kết quả không cao. Lý do là vì, tiếng Việt là loại hình ngôn ngữ đơn lập. Nghĩa làmỗi tiếng được phát âm tách rời nhau và được thể hiện bằng một chữ viết. Mỗi từ có thểđược cấu thành bởi một hoặc nhiều tiếng. Tiếng, về hình thức, nó trùng với một đoạn phátâm tự nhiên gọi là âm tiết. Về nội dung, nó là đơn vị nhỏ nhất có nội dung được thể hiện.Về ý nghĩa, có những tiếng tự thân nó đã mang một ý nghĩa, phản ánh một đối tượng hoặckhái niệm, ví dụ: cây, trời, cỏ, lá, ăn, nói, cười,… Có những tiếng không phản ánh hay thểhiện một ngữ nghĩa hay đối tượng nào cả. Nhưng bản thân sự có mặt của nó trong từ cóthể tạo nên một sự khác biệt lớn. Nghĩa là, nó kết hợp với một hay nhiều tiếng khác cónghĩa để tạo nên từ (ví dụ: tiếng “sá” trong từ “đường sá”, “e” trong từ “e lệ”, “khúc”trong từ “khúc mắc”…). Bên cạnh đó, cách viết tách từng tiếng của một từ ra cũng là sự khác biệt lớn giữa tiếngViệt và các ngôn ngữ khác, đặc biệt là tiếng Anh (ngôn ngữ nền tảng của các thử nghiệmgiải thuật phân loại văn bản). Nói cách khác, trong tiếng Anh, mỗi từ mang ý nghĩa sẽđược phân tách với nhau bởi một khoảng trắng. Do đó, khi xử lý tiếng Anh, các giải thuậtcó xu thế phân tách các câu thành từng đơn vị ngữ nghĩa nhỏ dựa trên khoảng trẳng. Trongkhi đó, với tiếng Việt, phương pháp này sẽ phá với ý nghĩa của từ. Trong bài báo này, nhóm nghiên cứu đề xuất áp dụng kết hợp 02 giải thuật là: giải thuậttách từ cho tiếng Việt và giải thuật phân loại văn bản StarSpace nhằm nâng cao hiệu quảcủa quá trình xác định mục tiêu văn bản. 2. CÁC GIẢI THUẬT SỬ DỤNG2.1. Giải thuật tách từ tiếng Việt sử dụng các trường điều kiện ngẫu nhiên(Conditional Random Fields - CRFs) Ta có thể quy bài toán tách từ trong tiếng Việt thành bài toán gán nhãn cho các âm tiết238 Nguyễn Cảnh Hùng, Đặng Hoàng Minh, “Về một phương pháp … trong tiếng Việt.”Thông tin khoa học công nghệtiếng Việt. Dựa vào các nhãn đó, ta có thể xác định được ranh giới của từng từ trong vănbản tiếng Việt. Các nhãn được sử dụng ở đây là: • B_W: nhãn đánh dấu bắt đầu một từ; • I_W: nhãn đánh dấu ở trong một từ. Ví dụ, câu văn: “Hôm nay là ngày Quốc Khánh nước Hà Lan” sẽ được gán nhãn như sau:Hôm nay là ngày Quốc Khánh nước Hà LanB_W I_W B_W B_W B_W I_W B_W B_W I_W Dựa trên việc gán nhãn này, giải thuật sẽ đánh dấu các từ trong câu như sau: “Hôm_nay là ngày Quốc_Khánh nước Hà_Lan” Như vậy, bài toán phân đoạn từ tiếng Việt có thể phát biểu là: “Hãy xây dựng một mô hình để gán nhãn {B_W, I_W} cho các âm tiết của văn bảntiếng Việt chưa được tách từ”. Bài toán này được giải khi mô hình tìm thấy nhãn phù hợp nhất cho từng âm tiết. Việcđịnh nhãn này được biểu diễn bằng: ∗ = { ( | } (1) * Trong đó, y* là nhãn cho âm tiết x. y là một trong các nhãn thuộc tập nhãn y. Người ta có thể giải quyết bài toán này bằng nhiều mô hình như Markov ẩn [5]. Tuynhiên, h ...