
Xây dựng bộ ngữ liệu đồng tham chiếu cho tiếng Việt
Thông tin tài liệu:
Nội dung trích xuất từ tài liệu:
Xây dựng bộ ngữ liệu đồng tham chiếu cho tiếng ViệtKỷ yếu Hội nghị KHCN Quốc gia lần thứ XIII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR), Nha Trang, ngày 8-9/10/2020DOI: 10.15625/vap.2020.00232 XÂY DỰNG BỘ NGỮ LIỆU ĐỒNG THAM CHIẾU CHO TIẾNG VIỆT Lê Công Cảnh1, Tiêu Vĩnh Phong1, Lương An Vinh2, Huỳnh Quang Đức3 1 Trường Đại học Khoa học Tự nhiên, ĐHQG-TP.HCM 2 Trường Đại học Công nghệ Sài Gòn 3 Khoa Công nghệ thông tin, Robot và Trí tuệ nhân tạo, Trường Đại học Bình Dương TÓM TẮT: n nh n ng tha chiếu là ột v n ề uan t ng t ng ngành l ngôn ng t nhiên N c ứng dụng ộng i t ng việc y d ng hệ thống t ả l i t ộng t ch u t thông tin uy nhiên t ng tiếng iệt bài t a n này g hảinhiều th ch thức d t nh hức t c a ngôn ng tiếng iệt và hông c ầy bộ ng liệu hả t ng h vi bài b nàych ng tôi t nh bày u t nh y d ng bộ ng liệu hu n luyện về ng tha chiếu tiếng iệt d a t ên bộ ng liệu hu n luyện tiếngAnh P eC thông ua h ơng h chiếu nh n t ên ng ng Kết uả cuối c ng ch ng tôi y d ng bộ ng liệu tiếng iệt ghơn 9800 c u t ch từ 502 n hội th i cuộc ống hằng ngày c g n nh n ng tha chiếu Bộ ng liệu này c th dùng làmng liệu ầu và ch c c nghiên cứu liên quan nh n ng tha chiếu t ng tiếng iệt. Từ khóa: G n nh n ng tha chiếu t ng tiếng iệt, l ngôn ng t nhiên, chiếu nhãn trên song ng tiếng Anh. I. GIỚI THIỆU Gán nhãn đồng tham chiếu là một trong những bài toán nhiều thách thức và nhận được sự quan tâm của hầu hếtcác nhà nghiên cứu trong lĩnh vực xử lý ngôn ngữ tự nhiên. Ứng dụng của bài toán quan hệ đồng tham chiếu trongtiếng Việt ở lĩnh vực xử lý ngôn ngữ tự nhiên có nhiều ứng dụng khác nhau như: Trích xuất thông tin (Informationextraction), hỏi đáp tự động (Question answering), tóm tắt văn bản (Summarization), … Ví dụ về đồng tham chiếu trong tiếng Việt: Ví dụ 1: Hoàng là inh viên c a T ng Đ i h c Kh a h c nhiên Ng ài gi h c cậu còn là thê t i c ahàng tiện l i gần nhà. Xét ví dụ này, đại từ cậu và danh từ riêng Hoàng có quan hệ đồng tham chiếu với nhau vì cùngchỉ một thực thể người có tên là Hoàng. Ví dụ 2: Trong nhóm, Khiêm là ột ng i c tài anh ấy c e nh là cánh tay phải c a hịnh. Xét ví dụnày, chủ từ Khiêm có quan hệ tham chiếu với đại từ anh y và cụm danh từ c nh tay hải. Việc tìm kiếm và phát hiện cụm đồng tham chiếu có thể được thực hiện bằng cách thủ công, tuy nhiên bằngcách này tốn rất nhiều thời gian và công sức, đặc biệt là việc phát hiện cho một văn bản tiếng Việt phức tạp. Do đó,việc áp dụng máy học là một cách thức phù hợp giúp giải quyết bài toán gán nhãn đồng tham chiếu trong tiếng Việt. Mặc dù có một số nghiên cứu, đề xuất giải pháp cho bài toán gán nhãn đồng tham chiếu tiếng Việt. Tuy nhiênđể có bộ ngữ liệu huấn luyện tiếng Việt đủ lớn đã được gán nhãn đồng tham chiếu cụ thể là điều không dễ dàng. Mục tiêu chính của nghiên cứu là cho ra đời mô hình chiếu nhãn đồng tham chiếu từ tiếng Anh sang tiếng Việt,góp phần giảm bớt việc gán nhãn thủ công, giảm thiểu thời gian một cách ngắn nhất có thể. Phần còn lại trong bài báo này được trình bày như sau. Phần II sẽ giới thiệu các nghiên cứu liên quan đối với bàitoán gán nhãn đồng tham chiếu trong tiếng Việt. Chúng tôi sẽ giới thiệu phương pháp đề xuất của chúng tôi ở Phần III,cũng như trình bày về kết quả đánh giá ở Phần IV. Và cuối cùng, trong Phần V, chúng tôi sẽ trình bày phần kết luận vàhướng phát triển trong tương lai. II. CÁC NGHIÊN CỨU LIÊN QUAN Ở Việt Nam, vấn đề gán nhãn đồng tham chiếu cũng đã và đang nhận được sự chú ý của các nhà nghiên cứu vềlĩnh vực xử lý ngôn ngữ tự nhiên trong những năm gần đây. Tại một số trường Đại học ở Việt Nam, các giảng viên và sinh viên cũng đang có những hướng nghiên cứu cụthể, đề xuất một số phương pháp tiếp cận khác nhau để giải quyết thực trạng của bài toán đồng tham chiếu trong tiếngViệt. Hầu hết các nghiên cứu đều sử dụng các phương pháp máy học: - Lê Đức Trọng thuộc Trường Đại học Công Nghệ (2011) giải quyết bài toán đồng tham chiếu trong văn bảntiếng Việt bằng phương pháp máy vector hỗ trợ SVM [1]. Tác giả đề xuất hai mô hình PModel và BModel với độchính xác lần lượt là 77,83 % và 71,12 % khi đánh giá cho 10 văn bản tiếng Việt khác nhau. - Hung D. Nguyen và Tru H. Cao thuộc Trường Đại học Bách khoa Thành phố Hồ Chí Minh (2018) giải quyếtbài toán đồng tham chiếu trong hồ sơ bệnh án điện tử Việt Nam theo phương pháp máy học vector hỗ trợ SVM kết hợpBest-first clustering [2].704 XÂY DỰNG B ...
Tìm kiếm theo từ khóa liên quan:
Gán nhãn đồng tham chiếu trong tiếng Việt Xử lý ngôn ngữ tự nhiên Chiếu nhãn trên song ngữ tiếng Anh Xây dựng bộ dữ liệu tiếng Việt Bài toán quan hệ tham chiếuTài liệu có liên quan:
-
12 trang 337 0 0
-
Phương pháp tạo ra văn bản tiếng Việt có đề tài xác định
7 trang 283 0 0 -
Giáo trình Lập trình logic trong prolog: Phần 1
114 trang 224 0 0 -
Xây dựng ontology trợ giúp ra quyết định về đào tạo cho các trường Đại học ở Việt Nam
10 trang 180 0 0 -
Tích hợp DSM và ảnh chụp UAV với mô hình nơ-ron tích chập trong phân loại lớp phủ mặt đất
8 trang 167 0 0 -
74 trang 161 0 0
-
Bài giảng Xử lý ngôn ngữ tự nhiên: Phân tích cú pháp xác suất - Lê Thanh Hương
19 trang 156 0 0 -
Trích xuất danh mục khía cạnh sử dụng BERT với hàm mất mát cân bằng
9 trang 142 0 0 -
Xây dựng các cặp câu hỏi - câu trả lời chất lượng cao từ các trang Web hỏi đáp cộng đồng
9 trang 125 0 0 -
Tóm tắt luận án Tiến sĩ Kỹ thuật: Sử dụng ngôn ngữ trục trong dịch đa ngữ
27 trang 100 0 0 -
Triển khai AI trong dạy học và nghiên cứu khoa học của sinh viên theo xu hướng chuyển đổi số
13 trang 76 0 0 -
Trích xuất thực thể trong an toàn thông tin sử dụng học sâu
8 trang 60 0 0 -
Mô hình thống kê học sâu trong nhận dạng khuôn mặt
11 trang 59 0 0 -
Mô hình Transformers và ứng dụng trong xử lý ngôn ngữ tự nhiên
11 trang 55 0 0 -
Sử dụng mạng nơ-ron đồ thị để phân tích cảm xúc cho bình luận
15 trang 44 0 0 -
Xây dựng Wordnet tiếng Việt tự động bằng ngữ liệu song ngữ
8 trang 44 0 0 -
Nhận dạng cử chỉ bàn tay dùng mạng nơ-ron chập
4 trang 42 0 0 -
Một ý kiến nhỏ về cách ghi dấu thanh trên văn bản tiếng Việt
3 trang 41 0 0 -
Giáo trình Trí Tuệ Nhân Tạo - chapter 1
43 trang 40 0 0 -
Bài giảng Xử lý ngôn ngữ tự nhiên (Natural Language Processing): Bài 7.3 - Lê Thanh Hương
4 trang 39 0 0