Danh mục tài liệu

Xây dựng treebank tiếng Việt

Số trang: 10      Loại file: pdf      Dung lượng: 1.01 MB      Lượt xem: 12      Lượt tải: 0    
Xem trước 2 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Bài báo trình bày một số kết quả ban đầu mà chúng tôi đã đạt được như: xây dựng tập nhãn từ loại, xây dựng tập nhãn cú pháp, xây dựng công cụ, triển khai gán nhãn. Trong phần đánh giá kết quả gán nhãn, bài báo chỉ ra là độ đồng thuận giữa những người gán nhãn còn chưa cao chứng tỏ còn nhiều vấn đề cần được giải quyết.
Nội dung trích xuất từ tài liệu:
Xây dựng treebank tiếng ViệtXây dựng treebank tiếng Việt Nguyễn Phương Thái1, Vũ Xuân Lương2, Nguyễn Thị Minh Huyền3Tóm tắtNgân hàng câu được chú giải cú pháp (treebank) là kho ngữ liệu rất quan trọng trong nghiêncứu và xây dựng ứng dụng xử lý ngôn ngữ tự nhiên. Treebank thường được dùng để xâydựng các hệ phân tích cú pháp chất lượng cao. Các hệ phân tích cú pháp này lại được sửdụng trong các ứng dụng quan trọng như truy vấn thông tin, dịch máy, v.v. Bài báo này liênquan đến việc xây dựng ngân hàng câu tiếng Việt được chú giải cú pháp. Bài báo trình bàymột số kết quả ban đầu mà chúng tôi đã đạt được như: xây dựng tập nhãn từ loại, xây dựngtập nhãn cú pháp, xây dựng công cụ, triển khai gán nhãn. Trong phần đánh giá kết quả gánnhãn, bài báo chỉ ra là độ đồng thuận giữa những người gán nhãn còn chưa cao chứng tỏcòn nhiều vấn đề cần được giải quyết. 1. Giới thiệuTiếng Việt là ngôn ngữ mà thứ tự từ khá cố định do đó chúng tôi chọn xây dựng treebankgồm các cây thành phần. Đối với các ngôn ngữ mà thứ tự từ khá tự do như tiếng Nhật, Sécthì cây phụ thuộc thích hợp hơn. Chúng tôi áp dụng tiếp cận xây dựng treebank của Marcusvà cộng sự (1993). Đây là một tiếp cận đã được kiểm chứng qua việc áp dụng cho nhiềungôn ngữ khác nhau như: tiếng Anh, một ngôn ngữ thuộc họ Ấn-Âu; tiếng Trung, một họngôn ngữ riêng; tiếng Hàn; tiếng Ả-rập.Mục tiêu chính của chúng tôi là nghiên cứu xây dựng kho ngữ liệu gồm 10 ngàn câu tiếngViệt được chú giải cú pháp. Quá trình xây dựng treebank có một số bước cơ bản là: tìmhiểu, thiết kế, xây dựng công cụ, thu thập ngữ liệu thô, và gán nhãn dữ liệu. Hiện tại chúngtôi đã tiến hành gán nhãn dữ liệu được khoảng 2 ngàn câu. Thực chất quá trình này là xoáytrôn ốc, vừa gán dữ liệu vừa hoàn thiện thêm tài liệu hướng dẫn gán nhãn (thiết kế) hay cảitiến công cụ. Chúng tôi chọn văn bản báo chí để gán nhãn. Chúng tôi thu thập các bài báocủa báo Tuổi Trẻ điện tử. Hiện tại chúng tôi đang gán nhãn cho các bài báo thuộc chủ đềChính trị-Xã hội. Chúng tôi sẽ gán nhãn thêm cho chủ đề Kinh tế hay Tin học nữa.Cấu trúc của bài báo này như sau. Trước hết, chúng tôi trình bày về tập nhãn từ loại vàhướng dẫn gán nhãn từ loại. Thứ hai là phần tập nhãn cú pháp và hướng dẫn gán nhãn cúpháp. Thứ ba là về công cụ hỗ trợ người làm ngữ liệu. Thứ tư là về qui trình gán nhãn cúpháp. Thứ năm là kết quả đạt được cho tới thời điểm hiện tại. Cuối cùng là phần kết luận.1 Đại học Công nghệ, Đại học Quốc gia Hà Nội2 Trung tâm Từ điển học3 Đại học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội 2. Hướng dẫn gán nhãn từ loại và cú pháp 2.1 Tập nhãn từ loạiTrong các ngôn ngữ Châu Âu, khái niệm từ loại gắn với các phạm trù hình thái học nhưgiống số cách v.v. Trong tiếng Việt thì có hai quan điểm:  Quan điểm không phân từ loại, phủ nhận sự tồn tại của nó (Lê Quang Trinh, Nguyễn Hiến Lê, Hồ Hữu Tùng)  Quan điểm phân từ loại (rất nhiều nhà ngôn ngữ học): o dựa vào khả năng kết hợp và chức vụ ngữ pháp (gọi chung là thái độ ngữ pháp). Ngoài ra một số nghiên cứu về đối sánh ngôn ngữ học còn nêu lên hiện tượng biến đổi hình thái từ tiếng Việt với sự tham gia của từ chức năng. o dựa vào nghĩa khái quátChúng tôi theo quan điểm phân từ loại khi xây dựng treebank tiếng Việt. Về nguyên tắc, cácthông tin về từ có thể được chứa trong nhãn từ loại bao gồm: từ loại cơ sở (danh từ, độngtừ, v.v.), thông tin hình thái (số ít, số nhiều, thì, ngôi, v.v.), thông tin về phân loại con (ví dụđộng từ đi với danh từ, động từ đi với mệnh đề, v.v.), thông tin ngữ nghĩa, hay một số thôngtin cú pháp khác. Chúng tôi xây dựng tập nhãn từ loại chỉ chứa thông tin về từ loại cơ sở màkhông bao gồm các thông tin như hình thái, phân loại con, v.v. Tập nhãn từ loại của chúngtôi được liệt kê trong Bảng 1, tổng số nhãn là 17.STT Tên Chú thích1 N Danh từ2 Np Danh từ riêng3 Nc Danh từ chỉ loại4 Nu Danh từ đơn vị5 V Động từ6 A Tính từ7 P Đại từ8 L Định từ9 M Số từ10 R Phụ từ11 E Giới từ12 C Liên từ13 I Thán từ14 T Trợ từ, tiểu từ, từ tình thái15 U Từ đơn lẻ16 Y Từ viết tắt17 X Các từ không phân loại được Bảng 1. Tập nhãn từ loại 2.2 Tập nhãn cú phápNhãn thành phần cú phápLoại nhãn này mô tả các thành phần cú pháp cơ bản là cụm từ và mệnh đề. Nhãn thànhphần cú pháp là thông tin cơ bản nhất trên cây cú pháp, nó tạo thành xương sống của câycú pháp4. Tập nhãn cú pháp của các ngôn ngữ khác nhau là khác nhau (ở một tỉ lệ nhấtđịnh) vì hai nguy ...