Danh mục tài liệu

Bài giảng Xử lý ngôn ngữ tự nhiên: Chương 9 - Nguyễn Kiêm Hiếu (ĐH Bách khoa Hà Nội)

Số trang: 24      Loại file: pdf      Dung lượng: 1.43 MB      Lượt xem: 16      Lượt tải: 0    
Xem trước 3 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Bài giảng "Xử lý ngôn ngữ tự nhiên - Chương 9: Dependency parsing" cung cấp cho người học các kiến thức: Tổng quan về Dependency parsing, phương pháp Transition-based, phương pháp Graph-based,... Mời các bạn cùng tham khảo nội dung chi tiết.
Nội dung trích xuất từ tài liệu:
Bài giảng Xử lý ngôn ngữ tự nhiên: Chương 9 - Nguyễn Kiêm Hiếu (ĐH Bách khoa Hà Nội)Nội dung trình bày1. Tổng quan về Dependency Parsing2. Phương pháp Transition-basedDependency Parsing3. Phương pháp Graph-based4. Các cách tiếp cận hiện nayNguyễn Hữu Hoàng5. Một số kết quả cài đặt21. Tổng quan về Dependency Parsing1.1. Dependency Parsing là gì1.1. Dependency Parsing là gì?●●●1.2. Các nhãn phụ thuộc (Dependency Labels)1.3. Các tính chất của cây cú pháp phụ thuộc.●1.4. Các vấn đề cần giải quyết của bài toán phân tích cú pháp phụ thuộc●3Tiếng Việt: Phân tích cú pháp phụ thuộcThuộc 1 kiểu bài toán phân tích cú phápKhông phân tích chủ ngữ, vị ngữ, các cụm danh từ, cụm động từ,… thay vìđó, phân tích quan hệ phụ thuộc giữa các từ trong câu với nhau.Thường liên quan chặt chẽ đến bài toán Gán nhãn từ loại (Part Of SpeechTagging)Được bắt đầu quan tâm nhiều từ thập kỷ trước do sự giàu thông tin mà kiểuphân tích này mang lại.41.1. Dependency Parsing là gì1.1. Dependency Parsing là gìVí dụ về cây cú pháp phụ thuộc:❖Một quan hệ phụ thuộc thể hiện bằng 1 mũi tên có hướng, trong đó:➢➢➢❖Phần có mũi tên là dependent (modifier, subordinate, ...)Phần còn lại là head (governor, regent, ...)Nhãn phụ thuộc tương ứng giữa 2 từMột cấu trúc phụ thuộc gồm có:➢➢➢Các quan hệ phụ thuộc (directed arcs)Nhãn phụ thuộc tương ứng của các quan hệ nàyThường kèm với nhãn từ loại tương ứng của 1 từCây cú pháp thường sẽ có thêm 1 nút root nối với nút không có head trong câu,quan hệ đi kèm cũng có nhãn là root.561.1. Dependency Parsing là gì1.2. Các nhãn phụ thuộcCác ứng dụng của phân tích cú pháp phụ thuộc:❖Một số nhãn phụ thuộc:➢➢➢➢➢➢➢➢- Nhận diện thực thể- Trích rút quan hệ.- Dịch máy7nsubj (Nominal subject): chủ ngữ, chủ thểnsubjpass: chủ ngữ bị độngdobj (Direct object): tân ngữ trực tiếpiobj (indirect object): tân ngữ gián tiếpnmod (Nominal modifier): danh từ bổ nghĩaamod (Adjectival modifier): tính từ bổ nghĩanummod (Numeric modifier): số từ bổ nghĩaadvmod (Adverbial modifier): thành phần bổ nghĩa mang tính chất trạng từ.81.2. Các nhãn phụ thuộc❖1.2. Các nhãn phụ thuộcMột số nhãn phụ thuộc:➢➢➢➢➢➢❖ccomp (Clausal component): Mệnh đề thành phầnxcomp (Open clausal component): Mệnh đề thành phần mở rộngaux (Auxiliary): phụ từ, trợ động từdet (Determiner): định từmark: là từ đánh dấu ngăn cách giữa 2 mệnh đềpunct: dấu câuMột số nhãn phụ thuộc:➢➢➢advcl (Adverbial clause modifier): Mệnh đề trạng ngữ bổ nghĩaacl (Adjectival clause): Mệnh đề phụ thuộc...Xem thêm: http://universaldependencies.org/u/dep/91.3. Các tính chất của cây cú pháp phụ thuộc❖❖1.3. Các tính chất của cây cú pháp phụ thuộcXét cây cú pháp là 1 đồ thị với các từ là các đỉnh (node), các quan hệ là cáccạnh (arc)Đồ thị cú pháp phụ thuộc này có 4 tính chất:➢➢➢➢10●Weakly Connected:●Acyclic:●Single head:○○Weakly Connected (Kết nối yếu)Acyclic (Không có chu kỳ)Single head (1 từ chỉ có duy nhất 1 head)Projective○11Với mọi node i, luôn tồn tại 1 node j sao cho có 1 cạnh nối i -> j hoặc j -> iNếu tồn tại cạnh i->j, thì không thể tồn tại 1 đường đi j->*iNếu có cạnh i -> j, thì sẽ không có cạnh k -> j, với k != i121.3. Các tính chất của cây cú pháp phụ thuộc●1.4. Các vấn đề cần giải quyếtProjective: (tính chất này không bắt buộc)○○❖❖Nếu tồn tại cạnh i->j, thì với mọi k nằm giữa i và j, luôn có đường đi i ->* kMột cách trực quan, không có cạnh chéo nhau khi vẽ cây cú pháp tuần tự theo câuVới bài toán phân tích cú pháp phụ thuộc, có nhiều cách tiếp cận khác nhau.Tương tự như nhiều bài toán NLP, ta có 2 hướng phổ biến:➢➢❖ProjectiveRule-based, dựa trên luật mà quyết định giữa 2 từ có quan hệ phụ thuộc gìData-driven, dựa trên dữ liệu, áp dụng phương pháp học máy để học ra mô hình quyết địnhquan hệ giữa các từ.Trong phần trình bày này, chúng ta chỉ xem xét hướng data-driven với 2phương pháp chính:➢➢Transition-basedGraph-basedNon-Projective13141.4. Các vấn đề cần giải quyết1.4. Các vấn đề cần giải quyếtVí dụ hệ thống transition-basedCó 3 vấn đề chính cần giải quyết trong bài toán phân tích cú pháp phụ thuộchướng dữ liệu (data-driven):- Lựa chọn đặc trưng để học. (Feature Extractor)- Thuật toán học máy. (Learning Algorithm)- Thuật toán phân tích. (Parsing Algorithm)15161.4. Các vấn đề cần giải quyết1.4. Các vấn đề cần giải quyếtLựa chọn đặc trưng:Thuật toán học máy:➢➢➢➢Ở đây giai đoạn này, cần lựa chọn ra những đặc trưng tốt nhất để học ra môhình quyết định các quan hệ phụ thuộc giữa các từ.Các đặc trưng này thường được lựa chọn bởi các chuyên gia trong lĩnh vựcnàyThường gồm các core feature (từ, nhãn từ loại,... của các từ đang xét và cáctừ xung quanh) và các feature template (các kết hợp giữa các core feature,...)Cần lựa chọn cẩn thận, việc đưa các đặc trưng không có ích làm tăng độphức tạp tính toán và tăng nguy cơ overfit mô hình●●●Dùng học máy để huấn luyện ra mô hình cung cấp khả năng quyết định giữa2 từ có quan hệ phụ thuộc gì và nhãn gì hay không.Sử dụng các đặc trưng đã được lựa chọn ở bước trước.Khác nhau giữa các phương pháp Transition-based và Graph-based○○Transition-based: tại 1 thời điểm, quyết định transition tiếp theo là gì.Graph-based: quyết định điểm (score) của từng cạnh nối 2 từ trong câu171.4. Các vấn đề cần giải quyết1.4. Các vấn đề cần giải quyếtThuật toán phân tích cú pháp:●●18●Thuật toán này giúp xây dựng được cây phụ thuộc tốt nhất với các quyết địnhcủa mô hình được huấn luyện.Thuật toán này cũng đóng vai trò kiểm soát điều khiển các thành phần trongquá trình phân tích, lấy kết quả từ mô hình dự đoán cho các từ phía trướccung cấp cho phần Extractor, lấy đặc trưng ra đẩy vào mô hình tiếp tục dựđoán cho các từ phía sau.●●19Các vấn đề này đều cần giải quyết với cả 2 phương pháp Tran ...

Tài liệu được xem nhiều:

Tài liệu có liên quan: