
Bài giảng Xử lý ngôn ngữ tự nhiên: Chương 9 - Nguyễn Kiêm Hiếu (ĐH Bách khoa Hà Nội)
Thông tin tài liệu:
Nội dung trích xuất từ tài liệu:
Bài giảng Xử lý ngôn ngữ tự nhiên: Chương 9 - Nguyễn Kiêm Hiếu (ĐH Bách khoa Hà Nội)Nội dung trình bày1. Tổng quan về Dependency Parsing2. Phương pháp Transition-basedDependency Parsing3. Phương pháp Graph-based4. Các cách tiếp cận hiện nayNguyễn Hữu Hoàng5. Một số kết quả cài đặt21. Tổng quan về Dependency Parsing1.1. Dependency Parsing là gì1.1. Dependency Parsing là gì?●●●1.2. Các nhãn phụ thuộc (Dependency Labels)1.3. Các tính chất của cây cú pháp phụ thuộc.●1.4. Các vấn đề cần giải quyết của bài toán phân tích cú pháp phụ thuộc●3Tiếng Việt: Phân tích cú pháp phụ thuộcThuộc 1 kiểu bài toán phân tích cú phápKhông phân tích chủ ngữ, vị ngữ, các cụm danh từ, cụm động từ,… thay vìđó, phân tích quan hệ phụ thuộc giữa các từ trong câu với nhau.Thường liên quan chặt chẽ đến bài toán Gán nhãn từ loại (Part Of SpeechTagging)Được bắt đầu quan tâm nhiều từ thập kỷ trước do sự giàu thông tin mà kiểuphân tích này mang lại.41.1. Dependency Parsing là gì1.1. Dependency Parsing là gìVí dụ về cây cú pháp phụ thuộc:❖Một quan hệ phụ thuộc thể hiện bằng 1 mũi tên có hướng, trong đó:➢➢➢❖Phần có mũi tên là dependent (modifier, subordinate, ...)Phần còn lại là head (governor, regent, ...)Nhãn phụ thuộc tương ứng giữa 2 từMột cấu trúc phụ thuộc gồm có:➢➢➢Các quan hệ phụ thuộc (directed arcs)Nhãn phụ thuộc tương ứng của các quan hệ nàyThường kèm với nhãn từ loại tương ứng của 1 từCây cú pháp thường sẽ có thêm 1 nút root nối với nút không có head trong câu,quan hệ đi kèm cũng có nhãn là root.561.1. Dependency Parsing là gì1.2. Các nhãn phụ thuộcCác ứng dụng của phân tích cú pháp phụ thuộc:❖Một số nhãn phụ thuộc:➢➢➢➢➢➢➢➢- Nhận diện thực thể- Trích rút quan hệ.- Dịch máy7nsubj (Nominal subject): chủ ngữ, chủ thểnsubjpass: chủ ngữ bị độngdobj (Direct object): tân ngữ trực tiếpiobj (indirect object): tân ngữ gián tiếpnmod (Nominal modifier): danh từ bổ nghĩaamod (Adjectival modifier): tính từ bổ nghĩanummod (Numeric modifier): số từ bổ nghĩaadvmod (Adverbial modifier): thành phần bổ nghĩa mang tính chất trạng từ.81.2. Các nhãn phụ thuộc❖1.2. Các nhãn phụ thuộcMột số nhãn phụ thuộc:➢➢➢➢➢➢❖ccomp (Clausal component): Mệnh đề thành phầnxcomp (Open clausal component): Mệnh đề thành phần mở rộngaux (Auxiliary): phụ từ, trợ động từdet (Determiner): định từmark: là từ đánh dấu ngăn cách giữa 2 mệnh đềpunct: dấu câuMột số nhãn phụ thuộc:➢➢➢advcl (Adverbial clause modifier): Mệnh đề trạng ngữ bổ nghĩaacl (Adjectival clause): Mệnh đề phụ thuộc...Xem thêm: http://universaldependencies.org/u/dep/91.3. Các tính chất của cây cú pháp phụ thuộc❖❖1.3. Các tính chất của cây cú pháp phụ thuộcXét cây cú pháp là 1 đồ thị với các từ là các đỉnh (node), các quan hệ là cáccạnh (arc)Đồ thị cú pháp phụ thuộc này có 4 tính chất:➢➢➢➢10●Weakly Connected:●Acyclic:●Single head:○○Weakly Connected (Kết nối yếu)Acyclic (Không có chu kỳ)Single head (1 từ chỉ có duy nhất 1 head)Projective○11Với mọi node i, luôn tồn tại 1 node j sao cho có 1 cạnh nối i -> j hoặc j -> iNếu tồn tại cạnh i->j, thì không thể tồn tại 1 đường đi j->*iNếu có cạnh i -> j, thì sẽ không có cạnh k -> j, với k != i121.3. Các tính chất của cây cú pháp phụ thuộc●1.4. Các vấn đề cần giải quyếtProjective: (tính chất này không bắt buộc)○○❖❖Nếu tồn tại cạnh i->j, thì với mọi k nằm giữa i và j, luôn có đường đi i ->* kMột cách trực quan, không có cạnh chéo nhau khi vẽ cây cú pháp tuần tự theo câuVới bài toán phân tích cú pháp phụ thuộc, có nhiều cách tiếp cận khác nhau.Tương tự như nhiều bài toán NLP, ta có 2 hướng phổ biến:➢➢❖ProjectiveRule-based, dựa trên luật mà quyết định giữa 2 từ có quan hệ phụ thuộc gìData-driven, dựa trên dữ liệu, áp dụng phương pháp học máy để học ra mô hình quyết địnhquan hệ giữa các từ.Trong phần trình bày này, chúng ta chỉ xem xét hướng data-driven với 2phương pháp chính:➢➢Transition-basedGraph-basedNon-Projective13141.4. Các vấn đề cần giải quyết1.4. Các vấn đề cần giải quyếtVí dụ hệ thống transition-basedCó 3 vấn đề chính cần giải quyết trong bài toán phân tích cú pháp phụ thuộchướng dữ liệu (data-driven):- Lựa chọn đặc trưng để học. (Feature Extractor)- Thuật toán học máy. (Learning Algorithm)- Thuật toán phân tích. (Parsing Algorithm)15161.4. Các vấn đề cần giải quyết1.4. Các vấn đề cần giải quyếtLựa chọn đặc trưng:Thuật toán học máy:➢➢➢➢Ở đây giai đoạn này, cần lựa chọn ra những đặc trưng tốt nhất để học ra môhình quyết định các quan hệ phụ thuộc giữa các từ.Các đặc trưng này thường được lựa chọn bởi các chuyên gia trong lĩnh vựcnàyThường gồm các core feature (từ, nhãn từ loại,... của các từ đang xét và cáctừ xung quanh) và các feature template (các kết hợp giữa các core feature,...)Cần lựa chọn cẩn thận, việc đưa các đặc trưng không có ích làm tăng độphức tạp tính toán và tăng nguy cơ overfit mô hình●●●Dùng học máy để huấn luyện ra mô hình cung cấp khả năng quyết định giữa2 từ có quan hệ phụ thuộc gì và nhãn gì hay không.Sử dụng các đặc trưng đã được lựa chọn ở bước trước.Khác nhau giữa các phương pháp Transition-based và Graph-based○○Transition-based: tại 1 thời điểm, quyết định transition tiếp theo là gì.Graph-based: quyết định điểm (score) của từng cạnh nối 2 từ trong câu171.4. Các vấn đề cần giải quyết1.4. Các vấn đề cần giải quyếtThuật toán phân tích cú pháp:●●18●Thuật toán này giúp xây dựng được cây phụ thuộc tốt nhất với các quyết địnhcủa mô hình được huấn luyện.Thuật toán này cũng đóng vai trò kiểm soát điều khiển các thành phần trongquá trình phân tích, lấy kết quả từ mô hình dự đoán cho các từ phía trướccung cấp cho phần Extractor, lấy đặc trưng ra đẩy vào mô hình tiếp tục dựđoán cho các từ phía sau.●●19Các vấn đề này đều cần giải quyết với cả 2 phương pháp Tran ...
Tìm kiếm theo từ khóa liên quan:
Bài giảng Xử lý ngôn ngữ tự nhiên Xử lý ngôn ngữ tự nhiên Ngôn ngữ tự nhiên Kỹ thuật lập trình Dependency parsing Dependency parsing Phương pháp Transition-basedTài liệu có liên quan:
-
12 trang 337 0 0
-
Kỹ thuật lập trình trên Visual Basic 2005
148 trang 306 0 0 -
Phương pháp tạo ra văn bản tiếng Việt có đề tài xác định
7 trang 283 0 0 -
NGÂN HÀNG CÂU HỎI TRẮC NGHIỆM THIẾT KẾ WEB
8 trang 246 0 0 -
Giáo trình Lập trình logic trong prolog: Phần 1
114 trang 224 0 0 -
Giới thiệu môn học Ngôn ngữ lập trình C++
5 trang 222 0 0 -
Bài giảng Nhập môn về lập trình - Chương 1: Giới thiệu về máy tính và lập trình
30 trang 187 0 0 -
Xây dựng ontology trợ giúp ra quyết định về đào tạo cho các trường Đại học ở Việt Nam
10 trang 180 0 0 -
8 trang 168 0 0
-
Tích hợp DSM và ảnh chụp UAV với mô hình nơ-ron tích chập trong phân loại lớp phủ mặt đất
8 trang 167 0 0 -
74 trang 161 0 0
-
Luận văn: Nghiên cứu kỹ thuật giấu tin trong ảnh Gif
33 trang 159 0 0 -
Bài giảng Xử lý ngôn ngữ tự nhiên: Phân tích cú pháp xác suất - Lê Thanh Hương
19 trang 156 0 0 -
Xây dựng ontology cho hệ thống truy vấn dữ liệu tùy chọn
5 trang 145 0 0 -
Trích xuất danh mục khía cạnh sử dụng BERT với hàm mất mát cân bằng
9 trang 142 0 0 -
Báo cáo thực tập Công nghệ thông tin: Lập trình game trên Unity
27 trang 126 0 0 -
Xây dựng các cặp câu hỏi - câu trả lời chất lượng cao từ các trang Web hỏi đáp cộng đồng
9 trang 125 0 0 -
Giáo trình về phân tích thiết kế hệ thống thông tin
113 trang 118 0 0 -
LUẬN VĂN: Tìm hiểu kỹ thuật tạo bóng cứng trong đồ họa 3D
41 trang 115 0 0 -
Bài giảng Kỹ thuật lập trình - Chương 10: Tổng kết môn học (Trường Đại học Bách khoa Hà Nội)
67 trang 112 0 0