
Bài giảng Xử lý ngôn ngữ tự nhiên (Natural language processing): Bài 5a - Viện Công nghệ Thông tin và Truyền thông
Thông tin tài liệu:
Nội dung trích xuất từ tài liệu:
Bài giảng Xử lý ngôn ngữ tự nhiên (Natural language processing): Bài 5a - Viện Công nghệ Thông tin và Truyền thông Phân tích cú pháp Viện Công nghệ Thông tin và Truyền thông 1 Bài toán PTCP cây PTCP mẫu P T tính độ chính xác C điểm câu P Các bộ PTCP cây cú pháp hiện nay có độ Văn phạm chính xác cao (Eisner, Collins, Charniak, etc.) 2 Các ứng dụng của PTCP Dịch máy (Alshawi 1996, Wu 1997, ...) các thao tác với cây tiếng Anh tiếng Việt Nhận dạng tiếng nói sử dụng PTCP (Chelba et al 1998) Put the file in the folder. Put the file and the folder. 3 3 Các ứng dụng của PTCP Kiểm tra ngữ pháp (Microsoft) Trích rút thông tin (Hobbs 1996) Kho văn bản CSDL NY Times câu truy vấn 4 4 Định nghĩa • Văn phạm (grammar) là dạng biểu diễn hình thức của các cấu trúc được chấp nhận trong 1 ngôn ngữ • Thuật toán PTCP (parsing algorithm) là phương pháp xác định cấu trúc câu trên cơ sở ngữ pháp đã có. • Chương trình PTCP (parser) là chương trình xác định cấu trúc ngữ pháp của câu. 5 Ví dụ về văn phạm • Văn phạm: 1 tập luật viết lại • Ký hiệu kết thúc: các ký hiệu không thể phân rã được nữa. • Ký hiệu không kết thúc: các ký hiệu có thể phân rã được. • Xét văn phạm G: S NP VP NP John, garbage VP laughed, walks G có thể sinh ra các câu sau: John laughed. John walks. Garbage laughed. Garbage walks. 6 Ví dụ về văn phạm Phân tích câu “Bò vàng gặm cỏ non” • Cây cú pháp: C • Tập luật • C CN VN CN VN • CN DN • VN ĐgN DN ĐgN • ĐgN ĐgT DN DT TT ĐgT DN • DN DT TT Bò vàng gặm DT TT cỏ non 7 Văn phạm • Một văn phạm sản sinh là một hệ thống G = ( T, N, S, R ), trong đó • T (terminal) – tập ký hiệu kết thúc • N (non terminal) – tập ký hiệu không kết thúc • S (start) – ký hiệu khởi đầu • R (rule) – tập luật • R = { | , (TN)* } gọi là luật sản xuất 8 Ví dụ • G1 = ({a,b}, {X}, X, {X, XaXb}) Xác định L(G1) • G2 = ({a,b}, {X}, X, {X, XaXb, XXX}) Xác định L(G2) 9 Dạng chuẩn Chomsky • Mọi NNPNC không chứa đều có thể sinh từ một văn phạm trong đó mọi sản xuất đều có dạng A BC hoặc A a, với A,B,CN và a T • Ví dụ: Tìm dạng chuẩn Chomsky cho văn phạm G với T = {a,b}, N ={S,A,B}, R như sau: • S bA|aB • A bAA|aS|a • B aBB|bS|b 10 Văn phạm phi ngữ cảnh (Context-Free Grammar) … còn gọi là văn phạm cấu trúc đoạn • G = • T – tập các ký hiệu kết thúc (terminals) • N - tập các ký hiệu không kết thúc (non-terminals) • P – ký hiệu tiền kết thúc (preterminals), khi viết lại trở thành ký hiệu kết thúc, P N • S – ký hiệu bắt đầu So với văn phạm cảm ngữ cảnh R: A • R: X , X là ký hiệu không kết thúc; là chuỗi các ký hiệu kết thúc và không kết thúc (có thể rỗng) • Văn phạm G sinh ra ngôn ngữ L • Bộ nhận dạng: trả về yes hoặc no • Bộ PTCP: trả về tập các cây cú pháp 11 • Văn phạm ngữ cấu: • , với V+ , V* • Văn phạm cảm ngữ cảnh: • r = , với V+ , V* , • và 1A21’2 với ’ • Văn phạm phi ngữ cảnh: • A , A N, • với V*= ( T N )* • Văn phạm chính qui: • A aB, • A Ba, VPCQ • A a, VPPNC • với A, B N, a T. VPCNC VPNC 12 Văn phạm phi ngữ cảnh 13 Áp dụng tập luật ngữ pháp •S NP VP DT NNS VBD The children slept • S NP VP DT NNS VBD NP DT NNS VBD DT NN The children ate the cake 14 Cấu trúc đoạn đệ qui 15 Văn phạm cho ngôn ngữ tự nhiên có nhập nhằng John saw snow on the campus S Nhập nhằng - PP có thể gắn tại 2 điểm (với VP hoặc với NP) NP VP 1 saw NP 0 John 2 snow PP NP 3 on 4 the 5 campus 6 16 PTCP kiểu trên xuốngNP ...
Tìm kiếm theo từ khóa liên quan:
Bài giảng Xử lý ngôn ngữ tự nhiên Xử lý ngôn ngữ tự nhiên Natural language processing Phân tích cú pháp Trích rút thông tin Thuật toán phân tích cú pháp Văn phạm phi ngữ cảnhTài liệu có liên quan:
-
Chuyên đề: Nghiên cứu Ngôn ngữ hình thức, Văn phạm phi ngữ cảnh và Automata đẩy xuống
84 trang 403 0 0 -
12 trang 336 0 0
-
Phương pháp tạo ra văn bản tiếng Việt có đề tài xác định
7 trang 282 0 0 -
Giáo trình Lập trình logic trong prolog: Phần 1
114 trang 224 0 0 -
Xây dựng ontology trợ giúp ra quyết định về đào tạo cho các trường Đại học ở Việt Nam
10 trang 180 0 0 -
Tích hợp DSM và ảnh chụp UAV với mô hình nơ-ron tích chập trong phân loại lớp phủ mặt đất
8 trang 167 0 0 -
74 trang 161 0 0
-
Bài giảng Xử lý ngôn ngữ tự nhiên: Phân tích cú pháp xác suất - Lê Thanh Hương
19 trang 154 0 0 -
Trích xuất danh mục khía cạnh sử dụng BERT với hàm mất mát cân bằng
9 trang 141 0 0 -
Xây dựng các cặp câu hỏi - câu trả lời chất lượng cao từ các trang Web hỏi đáp cộng đồng
9 trang 125 0 0 -
Tóm tắt luận án Tiến sĩ Kỹ thuật: Sử dụng ngôn ngữ trục trong dịch đa ngữ
27 trang 100 0 0 -
Triển khai AI trong dạy học và nghiên cứu khoa học của sinh viên theo xu hướng chuyển đổi số
13 trang 76 0 0 -
Trích xuất thực thể trong an toàn thông tin sử dụng học sâu
8 trang 59 0 0 -
Mô hình thống kê học sâu trong nhận dạng khuôn mặt
11 trang 59 0 0 -
Mô hình Transformers và ứng dụng trong xử lý ngôn ngữ tự nhiên
11 trang 54 0 0 -
Ebook Machine learning algorithms: Part 2
184 trang 48 0 0 -
Xây dựng Wordnet tiếng Việt tự động bằng ngữ liệu song ngữ
8 trang 44 0 0 -
Nhận dạng cử chỉ bàn tay dùng mạng nơ-ron chập
4 trang 42 0 0 -
Xây dựng bộ ngữ liệu đồng tham chiếu cho tiếng Việt
7 trang 42 0 0 -
Một ý kiến nhỏ về cách ghi dấu thanh trên văn bản tiếng Việt
3 trang 41 0 0