Bài giảng Học sâu và ứng dụng - Bài 10: Một số ứng dụng học sâu trong xử lý ngôn ngữ tự nhiên (Phần 1)
Số trang: 49
Loại file: pdf
Dung lượng: 3.62 MB
Lượt xem: 26
Lượt tải: 0
Xem trước 5 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Bài giảng Học sâu và ứng dụng - Bài 10: Một số ứng dụng học sâu trong xử lý ngôn ngữ tự nhiên (Phần 1). Bài này cung cấp cho học viên những nội dung về: tổng quan về xử lý ngôn ngữ tự nhiên; biểu diễn từ và văn bản; thư viện Xử lý ngôn ngữ tự nhiên và một số mô hình huấn luyện sẵn;... Mời các bạn cùng tham khảo chi tiết nội dung bài giảng!
Nội dung trích xuất từ tài liệu:
Bài giảng Học sâu và ứng dụng - Bài 10: Một số ứng dụng học sâu trong xử lý ngôn ngữ tự nhiên (Phần 1) 1 Bài 10: Một số ứng dụng học sâu trong xử lý ngôn ngữ tự nhiên (Phần 1) 2 Nội dung • Tổng quan về xử lý ngôn ngữ tự nhiên • Biểu diễn từ và văn bản • Thư viện Xử lý NNTN và một số mô hình huấn luyện sẵn 3 Tổng quan về xử lý ngôn ngữ tự nhiên 4 Thế nào là Xử lý NNTN? • Xử lý NNTN là một nhánh của trí tuệ nhân tạo liên quan đến sự tương tác giữa máy tính và ngôn ngữ của con người. • Mục đích của xử lý NNTN là giúp máy tính có khả năng đọc, hiểu và rút ra ý nghĩa từ ngôn ngữ của con người. 5 Các mức phân tích • Morphology (hình thái học): cách từ được xây dựng, các tiền tố và hậu tố của từ • Syntax (cú pháp): mối liên hệ về cấu trúc ngữ pháp giữa các từ và ngữ • Semantics (ngữ nghĩa): nghĩa của từ, cụm từ, và cách diễn đạt • Discourse (diễn ngôn): quan hệ giữa các ý hoặc các câu • Pragmatic (thực chứng): mục đích phát ngôn, cách sử dụng ngôn ngữ trong giao tiếp • World Knowledge (tri thức thế giới): các tri thức về thế giới, các tri thức ngầm 6 Một số ứng dụng chính của NLP • Nhận dạng giọng nói (speech recognition) • Khai phá văn bản • Phân cụm văn bản • Phân lớp văn bản • Tóm tắt văn bản • Mô hình hóa chủ đề (topic modelling) • Hỏi đáp (question answering) • Gia sư ngôn ngữ (Language tutoring) • Chỉnh sửa ngữ pháp/đánh vần • Dịch máy (machine translation) 7 Dịch máy • Google translate 8 Các hệ thống hội thoại • Chatbot, trợ lý ảo, hỏi đáp tự động Apple’s siri system Google search 9 Trích rút thông tin (Information extraction) Google Knowledge Graph Wiki Info Box 10 Token hóa (Tokenization) • Chia văn bản thành các từ và các câu There was an earthquake near D.C. I’ve even felt it in Philadelphia, New York, etc. There + was + an + earthquake I + ve + even + felt + it + in + + near + D.C. Philadelphia, + New + York, + etc. 11 Part-of-Speech tagging • Xác định từ loại của từng từ trong văn bản A + dog + is + chasing + a + boy + on + the + playground A + dog + is + chasing + a + boy + on + the + playground Det Noun Aux Verb Det Noun Prep Det Noun 12 Nhận dạng thực thể định danh (Named entity recognition) • Tìm kiếm và phân loại các thành phần trong văn bản vào những loại xác định trước như là tên người, tổ chức, địa điểm, thời gian, số lượng, giá trị tiền tệ… Its initial Board of Visitors included U.S. Presidents Thomas Jefferson, James Madison, and James Monroe. Its initial Board of Visitors included U.S. Presidents Thomas Jefferson, James Madison, and James Monroe. Organization, Location, Person 13 Syntactic parsing • Phân tích ngữ pháp của một câu cho trước theo các quy tắc ngữ pháp A + dog + is + chasing + a + boy + on + the + playground Det Noun Aux Verb Det Noun Prep Det Noun Noun Phrase Noun Phrase Complex Verb Noun Phrase Verb Phrase Prep Phrase Verb Phrase Sentence 14 Trích rút quan hệ (Relation extraction) • Xác định quan hệ giữa các thực thể • Phân tích ngữ nghĩa ở mức nông Its initial Board of Visitors included U.S. Presidents Thomas Jefferson, James Madison, and James Monroe. 1. Thomas Jefferson Is_Member_Of Board of Visitors 2. Thomas Jefferson Is_President_Of U.S. 15 Suy diễn logic • Phân tích ngữ nghĩa mức sâu Its initial Board of Visitors included U.S. Presidents Thomas Jefferson, James Madison, and James Monroe. ∃???? (Is_Person(????) & Is_President_Of(????,’U.S.’) & Is_Member_Of(????,’Board of Visitors’)) 16 Biểu diễn từ và văn bản 17 Biểu diễn từ như thế nào? • WordNet: một từ điển chứa danh sách các từ đồng nghĩa (synonym sets) và bao hàm nghĩa (hypernyms) 18 Nhược điểm WordNet • Thiếu sắc thái • Ví dụ “hy sinh” đồng nghĩa với “chết” • Thiếu nghĩa các từ mới • Các từ mới về công nghệ, ngôn ngữ teen… • Phụ thuộc suy nghĩ chủ quan của người làm • Cần sức lao động lớn để tạo ra và chỉnh sửa • Không thể tính độ tương đồng giữa hai từ 19 Biểu diễn one-hot • Biểu diễn từ như các ký hiệu rời rạc • Độ dài vector bằng số từ trong từ điển 20 ...
Nội dung trích xuất từ tài liệu:
Bài giảng Học sâu và ứng dụng - Bài 10: Một số ứng dụng học sâu trong xử lý ngôn ngữ tự nhiên (Phần 1) 1 Bài 10: Một số ứng dụng học sâu trong xử lý ngôn ngữ tự nhiên (Phần 1) 2 Nội dung • Tổng quan về xử lý ngôn ngữ tự nhiên • Biểu diễn từ và văn bản • Thư viện Xử lý NNTN và một số mô hình huấn luyện sẵn 3 Tổng quan về xử lý ngôn ngữ tự nhiên 4 Thế nào là Xử lý NNTN? • Xử lý NNTN là một nhánh của trí tuệ nhân tạo liên quan đến sự tương tác giữa máy tính và ngôn ngữ của con người. • Mục đích của xử lý NNTN là giúp máy tính có khả năng đọc, hiểu và rút ra ý nghĩa từ ngôn ngữ của con người. 5 Các mức phân tích • Morphology (hình thái học): cách từ được xây dựng, các tiền tố và hậu tố của từ • Syntax (cú pháp): mối liên hệ về cấu trúc ngữ pháp giữa các từ và ngữ • Semantics (ngữ nghĩa): nghĩa của từ, cụm từ, và cách diễn đạt • Discourse (diễn ngôn): quan hệ giữa các ý hoặc các câu • Pragmatic (thực chứng): mục đích phát ngôn, cách sử dụng ngôn ngữ trong giao tiếp • World Knowledge (tri thức thế giới): các tri thức về thế giới, các tri thức ngầm 6 Một số ứng dụng chính của NLP • Nhận dạng giọng nói (speech recognition) • Khai phá văn bản • Phân cụm văn bản • Phân lớp văn bản • Tóm tắt văn bản • Mô hình hóa chủ đề (topic modelling) • Hỏi đáp (question answering) • Gia sư ngôn ngữ (Language tutoring) • Chỉnh sửa ngữ pháp/đánh vần • Dịch máy (machine translation) 7 Dịch máy • Google translate 8 Các hệ thống hội thoại • Chatbot, trợ lý ảo, hỏi đáp tự động Apple’s siri system Google search 9 Trích rút thông tin (Information extraction) Google Knowledge Graph Wiki Info Box 10 Token hóa (Tokenization) • Chia văn bản thành các từ và các câu There was an earthquake near D.C. I’ve even felt it in Philadelphia, New York, etc. There + was + an + earthquake I + ve + even + felt + it + in + + near + D.C. Philadelphia, + New + York, + etc. 11 Part-of-Speech tagging • Xác định từ loại của từng từ trong văn bản A + dog + is + chasing + a + boy + on + the + playground A + dog + is + chasing + a + boy + on + the + playground Det Noun Aux Verb Det Noun Prep Det Noun 12 Nhận dạng thực thể định danh (Named entity recognition) • Tìm kiếm và phân loại các thành phần trong văn bản vào những loại xác định trước như là tên người, tổ chức, địa điểm, thời gian, số lượng, giá trị tiền tệ… Its initial Board of Visitors included U.S. Presidents Thomas Jefferson, James Madison, and James Monroe. Its initial Board of Visitors included U.S. Presidents Thomas Jefferson, James Madison, and James Monroe. Organization, Location, Person 13 Syntactic parsing • Phân tích ngữ pháp của một câu cho trước theo các quy tắc ngữ pháp A + dog + is + chasing + a + boy + on + the + playground Det Noun Aux Verb Det Noun Prep Det Noun Noun Phrase Noun Phrase Complex Verb Noun Phrase Verb Phrase Prep Phrase Verb Phrase Sentence 14 Trích rút quan hệ (Relation extraction) • Xác định quan hệ giữa các thực thể • Phân tích ngữ nghĩa ở mức nông Its initial Board of Visitors included U.S. Presidents Thomas Jefferson, James Madison, and James Monroe. 1. Thomas Jefferson Is_Member_Of Board of Visitors 2. Thomas Jefferson Is_President_Of U.S. 15 Suy diễn logic • Phân tích ngữ nghĩa mức sâu Its initial Board of Visitors included U.S. Presidents Thomas Jefferson, James Madison, and James Monroe. ∃???? (Is_Person(????) & Is_President_Of(????,’U.S.’) & Is_Member_Of(????,’Board of Visitors’)) 16 Biểu diễn từ và văn bản 17 Biểu diễn từ như thế nào? • WordNet: một từ điển chứa danh sách các từ đồng nghĩa (synonym sets) và bao hàm nghĩa (hypernyms) 18 Nhược điểm WordNet • Thiếu sắc thái • Ví dụ “hy sinh” đồng nghĩa với “chết” • Thiếu nghĩa các từ mới • Các từ mới về công nghệ, ngôn ngữ teen… • Phụ thuộc suy nghĩ chủ quan của người làm • Cần sức lao động lớn để tạo ra và chỉnh sửa • Không thể tính độ tương đồng giữa hai từ 19 Biểu diễn one-hot • Biểu diễn từ như các ký hiệu rời rạc • Độ dài vector bằng số từ trong từ điển 20 ...
Tìm kiếm theo từ khóa liên quan:
Bài giảng Học sâu và ứng dụng Học sâu và ứng dụng Xử lý ngôn ngữ tự nhiên Nhận dạng giọng nói Trích rút thông tin Nhận dạng thực thể định danhTài liệu có liên quan:
-
12 trang 338 0 0
-
Phương pháp tạo ra văn bản tiếng Việt có đề tài xác định
7 trang 285 0 0 -
Giáo trình Lập trình logic trong prolog: Phần 1
114 trang 224 0 0 -
Bài giảng Học sâu và ứng dụng - Bài 7: Một số ứng dụng học sâu trong thị giác máy (Phần 1)
64 trang 201 0 0 -
124 trang 185 0 0
-
Xây dựng ontology trợ giúp ra quyết định về đào tạo cho các trường Đại học ở Việt Nam
10 trang 181 0 0 -
Tích hợp DSM và ảnh chụp UAV với mô hình nơ-ron tích chập trong phân loại lớp phủ mặt đất
8 trang 167 0 0 -
74 trang 161 0 0
-
Bài giảng Xử lý ngôn ngữ tự nhiên: Phân tích cú pháp xác suất - Lê Thanh Hương
19 trang 157 0 0 -
Trích xuất danh mục khía cạnh sử dụng BERT với hàm mất mát cân bằng
9 trang 142 0 0