
Bài giảng Xử lý ngôn ngữ tự nhiên (Natural Language Processing): Bài 6 - Lê Thanh Hương
Thông tin tài liệu:
Nội dung trích xuất từ tài liệu:
Bài giảng Xử lý ngôn ngữ tự nhiên (Natural Language Processing): Bài 6 - Lê Thanh HươngVí dụAu sortir de la saison 97/98 et surtout/au debut de cette saison 98/99…Dịch máyLê Thanh HươngBộ môn Hệ thống Thông tinViện CNTT &TT – Trường ĐHBKHNEmail: huonglt-fit@mail.hut.edu.vnWith leaving season 97/98 andespecially at the beginning of thisseason 98/99…12Các vấn đềCác vấn đề2.1. Xử lý sự giống và khác nhau giữa các ngôn ngữCú pháp: trật tự từ trong câuTo Yukio; Yukio neTiếng Anh – tiếng Việt:The (affix1) red (affix2) flag (head)Lá cờ (head) đỏ (affix2) ấy (affix1)Hình vị: # số âm tiết/từ:Ngôn ngữ đơn âm tiết ( tiếng Việt, Trung Quốc) – 1tiếng/từNgôn ngữ đa âm tiết (Siberian Yupik), 1 từ = cả 1 câu3.Mức độ phân chia âm tiếtCác nét riêng biệtEnglishbrotherVietnameseEnglishwallGermanGermanbergEnglishanhemwand (inside)mauer(outside)hillmountain34Không gian khái niệmBa khối chính trong dịch máyngônngữnguồn Shiểungôn ngữdịchngôn ngữngôn ngữ đíchTthông tin ánh xạngôn ngữnguồn - đíchKhoảng trống từ vựng: tiếng Nhật không có từ nào nghĩa privacy;tiêgns Anh không có từ ứng với yakoko (lòng hiếu thảo)561Hiểu ngôn ngữCác phương pháp dịch máy1. Nhập nhằng từ vựng:English: book - Spanish libro, reservar⇒ Sử dụng thông tin cú phápcao2. Nhập nhằng cú pháp:mức trừutượngI saw the guy on the hill with the telescopesiêu ngôn ngữngữ nghĩaa3. Nhập nhằng ngữ nghĩa:thấpE: While driving, John swerved & hit a treesiêu ngôn ngữgcú pphápápt từ-từsdịch chuyển đổidịch trực tiếpa = a(s)g = f(a(s)); f – hàm chuyển đổiJohn’s carS: Minetras que John estaba manejando, se desvio ygolpeop con un arbot=g(f(a(s)))87Luật chuyển đổiSơ đồ chuyển đổi9Sơ đồ chuyển đổi10Cách tiếp cận siêu ngôn ngữ: sử dụngnghĩaChuyển đổi: các luật chuyển đổi từ ngôn ngữ nàysang ngôn ngữ khácĐỐi tượng/sự kiện (ontology)11122Các kiểu dịch máycaomức độtrừu tượngDịch máy thống kêsiêu ngôn ngữathấpngữ nghĩacú phápgst13} chuyển đổitừ-từ14Dịch máy thống kêý tưởngCoi việc dịch như bài toán kênh có nhiễuInput (Nguồn)“Noisy” Output (đích)The channelE: English words... (adds “noise”)F: Les mots Anglais...Mô hình dịch:P(E|F) = P(F|E) P(E) / P(F)Khôi phục lại E khi biết F:Sau khi đơn giản hóa (P(F) không đổi):argmaxE P(E|F) = argmaxE P(F|E) P(E)15Các yếu tố16Ý tưởng gióng hàngMô hình ngôn ngữ - Language Model (LM): xác suất thấy1 câu tiếng Anh (E) (xác suất tiền nghiệm):P(E)Mô hình dịch - Translation Model (TM): câu đích trongtiếng Pháp (F) khi có câu tiếng Anh:P(F|E)Thủ tục tìm kiếm:Cho F, tìm E tốt nhất sử dụng mô hình ngôn ngữ LM vàmô hình dịch TM.Vấn đề: thiếu dữ liệu!Ta không thể tạo từ điển câu E ↔ FThậm thí bình thường ta không thấy 1 câu lặp lại 2 lần17Mô hình dịch TM không quan tâm đến chuỗi đúng các từtiếng AnhSử dụng cách tiếp cận gán nhãn:• 1 từ tiếng Anh(“tag”) ~ 1 từ tiếng Pháp (“word”)→ không thực tế: thậm chí số từ trong 2 câu không bằngnhau→ sử dụng “gióng hàng”.Gióng hàng câu: tìm các nhóm câu trong 1 ngôn ngữ tươngứng với các nhóm câu khác trong ngôn ngữ khác183Gióng hàng câuThe old man ishappy. He hasfished manytimes. His wifetalks to him. Thefish are jumping.The sharks await.Gióng hàng câu1. The old man ishappy.2. He has fished manytimestimes.3. His wife talks to him.4. The fish are jumping.5. The sharks await.El viejo está felizporque ha pescadomuchos vecesveces. Sumujer habla con él.Los tiburonesesperan.1. El viejo está felizporque ha pescadomuchos veces.2. Su mujer hablacon él.3. Los tiburonesesperan.19Gióng hàng câu1. The old man ishappy.2. He has fished manytimes.3. His wife talks to him.4. The fish are jumping.5. The sharks await.20Gióng hàng từ - Mức dễ1.El viejo está felizporque ha pescadomuchos veces.2.Su mujer habla conél.3.Los tiburonesesperan.Khó khăn:Sự liên quan chéo: trật tự câu thay đổi khi dịch21Gióng hàng từ - Khó hơn22Gióng hàng từ - Khó hơn23244Gióng hàng từ - Mã hóaGióng hàng từ - Khó01 23456e0 And the program has been implementedf0 Le programme a été mis en application0 123 4 5 67Gán thông tin tuyến tính:• f0(1) Le(2) programme(3) a(4) été(5) mis(6) en(6)application(6)• e0 And(0) the(1) program(2) has(3) been(4)implemented(5,6,7)25Học việc gióng hàng từ sử dụngEM26Học việc gióng hàng từ sử dụng EM27Học việc gióng hàng từ sử dụng EM28Kênh nhiễuMô hình ngôn ngữP(e)eMô hình dịchP(f|e)fGiải mãArgmaxe =P(e|f)P(e|f)e29305 ...
Tìm kiếm theo từ khóa liên quan:
Xử lý ngôn ngữ tự nhiên Xử lý ngôn ngữ Bài giảng Xử lý ngôn ngữ tự nhiên Natural Language Processing Ngôn ngữ lập trình Phương pháp dịch máyTài liệu có liên quan:
-
12 trang 336 0 0
-
Giáo trình Lập trình hướng đối tượng: Phần 2
154 trang 308 0 0 -
Kỹ thuật lập trình trên Visual Basic 2005
148 trang 303 0 0 -
Bài thuyết trình Ngôn ngữ lập trình: Hệ điều hành Window Mobile
30 trang 290 0 0 -
Phương pháp tạo ra văn bản tiếng Việt có đề tài xác định
7 trang 282 0 0 -
NGÂN HÀNG CÂU HỎI TRẮC NGHIỆM THIẾT KẾ WEB
8 trang 244 0 0 -
Bài giảng Một số hướng nghiên cứu và ứng dụng - Lê Thanh Hương
13 trang 244 0 0 -
Giáo trình Lập trình cơ bản với C++: Phần 1
77 trang 240 0 0 -
Giáo án Tin học lớp 11 (Trọn bộ cả năm)
125 trang 227 1 0 -
Giáo trình Lập trình logic trong prolog: Phần 1
114 trang 224 0 0 -
Bài tập lập trình Windows dùng C# - Bài thực hành
13 trang 204 0 0 -
Thiết kế mạch logic bằng Verilog - HDL
45 trang 190 0 0 -
Bài giảng Nhập môn về lập trình - Chương 1: Giới thiệu về máy tính và lập trình
30 trang 187 0 0 -
Xây dựng ontology trợ giúp ra quyết định về đào tạo cho các trường Đại học ở Việt Nam
10 trang 180 0 0 -
Giáo trình Lập trình C căn bản: Phần 1
64 trang 173 0 0 -
Tích hợp DSM và ảnh chụp UAV với mô hình nơ-ron tích chập trong phân loại lớp phủ mặt đất
8 trang 167 0 0 -
74 trang 161 0 0
-
Báo cáo thực tập: Quản lý nhân sự & tiền lương
52 trang 160 0 0 -
Bài giảng Xử lý ngôn ngữ tự nhiên: Phân tích cú pháp xác suất - Lê Thanh Hương
19 trang 154 0 0 -
Giáo trình nhập môn lập trình - Phần 22
48 trang 143 0 0