
Bài giảng Xử lý ngôn ngữ tự nhiên (Natural Language Processing): Bài 7.3 - Lê Thanh Hương
Thông tin tài liệu:
Nội dung trích xuất từ tài liệu:
Bài giảng Xử lý ngôn ngữ tự nhiên (Natural Language Processing): Bài 7.3 - Lê Thanh Hương Phân loại văn bản z Phân loại: (Text Categorization) Đầu vào của bài toán là tập các văn bản đã được phân lớp sẵn, sẵn cho một văn bản mới vào, ứng dụng phải chỉ ra văn bản đó thuộc chủ đề nào trong các chủ để ban đầu. Phân loại văn bản Lê Thanh Hương Bộ môn Hệ thống thông tin Viện CNTT&TT 2 1 Tại sao cần PLVB? Phân nhóm văn bản z Là tiếng Việt? z Lọc tin z Chuyển hướng cuộc gọi z Phân loại thư (cuộc hẹn, công việc, khẩn, bạn bè, thư rác, …) z Phân nhóm: (Text Clustering) Là bài toán cho một tập văn bản chưa được phân lớp gì cả ứng dụng phải chia tập cả, văn bản này thành các nhóm dựa trên độ tương đồng giữa chúng. 4 Đo độ chính xác Precision vs. Recall of Good (non-spam) Email Precision vs. Recall of Good (non-spam) Email z Precision = các thư được giữ (đúng) tất cả các thư giữ 100% 100% 75% 50% 25% 0% 0% 25% 50% 75% 100% Precision n Prec cision Đo độ chính xác zR Recallll = các thư được giữ (đúng) các thư đúng Recall 75% 50% 25% OK for search engines (maybe) high threshold: all we keep is good, but we don don’tt keep much point where precision=recall (often reported) would prefer to be here! low threshold: keep all the good stuff, but a lot of the bad too 0% 0% 5 25% 50% Recall 75% 100% OK for spam filtering and legal search 6 1 Các trường hợp đo độ chính xác phức tạp hơn Cách phân loại z Phân lớp nhiều lớp Subject: would you like to . . . . {Độ chính xác trung bình ( hoặc precision hoặc recall) của các phân lớp 2 lớp: thể thao hoặc không, tin tức hoặc không {Tốt hơn, đánh giá chi phí của các lớp lỗi z vd, đánh giá ảnh hưởng của các vấn ấ đề ề sau: • đặt các bài về Thể thao vào mục Tin tức • đặt các bài về Mốt vào mục Tin tức • đặt các bài về Tin tức vào mục Mốt z điều chỉnh hệ thống để giảm thiểu tổng chi phí z Với các hệ thống xếp hạng: {Mức độ liên quan đến xếp hạng của con người {Lấy các phản hồi tích cực từ người dùng Cách phân loại? 1. 2. 7 . . drive a new vehicle for free ? ? ? this is not hype or a hoax , there are hundreds of people driving brand new cars , suvs , minivans , trucks , or rvs . it does not matter to us what type of vehicle you choose . if you qualify for our program , it is your choice of vehicle , color , and options . we don ' t care . just by driving the vehicle , you are promoting our program . if you would like to find out more about this exciting opportunity to drive a brand new vehicle for free , please go to this site : http : / / 209 . 134 . 14 . 131 / ntr to watch a short 4 minute audio / video presentation which gives you more information about our exciting new car program . if you do n't want to see the short video , but want us to send you our information package that explains our exciting opportunity for you to drive a new vehicle for free , please go here : http : / / 209 . 134 . 14 . 131 / ntr / form . htm we would like to add you the group of happy people driving a new vehicle for free . happy motoring . Cách phân loại? (có giám sát) Xây dựng mô hình n-gram cho mỗi lớp, sử dụng lý thuyết Bayes Biểu diễn mỗi tài liệu như 1 vector 8 (có giám sát) 3. Coi như bài toán giải quyết nhập nhằng từ (cần chọn cách biểu diễn và độ đo khoảng cách ; sử dụng SVD?) { Cách 1: Đưa vào lớp mà tài liệu gần với trung tâm của lớp nhất (có ( ó thể kko phù hù h hợp nếu ế các á thà thành h phần hầ ttrong lớp lớ cách xa nhau) { Cách 2: Chia mỗi lớp thành các nhóm con (sau đó sử dụng cách 1 để lấy 1 lớp, trả về lớp chứa nhóm con. Phương pháp này cũng có thể dùng cho mô hình n-gram) { Cách 3: Chỉ nhìn vào các nhãn của các tài liệu luyện (vd, sử dụng k láng giềng gần, có thể láng giềng gần hơn có trọng số lớn hơn) a) Mô hình vector – sử dụng tất cả các đặc trưng b) Danh sách quyết định – chỉ sử dụng đặc trưng tốt nhất c) Naive Bayes – sử dụng tất cả các đặc trưng, đánh trọng số dựa trên tác động của nó trong việc phân biệt các lớp d) Cây quyết định – sử dụng một số đặc trưng theo trình tự 9 10 slide courtesy of D. Yarowsky (modified) Danh sách quyết định Mô hình vector 2 tài liệu sau tương tự nhau: Sau khi chuẩn hóa độ dài vector thành 1, giống không gian Euclidean (similar endpoint) High dot product (similar direction) (0, 0, 3, 1, 0, 7, ... 1, 0) (0, 0, 1, 0, 0, 3, ... 0, 1) Khi tạo vector, có thể: loại bỏ từ chức năng hoặc giảm trọng số của nó Sử dụng các đặc trưng khác so với unigrams Để phân giải nhập nhằng của từ lead : Duyệt danh sách các ứng cử viên Dấu hiệu đầu tiên tìm thấy là dấu hiệu quyết định Không tốt bằng cách kết hợp các dấu hiệu, nhưng hoạt động tốt cho WSD Đánh giá trọng số của dấu hiệu: log [ p(cue | sense A) [smoothed] / p(cue | sense B) ] 11 12 2 slide courtesy of D. Yarowsky (modified) Kết hợp các dấu hiệu và Naive Bayes slide courtesy of D. Yarowsky (modified) Kết hợp các dấu hiệu và Naive Bayes các giá trị này được tính từ các bài của các tác giả đã biết trước (học có giám sát) 1 2 1 2 Mô hình “Naïve Bayes” cho phân lớp văn bản Câu này là câu của sinh viên A hay B? (Chú ý giả thiết độc lập) 13 14 example from Manning & Schütze Cây quyết định Các đặc trưng ngoài Unigrams Bài báo Reuters này thuộc lĩnh vực Lợi nhuận? 2301/7681 = 0.3 of all docs contains “cents” ≥ 2 times 1607/1704 = 0.943 contains “versus” ≥ 2 times contains “versus” < 2 times 1398/1403 = 0.996 “yes” 209/301 = 0.694 contains “cents” < 2 times 694/5977 = 0.116 contains “net” ≥ 1 time 422/541 = 0.780 contains “net” < 1 time 272/5436 = 0.050 z Vấn đề lựa chọn đặc trưng { Sử dụng ụ g tập ập lớn các đặc ặ trưng g lưu trong g 1 template p { Có thể tìm các đặc trưng có ích khi xét 1 cách độc lập? { Thêm lần lượt các đặc trưng z Đo hoặc đoán khả năng cải thiện của mỗi đặc trưng { Cuối cùng, loại bỏ các đặc trưng làm giảm tính chính xác của hệ thống khi tiến hành thử nghiệm trên bộ dữ liệu mới z Chương trình SpamAssassin sử dụng các đặc ...
Tìm kiếm theo từ khóa liên quan:
Xử lý ngôn ngữ tự nhiên Xử lý ngôn ngữ Bài giảng Xử lý ngôn ngữ tự nhiên Natural Language Processing Ngôn ngữ lập trình Phân loại văn bảnTài liệu có liên quan:
-
12 trang 336 0 0
-
Giáo trình Lập trình hướng đối tượng: Phần 2
154 trang 308 0 0 -
Kỹ thuật lập trình trên Visual Basic 2005
148 trang 303 0 0 -
Bài thuyết trình Ngôn ngữ lập trình: Hệ điều hành Window Mobile
30 trang 290 0 0 -
Phương pháp tạo ra văn bản tiếng Việt có đề tài xác định
7 trang 282 0 0 -
NGÂN HÀNG CÂU HỎI TRẮC NGHIỆM THIẾT KẾ WEB
8 trang 244 0 0 -
Bài giảng Một số hướng nghiên cứu và ứng dụng - Lê Thanh Hương
13 trang 244 0 0 -
Giáo trình Lập trình cơ bản với C++: Phần 1
77 trang 240 0 0 -
Giáo án Tin học lớp 11 (Trọn bộ cả năm)
125 trang 227 1 0 -
Giáo trình Lập trình logic trong prolog: Phần 1
114 trang 224 0 0 -
Bài tập lập trình Windows dùng C# - Bài thực hành
13 trang 203 0 0 -
Thiết kế mạch logic bằng Verilog - HDL
45 trang 190 0 0 -
Bài giảng Nhập môn về lập trình - Chương 1: Giới thiệu về máy tính và lập trình
30 trang 187 0 0 -
Xây dựng ontology trợ giúp ra quyết định về đào tạo cho các trường Đại học ở Việt Nam
10 trang 180 0 0 -
Giáo trình Lập trình C căn bản: Phần 1
64 trang 173 0 0 -
Tích hợp DSM và ảnh chụp UAV với mô hình nơ-ron tích chập trong phân loại lớp phủ mặt đất
8 trang 167 0 0 -
74 trang 161 0 0
-
Báo cáo thực tập: Quản lý nhân sự & tiền lương
52 trang 160 0 0 -
Bài giảng Xử lý ngôn ngữ tự nhiên: Phân tích cú pháp xác suất - Lê Thanh Hương
19 trang 154 0 0 -
Giáo trình nhập môn lập trình - Phần 22
48 trang 143 0 0