
LUẬN VĂN: KHAI PHÁ DỮ LIỆU SONG NGỮ TỪ WEB
Thông tin tài liệu:
Nội dung trích xuất từ tài liệu:
LUẬN VĂN:KHAI PHÁ DỮ LIỆU SONG NGỮ TỪ WEB ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Văn VinhKHAI PHÁ DỮ LIỆU SONG NGỮ TỪ WEBKHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công Nghệ Thông Tin Cán bộ hướng dẫn: Lê Anh Cường HÀ NỘI - 2009 Tóm tắt Cơ sở dữ liệu song ngữ, bao gồm các cặp văn bản song ngữ hay các cặp câusong ngữ, đóng một vai trò rất quan trọng trong nhiều ứng dụng ngôn ngữ tự nhiên,như dịch máy thống kê, xây dựng từ điển song ngữ, tìm kiếm đa ngôn ngữ. Việc xâydựng cơ sở dữ liệu này bằng tay là một việc tốn nhiều chi phí và thời gian. May mắnthay là có rất nhiều dữ liệu song ngữ ở các dạng khác nhau trên Internet. Việc khai phára các thành phần tương đương (song ngữ) với chất lượng cao sẽ tạo nên một cơ sở dữliệu song ngữ rất lớn phục vụ cho nhiều ứng dụng khác nhau. Luận văn tập trung vào nghiên cứu và phát triển các kỹ thuật trong khai phá cơ sởdữ liệu song ngữ Anh-Việt từ World Wide Web (WWW), cụ thể là trên các trang websong ngữ trong định dạng html. Nhiệm vụ của khai phá dữ liệu song ngữ là tự động tìm rahai thành phần có ngữ nghĩa tương ứng trong tập những văn bản thuộc hai ngôn ngữ khácnhau. Hai thành phần được dóng hàng hoặc được ghép cặp này càng nhỏ thì thông tin haytri thức thu được từ đó càng lớn. Thành phần ở đây có thể là văn bản, đoạn, câu và từ,...Loại thành phần mà chúng tôi xét đến trong luận văn này là văn bản. Để ghép cặp những văn bản html trong một tập văn bản trong hai ngôn ngữ màluận văn khai thác là tiếng Anh và tiếng Việt, chúng tôi tìm hiểu các công nghệ trongcác nghiên cứu hiện tại, xác định ưu điểm nhược điểm và tính khả thi để ứng dụng trongthực tiễn luận văn này. Có hai tiếp cận đối với bài toán này là dựa trên nội dung (thôngthường là dựa trên đối sánh các cặp từ là bản dịch của nhau – từ điển song ngữ), hoặc làdựa trên sự tương đồng về cấu trúc trang html. Trong phạm vi luận văn này, chúng tôitheo tiếp cận dựa trên cấu trúc. Cụ thể chúng tôi khảo sát các đặc trưng cấu trúc khácnhau như độ tương đồng cấu trúc thẻ của văn bản, độ tương đồng cấu trúc url của vănbản, và nhiều yếu tố phụ để giảm thời gian chạy của hệ thống. Đồng thời chúng tôi cũngtheo tiếp cận học máy (theo [5]), và áp dụng phương pháp học cây quyết định cho bàitoán này. Đặc biệt chúng tôi đã mô hình hóa bài toán cho bộ phân loại Naïve Bayes vàáp dụng lựa chọn thuộc tính và cho kết quả dóng hàng văn bản tốt hơn khi sử dụng câyquyết định như trong [5]. Để thực nghiệm, chúng tôi xây dựng một hệ thống làm cácnhiệm vụ: chuẩn bị cơ sở dữ liệu thô từ Internet; một số bước tiền xử lý ngôn ngữ; vàcác mô đun dóng hàng văn bản. Kết quả đạt được là khá khả quan với độ chính xác dónghàng văn bản khoảng 96% đối với mô hình phân loại Bayes. 1 Mục lụcTóm tắtMục lụcMở đầu ...................................................................................................................... 3Chương 1 Giới thiệu .................................................................................................. 4 1.1. Vai trò tầm quan trọng của dữ liệu song ngữ ..................................................... 4 1.2. Các nghiên cứu liên quan .................................................................................. 5 1.3. Mục tiêu và tiếp cận giải quyết vấn đề ............................................................... 9 1.4. Cấu trúc luận văn............................................................................................. 10Chương 2. Các tiếp cận và kỹ thuật cho bài toán khai phá dữ liệu song ngữ ....... 11 2.1. Lọc theo cấu trúc ............................................................................................. 11 2.2. Lọc theo nội dung............................................................................................ 14 2.3 Các đặc trưng khác ........................................................................................... 16 2.4. Thuật toán lập trình động................................................................................. 17Chương 3. Mô hình học máy cho bài toán đối sánh văn bản ................................. 20 3.1 Mô hình phân loại theo cây quyết định ............................................................. 20 3.2. Mô hình phân loại Bayes ................................................................................. 24Chương 4. Thực nghiệm và kết quả ........................................................................ 27 4.1. Kiến trúc tổng quan hệ thống ........................................................................... 27 4.2. Bộ công cụ download và xác định ngôn ngữ .................................................... 28 4.3. Xây dựng cơ sở dữ liệu th ...
Tìm kiếm theo từ khóa liên quan:
luận văn công nghệ thông tin cơ sở dữ liệu song ngữ song ngữ web ứng dụng ngôn ngữ tự nhiên dịch máy thống kê xây dựng từ điển song ngữ tìm kiếm đa ngôn ngữTài liệu có liên quan:
-
52 trang 464 1 0
-
Top 10 mẹo 'đơn giản nhưng hữu ích' trong nhiếp ảnh
11 trang 363 0 0 -
Thảo luận đề tài: Mối quan hệ giữa đầu tư theo chiều rộng và đầu tư theo chiều sâu
98 trang 339 0 0 -
96 trang 332 0 0
-
74 trang 328 0 0
-
Đồ án tốt nghiệp: Xây dựng ứng dụng di động android quản lý khách hàng cắt tóc
81 trang 318 0 0 -
Tài liệu dạy học môn Tin học trong chương trình đào tạo trình độ cao đẳng
348 trang 317 1 0 -
Báo cáo thực tập thực tế: Nghiên cứu và xây dựng website bằng Wordpress
24 trang 303 0 0 -
Tài liệu hướng dẫn sử dụng thư điện tử tài nguyên và môi trường
72 trang 299 0 0 -
EBay - Internet và câu chuyện thần kỳ: Phần 1
143 trang 292 0 0 -
64 trang 290 0 0
-
Bài giảng An toàn và bảo mật thông tin - Trường đại học Thương Mại
31 trang 271 0 0 -
47 trang 259 0 0
-
LUẬN VĂN: TÌM HIỂU PHƯƠNG PHÁP HỌC TÍCH CỰC VÀ ỨNG DỤNG CHO BÀI TOÁN LỌC THƯ RÁC
65 trang 259 0 0 -
Giáo trình Hệ điều hành: Phần 2
53 trang 253 0 0 -
79 trang 250 0 0
-
Luận văn: Thiết kế xây dựng bộ đếm xung, ứng dụng đo tốc độ động cơ trong hệ thống truyền động điện
63 trang 240 0 0 -
Báo cáo thực tập nhà máy đường Bến Tre
68 trang 234 0 0 -
Tiểu luận: Phân tích chiến lược của Công ty Sữa Vinamilk
25 trang 232 0 0 -
63 trang 229 0 0