LUẬN VĂN: KHAI PHÁ DỮ LIỆU SONG NGỮ TỪ WEB

Số trang: 40 Loại file: pdf Dung lượng: 671.66 KB Lượt xem: 127 Lượt tải: 0

Hoai.2512

Báo xấu

Xem trước 4 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Cơ sở dữ liệu song ngữ, bao gồm các cặp văn bản song ngữ hay các cặp câu song ngữ, đóng một vai trò rất quan trọng trong nhiều ứng dụng ngôn ngữ tự nhiên, như dịch máy thống kê, xây dựng từ điển song ngữ, tìm kiếm đa ngôn ngữ. Việc xây dựng cơ sở dữ liệu này bằng tay là một việc tốn nhiều chi phí và thời gian. May mắn thay là có rất nhiều dữ liệu song ngữ ở các dạng khác nhau trên Internet. Việc khai phá ra các thành phần tương đương (song ngữ)...
Nội dung trích xuất từ tài liệu:
LUẬN VĂN:KHAI PHÁ DỮ LIỆU SONG NGỮ TỪ WEB ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Văn VinhKHAI PHÁ DỮ LIỆU SONG NGỮ TỪ WEBKHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công Nghệ Thông Tin Cán bộ hướng dẫn: Lê Anh Cường HÀ NỘI - 2009 Tóm tắt Cơ sở dữ liệu song ngữ, bao gồm các cặp văn bản song ngữ hay các cặp câusong ngữ, đóng một vai trò rất quan trọng trong nhiều ứng dụng ngôn ngữ tự nhiên,như dịch máy thống kê, xây dựng từ điển song ngữ, tìm kiếm đa ngôn ngữ. Việc xâydựng cơ sở dữ liệu này bằng tay là một việc tốn nhiều chi phí và thời gian. May mắnthay là có rất nhiều dữ liệu song ngữ ở các dạng khác nhau trên Internet. Việc khai phára các thành phần tương đương (song ngữ) với chất lượng cao sẽ tạo nên một cơ sở dữliệu song ngữ rất lớn phục vụ cho nhiều ứng dụng khác nhau. Luận văn tập trung vào nghiên cứu và phát triển các kỹ thuật trong khai phá cơ sởdữ liệu song ngữ Anh-Việt từ World Wide Web (WWW), cụ thể là trên các trang websong ngữ trong định dạng html. Nhiệm vụ của khai phá dữ liệu song ngữ là tự động tìm rahai thành phần có ngữ nghĩa tương ứng trong tập những văn bản thuộc hai ngôn ngữ khácnhau. Hai thành phần được dóng hàng hoặc được ghép cặp này càng nhỏ thì thông tin haytri thức thu được từ đó càng lớn. Thành phần ở đây có thể là văn bản, đoạn, câu và từ,...Loại thành phần mà chúng tôi xét đến trong luận văn này là văn bản. Để ghép cặp những văn bản html trong một tập văn bản trong hai ngôn ngữ màluận văn khai thác là tiếng Anh và tiếng Việt, chúng tôi tìm hiểu các công nghệ trongcác nghiên cứu hiện tại, xác định ưu điểm nhược điểm và tính khả thi để ứng dụng trongthực tiễn luận văn này. Có hai tiếp cận đối với bài toán này là dựa trên nội dung (thôngthường là dựa trên đối sánh các cặp từ là bản dịch của nhau – từ điển song ngữ), hoặc làdựa trên sự tương đồng về cấu trúc trang html. Trong phạm vi luận văn này, chúng tôitheo tiếp cận dựa trên cấu trúc. Cụ thể chúng tôi khảo sát các đặc trưng cấu trúc khácnhau như độ tương đồng cấu trúc thẻ của văn bản, độ tương đồng cấu trúc url của vănbản, và nhiều yếu tố phụ để giảm thời gian chạy của hệ thống. Đồng thời chúng tôi cũngtheo tiếp cận học máy (theo [5]), và áp dụng phương pháp học cây quyết định cho bàitoán này. Đặc biệt chúng tôi đã mô hình hóa bài toán cho bộ phân loại Naïve Bayes vàáp dụng lựa chọn thuộc tính và cho kết quả dóng hàng văn bản tốt hơn khi sử dụng câyquyết định như trong [5]. Để thực nghiệm, chúng tôi xây dựng một hệ thống làm cácnhiệm vụ: chuẩn bị cơ sở dữ liệu thô từ Internet; một số bước tiền xử lý ngôn ngữ; vàcác mô đun dóng hàng văn bản. Kết quả đạt được là khá khả quan với độ chính xác dónghàng văn bản khoảng 96% đối với mô hình phân loại Bayes. 1 Mục lụcTóm tắtMục lụcMở đầu ...................................................................................................................... 3Chương 1 Giới thiệu .................................................................................................. 4 1.1. Vai trò tầm quan trọng của dữ liệu song ngữ ..................................................... 4 1.2. Các nghiên cứu liên quan .................................................................................. 5 1.3. Mục tiêu và tiếp cận giải quyết vấn đề ............................................................... 9 1.4. Cấu trúc luận văn............................................................................................. 10Chương 2. Các tiếp cận và kỹ thuật cho bài toán khai phá dữ liệu song ngữ ....... 11 2.1. Lọc theo cấu trúc ............................................................................................. 11 2.2. Lọc theo nội dung............................................................................................ 14 2.3 Các đặc trưng khác ........................................................................................... 16 2.4. Thuật toán lập trình động................................................................................. 17Chương 3. Mô hình học máy cho bài toán đối sánh văn bản ................................. 20 3.1 Mô hình phân loại theo cây quyết định ............................................................. 20 3.2. Mô hình phân loại Bayes ................................................................................. 24Chương 4. Thực nghiệm và kết quả ........................................................................ 27 4.1. Kiến trúc tổng quan hệ thống ........................................................................... 27 4.2. Bộ công cụ download và xác định ngôn ngữ .................................................... 28 4.3. Xây dựng cơ sở dữ liệu th ...