Danh mục tài liệu

Luận văn:NGHIÊN CỨU GIẢI MÃ TRONG KỸ THUẬT DỊCH MÁY THỐNG KÊ

Số trang: 26      Loại file: pdf      Dung lượng: 874.69 KB      Lượt xem: 15      Lượt tải: 0    
Xem trước 3 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Hiện nay có rất nhiều ngôn ngữ nói, viết khác nhau trên thế giới và sự khác biệt về ngôn ngữ là một trở ngại lớn trong hầu hết các mặt của đời sống. Do đó, với sự phát triển vượt bậc của khoa học và công nghệ mà chúng ta có thể tìm thấy nhiều hệ thống dịch máy (dịch tự động) miễn phí như Google, Vdict…
Nội dung trích xuất từ tài liệu:
Luận văn:NGHIÊN CỨU GIẢI MÃ TRONG KỸ THUẬT DỊCH MÁY THỐNG KÊ BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG LÊ TRỌNG HIỀN NGHIÊN CỨU GIẢI MÃTRONG KỸ THUẬT DỊCH MÁY THỐNG KÊ Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 60.48.01 TÓM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT Đà Nẵng - Năm 2011 Công trình được hoàn thành tại ĐẠI HỌC ĐÀ NẴNGNgười hướng dẫn khoa học: PGS.TS. Võ Trung HùngPhản biện 1: TS. Nguyễn Thanh BìnhPhản biện 2: GS.TS. Nguyễn Thanh ThủyLuận văn đã được bảo vệ tại Hội đồng chấm Luận văn tốtnghiệp thạc sĩ kỹ thuật họp tại Đại học Đà Nẵng ngày 10tháng 09 năm 2011.Có thể tìm hiểu Luận văn tại:- Trung tâm Thông tin – Học liệu, Đại học Đà Nẵng- Trung tâm Học liệu, Đại học Đà Nẵng -1- MỞ ĐẦU1. LÝ DO CHỌN ĐỀ TÀI Hiện nay có rất nhiều ngôn ngữ nói, viết khác nhau trên thế giớivà sự khác biệt về ngôn ngữ là một trở ngại lớn trong hầu hết các mặtcủa đời sống. Do đó, với sự phát triển vượt bậc của khoa học và côngnghệ mà chúng ta có thể tìm thấy nhiều hệ thống dịch máy (dịch tựđộng) miễn phí như Google, Vdict… Những hệ thống này cho phépdịch một trang web, văn bản theo một cặp ngôn ngữ chọn trước. Dịch máy thống kê là hướng tiếp cận hoàn toàn dựa trên ngữ liệunên có tính độc lập với ngôn ngữ. Brown và các cộng sự giả định rằngmỗi câu ở một ngôn ngữ nguồn sẽ có những câu dịch khác nhau ở ngônngữ đích và họ đã đưa ra xác suất Pr(t|s) là xác suất điều kiện để dịchđược câu t ở ngôn ngữ đích khi đã có câu s ở ngôn ngữ nguồn. Ý tưởng cơ bản của cách tiếp cận này là từ một câu s ở ngôn ngữnguồn, hệ thống đi tìm một câu t ở ngôn ngữ đích sao cho xác suấtPr(t|s) đạt giá trị lớn nhất. Do cách tiếp cận như thế, nên chất lượng bảndịch sẽ phụ thuộc vào việc lựa chọn câu đích. Việc lựa chọn này đượcgọi là quá trình tìm kiếm (searching) hay giải mã (decoding) trong kỹthuật dịch máy thống kê. Theo (Brown et al, 1993) and (Vogel, Ney, and Tillman, 1996),giải mã trong dịch máy thống kê là rất quan trọng, hiệu suất của nó ảnhhưởng trực tiếp đến hiệu quả và chất lượng của dịch thuật. Nếu khôngcó giải mã tốt và thuật toán hiệu quả, một hệ thống dịch máy thống kêcó thể bỏ lỡ bản dịch tốt nhất của một câu vào ngay cả khi nó hoàn toànđược dự đoán bởi mô hình. -2- Vì vậy, nghiên cứu giải mã trong kỹ thuật dịch máy thống kê làhết sức cần thiết để nâng cao tốc độ tính toán, chất lượng bản dịch, đặcbiệt là phục vụ cho công tác nghiên cứu về dịch máy. Trên cơ sở đó, tôi đã chọn nghiên cứu lĩnh vực dịch máy choluận văn tốt nghiệp thạc sĩ của mình với đề tài: “Nghiên cứu giải mãtrong kỹ thuật dịch máy thống kê”.2. MỤC ĐÍCH NGHIÊN CỨU Mục đích của luận văn là tìm hiểu, nghiên cứu về dịch máy bằngkỹ thuật thống kê như mô hình dịch, mô hình ngôn ngữ, chuyển đổi trậttự từ,… nhưng trong luận văn này tôi sẽ tập trung nghiên cứu vấn đềtìm kiếm (searching) hay giải mã (decoding), là một giai đoạn trong kỹthuật dịch máy thống kê nhằm tìm hiểu. Nghiên cứu ứng dụng thuậttoán di truyền vào giai đoạn giải mã trong kỹ thuật dịch máy thống kê.3. ĐỐI TƢỢNG VÀ PHẠM VI NGHIÊN CỨU - Đối tượng: nghiên cứu về dịch máy, dịch máy thống kê; vấn đề giải mã (tìm kiếm) trong kỹ thuật dịch máy thống kê. - Phạm vi: chỉ nghiên cứu trên cặp ngôn ngữ Anh – Việt.4. PHƢƠNG PHÁP NGHIÊN CỨU - Phương pháp tài liệu: nghiên cứu các tài liệu liên quan đến kỹ thuật dịch máy thống kê. - Phương pháp thực nghiệm: nghiên cứu ứng dụng thuật toán di truyền cho giai đoạn giải mã trong kỹ thuật dịch máy thống kê trên cặp ngôn ngữ Anh – Việt. -3-5. Ý NGHĨA KHOA HỌC VÀ THỰC TIỄN Về ý nghĩa khoa học của luận văn là từng bước nâng cao chấtlượng các hệ thống dịch máy bằng kỹ thuật thống kê. Về ý nghĩa thực tiễn là ứng dụng thuật toán di truyền vào giaiđoạn giải mã của kỹ thuật dịch máy thống kê.6. CẤU TRÚC CỦA LUẬN VĂN Ngoài phần mở đầu, kết luận, tài liệu tham khảo, luận văn đượcchia làm 3 chương như sau: - Chương 1: Giới thiệu tổng quan về lịch sử dịch máy, những khó khăn của dịch máy, các hệ thống dịch máy hiện có. - Chương 2: Trình bày kết quả nghiên cứu dịch máy thống kê và thuật toán giải mã stack, multi stack trong kỹ thuật dịch máy thống kê. - Chương 3: Trình bày ứng dụng thuật toán di truyền để giải mã trong kỹ thuật dịch máy thống kê. CHƢƠNG 1 - NGHIÊN CỨU TỔNG QUAN Khởi đầu của đề tài, tác giả trình bày một số khái niệm cơ bảnnhất về dịch máy, những khó khăn của dịch máy và giới thiệu một số hệthống dịch máy miễn phí hiện có.1.1. TỔNG QUAN VỀ DỊCH MÁY Dịch máy hay dịch tự động (machine translation) là một ứngdụng trên máy tính được áp dụng để chuyển tự động một văn bản từngôn ngữ này sang ngôn ngữ khác. Ngày nay, nhu cầu sử dụng một hệthống dịch tự động đang trở nên vô cùng bức thiết khi số lượng văn bản -4-xuất hiện và lan truyền trên môi trường mạng toàn cầu gia tăng mộtcách khủng khiếp. Một hệ thống dịch máy có chất lượng tốt sẽ giúp tiết kiệm mộtkhoản chi phí rất lớn về nhân lực và tiền bạc đáng kể cho các tổ chứchoặc cá nhân. Đồng thời, việc nắm bắt thông tin sẽ nhanh chóng hơnbao giờ hết. Cùng với sự phát triển của lĩnh vực trí tuệ nhân tạo, dịch máyđã trải qua những giai đoạn thăng trầm. Có những lúc rơi vào hoàn cảnhbế tắc, tưởng chừng phải dừng bước khi không có một hướng phát triểnnào. Tuy nhiên, việc nghiên cứu dịch máy vẫn tiếp tục và đã vượt quanhững khó khăn để đến những năm gần đây có những kết quả đángkhích lệ. 1.1.1. Lịch sử dịch máy 1.1.2. Những định nghĩa sơ bộ Dịch máy hay dịch tự độn ...

Tài liệu được xem nhiều:

Tài liệu có liên quan: