LUẬN VĂN: Tìm hiểu về xử lý ngôn ngữ tự nhiên và máy dịch. Viết chương trình mô phỏng từ điển Việt-Anh
Số trang: 70
Loại file: pdf
Dung lượng: 1,007.54 KB
Lượt xem: 11
Lượt tải: 0
Xem trước 7 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Tham khảo luận văn - đề án luận văn: tìm hiểu về xử lý ngôn ngữ tự nhiên và máy dịch. viết chương trình mô phỏng từ điển việt-anh, luận văn - báo cáo, công nghệ thông tin phục vụ nhu cầu học tập, nghiên cứu và làm việc hiệu quả
Nội dung trích xuất từ tài liệu:
LUẬN VĂN: Tìm hiểu về xử lý ngôn ngữ tự nhiên và máy dịch. Viết chương trình mô phỏng từ điển Việt-Anh BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG…………….. LUẬN VĂN Tìm hiểu về xử lý ngôn ngữ tự nhiên và máy dịch. Viết chươngtrình mô phỏng từ điển Việt-Anh Đồ án tốt nghiệp Lời cảm ơn Trước hết em xin chân thành cảm ơn thầy giáo Ths. Vũ Mạnh Khánh, làngười đã hướng dẫn em rất nhiều trong suốt quá trình tìm hiểu nghiên cứu và hoànthành khóa luận này từ lý thuyết đến ứng dụng. Sự hướng dẫn của các thầy đã giúpem có thêm được những hiểu biết về xử lý ngôn ngữ tự nhiên và các ứng dụng củanó. Đồng thời em cũng xin chân thành cảm ơn các thầy cô trong bộ môn côngnghệ thông tin cũng như các thầy cô trong trường đã trang bị cho em những kiếnthức cơ bản cần thiết để em có thể hoàn thành tốt khóa luận này. Em xin gửi lời cảm ơn đến các thành viên lớp CT1002, những người bạn đãluôn ở bên cạnh động viên, tạo điều kiện thuận lợi và cùng em tìm hiểu, hoàn thànhtốt khóa luận. Sau cùng, em xin gửi lời cảm ơn đến gia đình, bạn bè đã tạo mọi điều kiện đểem xây dựng thành công khóa luận này. Hải Phòng, ngày…….tháng……năm 2010 Sinh viên Nguyễn Văn Thành 1 Đồ án tốt nghiệp Mục lục 2 Đồ án tốt nghiệpArticle I. MỞ ĐẦU Xử lý ngôn ngữ tự nhiên (natural language processing - NLP) là một nhánhcủa trí tuệ nhân tạo tập trung vào các ứng dụng trên ngôn ngữ của con người. Trongtrí tuệ nhân tạo thì xử lý ngôn ngữ tự nhiên là một trong những phần khó nhất vì nóliên quan đến việc phải hiểu ý nghĩa ngôn ngữ - công cụ hoàn hảo nhất của tư duyvà giao tiếp. Xử lý ngôn ngữ chính là xử lý thông tin khi đầu vào là “dữ liệu ngôn ngữ”(dữ liệu cần biến đổi), tức dữ liệu “văn bản” hay “tiếng nói”. Các dữ liệu liên quanđến ngôn ngữ viết (văn bản) và nói (tiếng nói) đang dần trở nên kiểu dữ liệu chínhcon người có và lưu trữ dưới dạng điện tử. Đặc điểm chính của các kiểu dữ liệu nàylà không có cấu trúc hoặc nửa cấu trúc và chúng không thể lưu trữ trong các khuôndạng cố định như các bảng biểu. Để máy tính có thể hiểu và thực thi một chương trình được viết bằng ngônngữ cấp cao, ta cần phải có một trình biên dịch thực hiện việc chuyển đổi chươngtrình đó sang chương trình ở dạng ngôn ngữ đích. Xử lý ngôn ngữ tự nhiên là một lĩnh vực nghiên cứu nhằm giúp cho các hệthống máy tính hiểu và xử lý được ngôn ngữ con người. Dịch máy là một trongnhững ứng dụng chính của xử lý ngôn ngữ tự nhiên. Mặc dù dịch máy đã đượcnghiên cứu và phát triển trong hơn 50 năm qua, song vẫn tồn tại nhiều vấn đề cầnnghiên cứu. 3 Đồ án tốt nghiệpArticle II. Chương 1 : Giới thiệu về xử lý ngôn ngữ tựnhiên1.1. Tổng quan Xử lý ngôn ngữ chính là xử lý thông tin khi đầu vào là “dữ liệu ngôn ngữ”(dữ liệu cần biến đổi), tức dữ liệu “văn bản” hay “tiếng nói”. Các dữ liệu liên quanđến ngôn ngữ viết (văn bản) và nói (tiếng nói) đang dần trở nên kiểu dữ liệu chínhcon người có và lưu trữ dưới dạng điện tử. Đặc điểm chính của các kiểu dữ liệu nàylà không có cấu trúc hoặc nửa cấu trúc và chúng không thể lưu trữ trong các khuôndạng cố định như các bảng biểu. Theo đánh giá của công ty Oracle, hiện có đến80% dữ liệu không cấu trúc trong lượng dữ liệu của loài người đang có [OracleText]. Với sự ra đời và phổ biến của Internet, của sách báo điện tử, của máy tính cánhân, của viễn thông, của thiết bị âm thanh,… người người ai cũng có thể tạo ra dữliệu văn bản hay tiếng nói. Vấn đề là làm sao ta có thể xử lý chúng, tức chuyểnchúng từ các dạng ta chưa hiểu được thành các dạng ta có thể hiểu và giải thíchđược, tức là ta có thể tìm ra thông tin, tri thức hữu ích cho mình. Giả sử chúng ta có các câu sau trong các tiếng nước ngoài: - “We meet here today to talk about Vietnamese language and speechprocessing.” - “Aujourdhui nous nous réunissons ici pour discuter le traitement de langueet de parole vietnamienne.” - “Mы встрачаемся здесь сегодня, чтобы говорить о вьетнамскомязыке и обработке речи.” Nếu có ai đó dịch, hoặc có một chương trình máy tính dịch (biến đổi) chúngra tiếng Việt, ta sẽ hiểu nghĩa các câu trên đều là: “Hôm nay chúng ta gặp nhau ởđây để bàn về xử lý ngôn ngữ và tiếng nói tiếng Việt.”. Nếu các câu này được lưutrữ như các tệp tiếng Anh, Pháp, Nga và Việt như ta nhìn thấy ở trên, ta có các dữliệu “văn bản”. Nếu ai đó đọc các câu này, ghi âm lại, ta có thể chuyển chúng vào 4 Đồ án tốt nghiệpmáy tính dưới dạng các tệp các tín hiệu (signal) “tiếng nói”. Tín hiệu sóng âm củahai âm tiết tiếng Việt ...
Nội dung trích xuất từ tài liệu:
LUẬN VĂN: Tìm hiểu về xử lý ngôn ngữ tự nhiên và máy dịch. Viết chương trình mô phỏng từ điển Việt-Anh BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG…………….. LUẬN VĂN Tìm hiểu về xử lý ngôn ngữ tự nhiên và máy dịch. Viết chươngtrình mô phỏng từ điển Việt-Anh Đồ án tốt nghiệp Lời cảm ơn Trước hết em xin chân thành cảm ơn thầy giáo Ths. Vũ Mạnh Khánh, làngười đã hướng dẫn em rất nhiều trong suốt quá trình tìm hiểu nghiên cứu và hoànthành khóa luận này từ lý thuyết đến ứng dụng. Sự hướng dẫn của các thầy đã giúpem có thêm được những hiểu biết về xử lý ngôn ngữ tự nhiên và các ứng dụng củanó. Đồng thời em cũng xin chân thành cảm ơn các thầy cô trong bộ môn côngnghệ thông tin cũng như các thầy cô trong trường đã trang bị cho em những kiếnthức cơ bản cần thiết để em có thể hoàn thành tốt khóa luận này. Em xin gửi lời cảm ơn đến các thành viên lớp CT1002, những người bạn đãluôn ở bên cạnh động viên, tạo điều kiện thuận lợi và cùng em tìm hiểu, hoàn thànhtốt khóa luận. Sau cùng, em xin gửi lời cảm ơn đến gia đình, bạn bè đã tạo mọi điều kiện đểem xây dựng thành công khóa luận này. Hải Phòng, ngày…….tháng……năm 2010 Sinh viên Nguyễn Văn Thành 1 Đồ án tốt nghiệp Mục lục 2 Đồ án tốt nghiệpArticle I. MỞ ĐẦU Xử lý ngôn ngữ tự nhiên (natural language processing - NLP) là một nhánhcủa trí tuệ nhân tạo tập trung vào các ứng dụng trên ngôn ngữ của con người. Trongtrí tuệ nhân tạo thì xử lý ngôn ngữ tự nhiên là một trong những phần khó nhất vì nóliên quan đến việc phải hiểu ý nghĩa ngôn ngữ - công cụ hoàn hảo nhất của tư duyvà giao tiếp. Xử lý ngôn ngữ chính là xử lý thông tin khi đầu vào là “dữ liệu ngôn ngữ”(dữ liệu cần biến đổi), tức dữ liệu “văn bản” hay “tiếng nói”. Các dữ liệu liên quanđến ngôn ngữ viết (văn bản) và nói (tiếng nói) đang dần trở nên kiểu dữ liệu chínhcon người có và lưu trữ dưới dạng điện tử. Đặc điểm chính của các kiểu dữ liệu nàylà không có cấu trúc hoặc nửa cấu trúc và chúng không thể lưu trữ trong các khuôndạng cố định như các bảng biểu. Để máy tính có thể hiểu và thực thi một chương trình được viết bằng ngônngữ cấp cao, ta cần phải có một trình biên dịch thực hiện việc chuyển đổi chươngtrình đó sang chương trình ở dạng ngôn ngữ đích. Xử lý ngôn ngữ tự nhiên là một lĩnh vực nghiên cứu nhằm giúp cho các hệthống máy tính hiểu và xử lý được ngôn ngữ con người. Dịch máy là một trongnhững ứng dụng chính của xử lý ngôn ngữ tự nhiên. Mặc dù dịch máy đã đượcnghiên cứu và phát triển trong hơn 50 năm qua, song vẫn tồn tại nhiều vấn đề cầnnghiên cứu. 3 Đồ án tốt nghiệpArticle II. Chương 1 : Giới thiệu về xử lý ngôn ngữ tựnhiên1.1. Tổng quan Xử lý ngôn ngữ chính là xử lý thông tin khi đầu vào là “dữ liệu ngôn ngữ”(dữ liệu cần biến đổi), tức dữ liệu “văn bản” hay “tiếng nói”. Các dữ liệu liên quanđến ngôn ngữ viết (văn bản) và nói (tiếng nói) đang dần trở nên kiểu dữ liệu chínhcon người có và lưu trữ dưới dạng điện tử. Đặc điểm chính của các kiểu dữ liệu nàylà không có cấu trúc hoặc nửa cấu trúc và chúng không thể lưu trữ trong các khuôndạng cố định như các bảng biểu. Theo đánh giá của công ty Oracle, hiện có đến80% dữ liệu không cấu trúc trong lượng dữ liệu của loài người đang có [OracleText]. Với sự ra đời và phổ biến của Internet, của sách báo điện tử, của máy tính cánhân, của viễn thông, của thiết bị âm thanh,… người người ai cũng có thể tạo ra dữliệu văn bản hay tiếng nói. Vấn đề là làm sao ta có thể xử lý chúng, tức chuyểnchúng từ các dạng ta chưa hiểu được thành các dạng ta có thể hiểu và giải thíchđược, tức là ta có thể tìm ra thông tin, tri thức hữu ích cho mình. Giả sử chúng ta có các câu sau trong các tiếng nước ngoài: - “We meet here today to talk about Vietnamese language and speechprocessing.” - “Aujourdhui nous nous réunissons ici pour discuter le traitement de langueet de parole vietnamienne.” - “Mы встрачаемся здесь сегодня, чтобы говорить о вьетнамскомязыке и обработке речи.” Nếu có ai đó dịch, hoặc có một chương trình máy tính dịch (biến đổi) chúngra tiếng Việt, ta sẽ hiểu nghĩa các câu trên đều là: “Hôm nay chúng ta gặp nhau ởđây để bàn về xử lý ngôn ngữ và tiếng nói tiếng Việt.”. Nếu các câu này được lưutrữ như các tệp tiếng Anh, Pháp, Nga và Việt như ta nhìn thấy ở trên, ta có các dữliệu “văn bản”. Nếu ai đó đọc các câu này, ghi âm lại, ta có thể chuyển chúng vào 4 Đồ án tốt nghiệpmáy tính dưới dạng các tệp các tín hiệu (signal) “tiếng nói”. Tín hiệu sóng âm củahai âm tiết tiếng Việt ...
Tìm kiếm theo từ khóa liên quan:
ngôn ngữ tự nhiên xử lý ngôn ngữ tự nhiên mô phỏng từ điển Việt-Anh luận văn thiết kế hệ thống lập trình hệ thống xây dựng phần mềm kỹ thuật lập trìnhTài liệu có liên quan:
-
Thảo luận đề tài: Mối quan hệ giữa đầu tư theo chiều rộng và đầu tư theo chiều sâu
98 trang 342 0 0 -
12 trang 339 0 0
-
Phân tích thiết kế hệ thống - Biểu đồ trạng thái
20 trang 316 0 0 -
Kỹ thuật lập trình trên Visual Basic 2005
148 trang 309 0 0 -
Phương pháp tạo ra văn bản tiếng Việt có đề tài xác định
7 trang 286 0 0 -
Đề tài nguyên lý hệ điều hành: Nghiên cứu tìm hiểu về bộ nhớ ngoài trong hệ điều hành Linux
19 trang 269 0 0 -
LUẬN VĂN: TÌM HIỂU PHƯƠNG PHÁP HỌC TÍCH CỰC VÀ ỨNG DỤNG CHO BÀI TOÁN LỌC THƯ RÁC
65 trang 262 0 0 -
79 trang 250 0 0
-
NGÂN HÀNG CÂU HỎI TRẮC NGHIỆM THIẾT KẾ WEB
8 trang 248 0 0 -
Đồ án cung cấp điện: Thiết kế hệ thống cung cấp điện cho xí nghiệp công nghiệp
108 trang 241 0 0