
Tóm tắt luận văn Thạc sĩ Khoa học máy tính: Nghiên cứu các giải pháp tạo nguồn tài nguyên dữ liệu lớn phục vụ xử lý ngôn ngữ tự nhiên
Số trang: 26
Loại file: pdf
Dung lượng: 7.36 MB
Lượt xem: 9
Lượt tải: 0
Xem trước 3 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Đề xuất được một số giải pháp để xây dựng hệ thống tạo tài nguồn nguyên dữ liệu lớn, nhằm phục vụ, chia sẻ, sử dụng trong việc nghiên cứu ngôn ngữ tự nhiên, tìm kiếm thông tin đa ngôn ngữ, trong dịch thuật cũng như trong học tập. Mời các bạn cùng tham khảo nội dung chi tiết.
Nội dung trích xuất từ tài liệu:
Tóm tắt luận văn Thạc sĩ Khoa học máy tính: Nghiên cứu các giải pháp tạo nguồn tài nguyên dữ liệu lớn phục vụ xử lý ngôn ngữ tự nhiênĐẠI HỌC ĐÀ NẴNGTRƯỜNG ĐẠI HỌC BÁCH KHOA-----------------------------------NGUYỄN TOÀN ANHNGHIÊN CỨU CÁC GIẢI PHÁPTẠO NGUỒN TÀI NGUYÊN DỮ LIỆU LỚNPHỤC VỤ XỬ LÝ NGÔN NGỮ TỰ NHIÊNChuyên ngành: KHOA HỌC MÁY TÍNHMã số: 60.48.01.01Khoá: K30TÓM TẮT LUẬN VĂN THẠC SĨĐà Nẵng, tháng 12 năm 2016Công trình được hoàn thành tạiTRƯỜNG ĐẠI HỌC BÁCH KHOANgười hướng dẫn khoa học: PGS.TS Huỳnh Công PhápPhản biện 1:TS. Nguyễn Văn HiệuĐại học Bách khoa - Đại học Đà NẵngPhản biện 2:PGS.TS. Lê Văn SơnĐại học Sư phạm - Đại học Đà NẵngLuận văn được bảo vệ trước Hội đồng chấm Luận văn tốt nghiệp thạc sĩ ngành Khoa họcmáy tính họp tại Trường Đại học Bách khoa Đà Nẵng vào ngày 8 tháng 1 năm 2017.Có thể tìm hiểu luận văn tại:-Trung tâm học liệu, Đại học Đà Nẵng tại trường Đại học Bách Khoa-Thư viện khoa Công nghệ thông tin, trường Đại học Bách Khoa - ĐHĐN1MỞ ĐẦU1. Lý do chọn đề tàiNgày nay, bên cạnh sự hội nhập với Quốc tế của đất nước chúng ta, thì Côngnghệ thông tin cũng đang không ngừng phát triển. Với sự ra đời của máy tính điện tửcũng như sự kết nối toàn cầu thông qua Internet đã tạo ra một lượng thông tin khổng lồvới nhiều ngôn ngữ khác nhau, đặc biệt là tiếng Anh. Tuy nhiên, sự rào cản về mặt ngônngữ thì khối lượng lớn thông tin này cũng chưa được xử lý triệt để, chưa được cấu trúclại, hệ thống lại để tạo thành một nguồn tài nguyên dữ liệu về ngôn ngữ tự nhiên nhằmphục vụ cho việc đào tạo, dạy và học, nghiên cứu và xỷ lý ngôn ngữ.Xử lý ngôn ngữ tự nhiên là một kĩ thuật quan trọng nhằm giúp máy tính hiểuđược ngôn ngữ của con người, qua đó hướng dẫn máy tính thực hiện và giúp đỡ conngười trong những công việc có liên quan đến ngôn ngữ như: dịch thuật, phân tích dữliệu văn bản, phân loại văn bản, tóm tắc văn bản, tìm kiếm thông tin,… Xử lý ngôn ngữtự nhiên đóng một vai trò quan trọng trong việc đẩy mạnh sự phát triển của Công NghệThông Tin Việt Nam.Tuy nhiên, xử lý ngôn ngữ tự nhiên cũng vấp phải vô vàn khó khăn, mà khó khănlớn nhất phải nói đến là nguồn tài nguyên dữ liệu về ngôn ngữ, đặc biệt là nguồn tàinguyên song ngữ. Các nguồn tài nguyên này thường không đủ lớn hoặc mang tính cụcbộ, chỉ sử dụng trong một lĩnh vực hay một nơi nào đó. Chưa kể đến nguồn tài nguyêntồn tại dưới dạng các website song ngữ, các website này chỉ phục vụ cho mục đích đọccủa người dùng, chưa được sử dụng và khai thác để xử lý ngôn ngữ tự nhiên. Ngoài racòn có nhiều nguyên nhân khác như: Hệ thống dịch kém chất lượng, kích thước từ điểncòn hạn chế. Hiện nay tồn tại nhiều từ điển Tiếng Việt nhưng vẫn chưa đặt được hiệuquả trong việc xử lý ngôn ngữ, cùng một từ mà mỗi từ điển lại có một cách hiểu khácnhau. Hệ thống dịch có những câu dịch được, có những câu dịch không đúng cho dù cóhay không có dữ liệu.Chính vì chất lượng của các hệ thống trên nên mục tiêu của đề tài này là xây dựngnguồn tài nguyên dữ liệu lớn, phục vụ cho việc phát triển các hệ thống xử lý ngôn ngữtự nhiên đạt được chất lượng và hiệu quả hơn. Đề tài tập trung vào đề xuất các giải phápxây dựng nguồn tài nguyên dữ liệu lớn từ các nguồn tài nguyên đang tồn tại như các khongữ liệu hay từ những dữ liệu thô chưa khai thác như các website song ngữ.Để góp phần giải quyết vấn đề trên, tôi xin chọn đề tài: “Nghiên cứu các giảipháp tạo nguồn tài nguyên dữ liệu lớn phục vụ xử lý ngôn ngữ tự nhiên”.22. Mục đích và ý nghĩa đề tàia. Mục đíchĐề xuất được một số giải pháp để xây dựng hệ thống tạo tài nguồn nguyên dữliệu lớn, nhằm phục vụ, chia sẽ, sử dụng trong việc nghiên cứu ngôn ngữ tự nhiên, tìmkiếm thông tin đa ngôn ngữ, trong dịch thuật cũng như trong học tập.b. Ý nghĩa khoa học-Nắm vững và vận dụng tốt các kỹ thuật lấy dữ liệu từ văn bản, website…Nắm vững các thành phần và cú pháp của câu tiếng Việt, tiếng Anh.Nắm vững các giải pháp tạo nguồn tài nguyên dữ liệu.Kết quả có thể phục vụ cho việc xử lý ngôn ngữ tự nhiên.c. Ý nghĩa thực tiễnĐề xuất được một số giải pháp có thể áp dụng trong thực tiễn để tạo nguồn dữ tàinguyên dữ liệu lớn phục vụ cho việc xử lý ngôn ngữ tự nhiên.3. Mục tiêu và nhiệm vụa. Mục tiêuMục tiêu chính mà đề tài hướng đến là nghiên cứu và xây dựng hệ thống tạonguồn tài nguyên dữ liệu chứa các cặp từ, các cặp câu Anh – Việt từ các nguồn tài liệuthô chưa được khai thác như: trang web song ngữ, sách, báo,… dưới nhiều định dạngkhác nhau như: XML, TXT, DOC,…b. Nhiệm vụĐể đặt được mục tiêu trên thì nhiệm vụ đặt ra của đề tài là:-Nghiên cứu thành phần, cú pháp, trật tự từ trong câu tiếng Việt và tiếng Anh.Nghiên cứu ánh xạ gióng hàng văn bản song ngữ Anh-Việt.Nghiên cứu kỹ thuật lấy dữ liệu từ các văn bản dưới nhiều định dạng khác nhau.Phát biếu, phân tích và cài đặt hệ thống đã được đặt ra.4. Đối tượng và phạm vi nghiên cứuTrong khuôn khổ của luận văn thuộc loại nghiên cứu và ứng dụng, tôi chỉ giớihạn nghiên cứu các vấn đề sau:-Thành phần, cú pháp câu tiếng Việt và tiếng Anh.Tạo nguồn tài nguyên dữ liệu lớn bằng giải pháp xây dựng nguồn tài nguyên dữliệu từ các tài liệu thô song song.Ánh xạ gióng hàng văn bản song ngữ Anh-Việt.Hợp nhất các kho ngữ liệu song ngữ Anh-Việt.35. Phương pháp nghiên cứu-Tiến hành thu thập và nghiên cứu các tài liệu có liên quan đến đề tài.Nghiên cứu lý thuyết về ngôn ngữ tự nhiên nói chung và song ngữ Anh – Việtnói riêng.Nghiên cứu về các giải pháp tạo nguồn tài nguyên dữ liệu.Nhận xét và đánh giá kết quả đạt được.6. Phương tiện, công cụ triễn khai-Môi trường Microsoft Visual C#Môi trường Microsoft SQL ServerCông cụ Stanford POS tagger ...
Nội dung trích xuất từ tài liệu:
Tóm tắt luận văn Thạc sĩ Khoa học máy tính: Nghiên cứu các giải pháp tạo nguồn tài nguyên dữ liệu lớn phục vụ xử lý ngôn ngữ tự nhiênĐẠI HỌC ĐÀ NẴNGTRƯỜNG ĐẠI HỌC BÁCH KHOA-----------------------------------NGUYỄN TOÀN ANHNGHIÊN CỨU CÁC GIẢI PHÁPTẠO NGUỒN TÀI NGUYÊN DỮ LIỆU LỚNPHỤC VỤ XỬ LÝ NGÔN NGỮ TỰ NHIÊNChuyên ngành: KHOA HỌC MÁY TÍNHMã số: 60.48.01.01Khoá: K30TÓM TẮT LUẬN VĂN THẠC SĨĐà Nẵng, tháng 12 năm 2016Công trình được hoàn thành tạiTRƯỜNG ĐẠI HỌC BÁCH KHOANgười hướng dẫn khoa học: PGS.TS Huỳnh Công PhápPhản biện 1:TS. Nguyễn Văn HiệuĐại học Bách khoa - Đại học Đà NẵngPhản biện 2:PGS.TS. Lê Văn SơnĐại học Sư phạm - Đại học Đà NẵngLuận văn được bảo vệ trước Hội đồng chấm Luận văn tốt nghiệp thạc sĩ ngành Khoa họcmáy tính họp tại Trường Đại học Bách khoa Đà Nẵng vào ngày 8 tháng 1 năm 2017.Có thể tìm hiểu luận văn tại:-Trung tâm học liệu, Đại học Đà Nẵng tại trường Đại học Bách Khoa-Thư viện khoa Công nghệ thông tin, trường Đại học Bách Khoa - ĐHĐN1MỞ ĐẦU1. Lý do chọn đề tàiNgày nay, bên cạnh sự hội nhập với Quốc tế của đất nước chúng ta, thì Côngnghệ thông tin cũng đang không ngừng phát triển. Với sự ra đời của máy tính điện tửcũng như sự kết nối toàn cầu thông qua Internet đã tạo ra một lượng thông tin khổng lồvới nhiều ngôn ngữ khác nhau, đặc biệt là tiếng Anh. Tuy nhiên, sự rào cản về mặt ngônngữ thì khối lượng lớn thông tin này cũng chưa được xử lý triệt để, chưa được cấu trúclại, hệ thống lại để tạo thành một nguồn tài nguyên dữ liệu về ngôn ngữ tự nhiên nhằmphục vụ cho việc đào tạo, dạy và học, nghiên cứu và xỷ lý ngôn ngữ.Xử lý ngôn ngữ tự nhiên là một kĩ thuật quan trọng nhằm giúp máy tính hiểuđược ngôn ngữ của con người, qua đó hướng dẫn máy tính thực hiện và giúp đỡ conngười trong những công việc có liên quan đến ngôn ngữ như: dịch thuật, phân tích dữliệu văn bản, phân loại văn bản, tóm tắc văn bản, tìm kiếm thông tin,… Xử lý ngôn ngữtự nhiên đóng một vai trò quan trọng trong việc đẩy mạnh sự phát triển của Công NghệThông Tin Việt Nam.Tuy nhiên, xử lý ngôn ngữ tự nhiên cũng vấp phải vô vàn khó khăn, mà khó khănlớn nhất phải nói đến là nguồn tài nguyên dữ liệu về ngôn ngữ, đặc biệt là nguồn tàinguyên song ngữ. Các nguồn tài nguyên này thường không đủ lớn hoặc mang tính cụcbộ, chỉ sử dụng trong một lĩnh vực hay một nơi nào đó. Chưa kể đến nguồn tài nguyêntồn tại dưới dạng các website song ngữ, các website này chỉ phục vụ cho mục đích đọccủa người dùng, chưa được sử dụng và khai thác để xử lý ngôn ngữ tự nhiên. Ngoài racòn có nhiều nguyên nhân khác như: Hệ thống dịch kém chất lượng, kích thước từ điểncòn hạn chế. Hiện nay tồn tại nhiều từ điển Tiếng Việt nhưng vẫn chưa đặt được hiệuquả trong việc xử lý ngôn ngữ, cùng một từ mà mỗi từ điển lại có một cách hiểu khácnhau. Hệ thống dịch có những câu dịch được, có những câu dịch không đúng cho dù cóhay không có dữ liệu.Chính vì chất lượng của các hệ thống trên nên mục tiêu của đề tài này là xây dựngnguồn tài nguyên dữ liệu lớn, phục vụ cho việc phát triển các hệ thống xử lý ngôn ngữtự nhiên đạt được chất lượng và hiệu quả hơn. Đề tài tập trung vào đề xuất các giải phápxây dựng nguồn tài nguyên dữ liệu lớn từ các nguồn tài nguyên đang tồn tại như các khongữ liệu hay từ những dữ liệu thô chưa khai thác như các website song ngữ.Để góp phần giải quyết vấn đề trên, tôi xin chọn đề tài: “Nghiên cứu các giảipháp tạo nguồn tài nguyên dữ liệu lớn phục vụ xử lý ngôn ngữ tự nhiên”.22. Mục đích và ý nghĩa đề tàia. Mục đíchĐề xuất được một số giải pháp để xây dựng hệ thống tạo tài nguồn nguyên dữliệu lớn, nhằm phục vụ, chia sẽ, sử dụng trong việc nghiên cứu ngôn ngữ tự nhiên, tìmkiếm thông tin đa ngôn ngữ, trong dịch thuật cũng như trong học tập.b. Ý nghĩa khoa học-Nắm vững và vận dụng tốt các kỹ thuật lấy dữ liệu từ văn bản, website…Nắm vững các thành phần và cú pháp của câu tiếng Việt, tiếng Anh.Nắm vững các giải pháp tạo nguồn tài nguyên dữ liệu.Kết quả có thể phục vụ cho việc xử lý ngôn ngữ tự nhiên.c. Ý nghĩa thực tiễnĐề xuất được một số giải pháp có thể áp dụng trong thực tiễn để tạo nguồn dữ tàinguyên dữ liệu lớn phục vụ cho việc xử lý ngôn ngữ tự nhiên.3. Mục tiêu và nhiệm vụa. Mục tiêuMục tiêu chính mà đề tài hướng đến là nghiên cứu và xây dựng hệ thống tạonguồn tài nguyên dữ liệu chứa các cặp từ, các cặp câu Anh – Việt từ các nguồn tài liệuthô chưa được khai thác như: trang web song ngữ, sách, báo,… dưới nhiều định dạngkhác nhau như: XML, TXT, DOC,…b. Nhiệm vụĐể đặt được mục tiêu trên thì nhiệm vụ đặt ra của đề tài là:-Nghiên cứu thành phần, cú pháp, trật tự từ trong câu tiếng Việt và tiếng Anh.Nghiên cứu ánh xạ gióng hàng văn bản song ngữ Anh-Việt.Nghiên cứu kỹ thuật lấy dữ liệu từ các văn bản dưới nhiều định dạng khác nhau.Phát biếu, phân tích và cài đặt hệ thống đã được đặt ra.4. Đối tượng và phạm vi nghiên cứuTrong khuôn khổ của luận văn thuộc loại nghiên cứu và ứng dụng, tôi chỉ giớihạn nghiên cứu các vấn đề sau:-Thành phần, cú pháp câu tiếng Việt và tiếng Anh.Tạo nguồn tài nguyên dữ liệu lớn bằng giải pháp xây dựng nguồn tài nguyên dữliệu từ các tài liệu thô song song.Ánh xạ gióng hàng văn bản song ngữ Anh-Việt.Hợp nhất các kho ngữ liệu song ngữ Anh-Việt.35. Phương pháp nghiên cứu-Tiến hành thu thập và nghiên cứu các tài liệu có liên quan đến đề tài.Nghiên cứu lý thuyết về ngôn ngữ tự nhiên nói chung và song ngữ Anh – Việtnói riêng.Nghiên cứu về các giải pháp tạo nguồn tài nguyên dữ liệu.Nhận xét và đánh giá kết quả đạt được.6. Phương tiện, công cụ triễn khai-Môi trường Microsoft Visual C#Môi trường Microsoft SQL ServerCông cụ Stanford POS tagger ...
Tìm kiếm theo từ khóa liên quan:
Tóm tắt luận văn Thạc sĩ Tóm tắt luận văn Thạc sĩ Khoa học máy tính Khoa học máy tính Hệ thống tạo tài nguồn nguyên dữ liệu lớn Xử lý ngôn ngữ tự nhiên Ngôn ngữ tự nhiênTài liệu có liên quan:
-
30 trang 595 0 0
-
Tóm tắt Đồ án tốt nghiệp Khoa học máy tính: Xây dựng ứng dụng quản lý quán cà phê
15 trang 508 1 0 -
Đề thi kết thúc học phần học kì 2 môn Cơ sở dữ liệu năm 2019-2020 có đáp án - Trường ĐH Đồng Tháp
5 trang 388 6 0 -
12 trang 337 0 0
-
26 trang 303 0 0
-
Phương pháp tạo ra văn bản tiếng Việt có đề tài xác định
7 trang 284 0 0 -
26 trang 279 0 0
-
32 trang 257 0 0
-
Giáo trình Lập trình logic trong prolog: Phần 1
114 trang 224 0 0 -
Đồ án nghiên cứu khoa học: Ứng dụng công nghệ cảm biến IoT vào mô hình thủy canh
30 trang 210 0 0 -
6 trang 209 0 0
-
Giải thuật và cấu trúc dữ liệu
305 trang 186 0 0 -
25 trang 182 0 0
-
Xây dựng ontology trợ giúp ra quyết định về đào tạo cho các trường Đại học ở Việt Nam
10 trang 180 0 0 -
8 trang 169 0 0
-
Tích hợp DSM và ảnh chụp UAV với mô hình nơ-ron tích chập trong phân loại lớp phủ mặt đất
8 trang 167 0 0 -
100 trang 165 0 0
-
27 trang 164 0 0
-
74 trang 161 0 0
-
76 trang 159 2 0