Danh mục tài liệu

Tóm tắt luận văn Thạc sĩ Khoa học máy tính: Nghiên cứu các giải pháp tạo nguồn tài nguyên dữ liệu lớn phục vụ xử lý ngôn ngữ tự nhiên

Số trang: 26      Loại file: pdf      Dung lượng: 7.36 MB      Lượt xem: 9      Lượt tải: 0    
Xem trước 3 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Đề xuất được một số giải pháp để xây dựng hệ thống tạo tài nguồn nguyên dữ liệu lớn, nhằm phục vụ, chia sẻ, sử dụng trong việc nghiên cứu ngôn ngữ tự nhiên, tìm kiếm thông tin đa ngôn ngữ, trong dịch thuật cũng như trong học tập. Mời các bạn cùng tham khảo nội dung chi tiết.
Nội dung trích xuất từ tài liệu:
Tóm tắt luận văn Thạc sĩ Khoa học máy tính: Nghiên cứu các giải pháp tạo nguồn tài nguyên dữ liệu lớn phục vụ xử lý ngôn ngữ tự nhiênĐẠI HỌC ĐÀ NẴNGTRƯỜNG ĐẠI HỌC BÁCH KHOA-----------------------------------NGUYỄN TOÀN ANHNGHIÊN CỨU CÁC GIẢI PHÁPTẠO NGUỒN TÀI NGUYÊN DỮ LIỆU LỚNPHỤC VỤ XỬ LÝ NGÔN NGỮ TỰ NHIÊNChuyên ngành: KHOA HỌC MÁY TÍNHMã số: 60.48.01.01Khoá: K30TÓM TẮT LUẬN VĂN THẠC SĨĐà Nẵng, tháng 12 năm 2016Công trình được hoàn thành tạiTRƯỜNG ĐẠI HỌC BÁCH KHOANgười hướng dẫn khoa học: PGS.TS Huỳnh Công PhápPhản biện 1:TS. Nguyễn Văn HiệuĐại học Bách khoa - Đại học Đà NẵngPhản biện 2:PGS.TS. Lê Văn SơnĐại học Sư phạm - Đại học Đà NẵngLuận văn được bảo vệ trước Hội đồng chấm Luận văn tốt nghiệp thạc sĩ ngành Khoa họcmáy tính họp tại Trường Đại học Bách khoa Đà Nẵng vào ngày 8 tháng 1 năm 2017.Có thể tìm hiểu luận văn tại:-Trung tâm học liệu, Đại học Đà Nẵng tại trường Đại học Bách Khoa-Thư viện khoa Công nghệ thông tin, trường Đại học Bách Khoa - ĐHĐN1MỞ ĐẦU1. Lý do chọn đề tàiNgày nay, bên cạnh sự hội nhập với Quốc tế của đất nước chúng ta, thì Côngnghệ thông tin cũng đang không ngừng phát triển. Với sự ra đời của máy tính điện tửcũng như sự kết nối toàn cầu thông qua Internet đã tạo ra một lượng thông tin khổng lồvới nhiều ngôn ngữ khác nhau, đặc biệt là tiếng Anh. Tuy nhiên, sự rào cản về mặt ngônngữ thì khối lượng lớn thông tin này cũng chưa được xử lý triệt để, chưa được cấu trúclại, hệ thống lại để tạo thành một nguồn tài nguyên dữ liệu về ngôn ngữ tự nhiên nhằmphục vụ cho việc đào tạo, dạy và học, nghiên cứu và xỷ lý ngôn ngữ.Xử lý ngôn ngữ tự nhiên là một kĩ thuật quan trọng nhằm giúp máy tính hiểuđược ngôn ngữ của con người, qua đó hướng dẫn máy tính thực hiện và giúp đỡ conngười trong những công việc có liên quan đến ngôn ngữ như: dịch thuật, phân tích dữliệu văn bản, phân loại văn bản, tóm tắc văn bản, tìm kiếm thông tin,… Xử lý ngôn ngữtự nhiên đóng một vai trò quan trọng trong việc đẩy mạnh sự phát triển của Công NghệThông Tin Việt Nam.Tuy nhiên, xử lý ngôn ngữ tự nhiên cũng vấp phải vô vàn khó khăn, mà khó khănlớn nhất phải nói đến là nguồn tài nguyên dữ liệu về ngôn ngữ, đặc biệt là nguồn tàinguyên song ngữ. Các nguồn tài nguyên này thường không đủ lớn hoặc mang tính cụcbộ, chỉ sử dụng trong một lĩnh vực hay một nơi nào đó. Chưa kể đến nguồn tài nguyêntồn tại dưới dạng các website song ngữ, các website này chỉ phục vụ cho mục đích đọccủa người dùng, chưa được sử dụng và khai thác để xử lý ngôn ngữ tự nhiên. Ngoài racòn có nhiều nguyên nhân khác như: Hệ thống dịch kém chất lượng, kích thước từ điểncòn hạn chế. Hiện nay tồn tại nhiều từ điển Tiếng Việt nhưng vẫn chưa đặt được hiệuquả trong việc xử lý ngôn ngữ, cùng một từ mà mỗi từ điển lại có một cách hiểu khácnhau. Hệ thống dịch có những câu dịch được, có những câu dịch không đúng cho dù cóhay không có dữ liệu.Chính vì chất lượng của các hệ thống trên nên mục tiêu của đề tài này là xây dựngnguồn tài nguyên dữ liệu lớn, phục vụ cho việc phát triển các hệ thống xử lý ngôn ngữtự nhiên đạt được chất lượng và hiệu quả hơn. Đề tài tập trung vào đề xuất các giải phápxây dựng nguồn tài nguyên dữ liệu lớn từ các nguồn tài nguyên đang tồn tại như các khongữ liệu hay từ những dữ liệu thô chưa khai thác như các website song ngữ.Để góp phần giải quyết vấn đề trên, tôi xin chọn đề tài: “Nghiên cứu các giảipháp tạo nguồn tài nguyên dữ liệu lớn phục vụ xử lý ngôn ngữ tự nhiên”.22. Mục đích và ý nghĩa đề tàia. Mục đíchĐề xuất được một số giải pháp để xây dựng hệ thống tạo tài nguồn nguyên dữliệu lớn, nhằm phục vụ, chia sẽ, sử dụng trong việc nghiên cứu ngôn ngữ tự nhiên, tìmkiếm thông tin đa ngôn ngữ, trong dịch thuật cũng như trong học tập.b. Ý nghĩa khoa học-Nắm vững và vận dụng tốt các kỹ thuật lấy dữ liệu từ văn bản, website…Nắm vững các thành phần và cú pháp của câu tiếng Việt, tiếng Anh.Nắm vững các giải pháp tạo nguồn tài nguyên dữ liệu.Kết quả có thể phục vụ cho việc xử lý ngôn ngữ tự nhiên.c. Ý nghĩa thực tiễnĐề xuất được một số giải pháp có thể áp dụng trong thực tiễn để tạo nguồn dữ tàinguyên dữ liệu lớn phục vụ cho việc xử lý ngôn ngữ tự nhiên.3. Mục tiêu và nhiệm vụa. Mục tiêuMục tiêu chính mà đề tài hướng đến là nghiên cứu và xây dựng hệ thống tạonguồn tài nguyên dữ liệu chứa các cặp từ, các cặp câu Anh – Việt từ các nguồn tài liệuthô chưa được khai thác như: trang web song ngữ, sách, báo,… dưới nhiều định dạngkhác nhau như: XML, TXT, DOC,…b. Nhiệm vụĐể đặt được mục tiêu trên thì nhiệm vụ đặt ra của đề tài là:-Nghiên cứu thành phần, cú pháp, trật tự từ trong câu tiếng Việt và tiếng Anh.Nghiên cứu ánh xạ gióng hàng văn bản song ngữ Anh-Việt.Nghiên cứu kỹ thuật lấy dữ liệu từ các văn bản dưới nhiều định dạng khác nhau.Phát biếu, phân tích và cài đặt hệ thống đã được đặt ra.4. Đối tượng và phạm vi nghiên cứuTrong khuôn khổ của luận văn thuộc loại nghiên cứu và ứng dụng, tôi chỉ giớihạn nghiên cứu các vấn đề sau:-Thành phần, cú pháp câu tiếng Việt và tiếng Anh.Tạo nguồn tài nguyên dữ liệu lớn bằng giải pháp xây dựng nguồn tài nguyên dữliệu từ các tài liệu thô song song.Ánh xạ gióng hàng văn bản song ngữ Anh-Việt.Hợp nhất các kho ngữ liệu song ngữ Anh-Việt.35. Phương pháp nghiên cứu-Tiến hành thu thập và nghiên cứu các tài liệu có liên quan đến đề tài.Nghiên cứu lý thuyết về ngôn ngữ tự nhiên nói chung và song ngữ Anh – Việtnói riêng.Nghiên cứu về các giải pháp tạo nguồn tài nguyên dữ liệu.Nhận xét và đánh giá kết quả đạt được.6. Phương tiện, công cụ triễn khai-Môi trường Microsoft Visual C#Môi trường Microsoft SQL ServerCông cụ Stanford POS tagger ...

Tài liệu được xem nhiều:

Tài liệu có liên quan: