Giải pháp xây dựng kho ngữ liệu đa ngữ Việt - ÊĐê gán nhãn theo ngữ cảnh
Số trang: 4
Loại file: pdf
Dung lượng: 2.07 MB
Lượt xem: 38
Lượt tải: 0
Xem trước 2 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Bài viết Giải pháp xây dựng kho ngữ liệu đa ngữ Việt - ÊĐê gán nhãn theo ngữ cảnh đề xuất giải pháp xây dựng kho ngữ liệu đa ngữ Việt-ÊĐê với phông chữ Unicode có xử lý nhập nhằng và từ đa ngữ nghĩa, bằng cách gán nhãn theo từng ngữ cảnh thuộc lĩnh vực giáo dục như giáo dục về chăn nuôi, trồng trọt, bảo vệ rừng, chăm sóc sức khoẻ,... cho các đồng bào các dân tộc thiểu số Việt Nam.
Nội dung trích xuất từ tài liệu:
Giải pháp xây dựng kho ngữ liệu đa ngữ Việt - ÊĐê gán nhãn theo ngữ cảnhTẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 1(74).2014.QUYỂN II GIẢI PHÁP XÂY DỰNG KHO NGỮ LIỆU ĐA NGỮ VIỆT - Ê ĐÊ GÁN NHÃN THEO NGỮ CẢNH SOLUTIONS TO BUILDING THE VIET - EDE MUTILINGUAL CORPUS WITH THE CONTEXTUAL LABEL Hoàng Thị Mỹ Lệ1 , Phan Huy Khánh2 1 Trường Cao đẳng Công nghệ, Đại học Đà Nẵng; Email: kquynhdn@yahoo.com 2 Trường Đại học Bách khoa, Đại học Đà Nẵng; Email: khanhph29@gmail.comTóm tắt – Trong lĩnh vực xử lý ngôn ngữ tự nhiên (XLNNTN), kho Abstract – In the natural language processing (NLP), thengữ liệu đa ngữ là một tài nguyên rất cần thiết. Chất lượng của kho multilingual corpus is a necessary resource. The quality ofngữ liệu đa ngữ đóng vai trò quyết định đến chất lượng đầu ra của multilingual corpus plays a decisive role in the output quality of thehệ dịch. Hệ dịch sẽ không cho kết quả tốt nếu kho ngữ liệu đa ngữ translational system. The translational system will not produce asử dụng trong quá trình huấn luyện có chất lượng không tốt cho good output, if the the quality of multilingual corpus in the trainingdù được áp dụng các phương pháp học máy tiên tiến nhất. Hiện process is not good, though the most advanced machine learningnay chưa có một kho ngữ liệu song ngữ Việt-ÊĐê với phông chữ methods are applied. Currently, there is no Vietnamese-EDeUnicode nào đã được công bố chính thức và cho phép cộng đồng multilingual corpus using Unicode fonts, which has been officiallynghiên cứu có thể chia sẽ sử dụng để nghiên cứu. Từ đó, bài báo announced and allows the research community to share and useđề xuất giải pháp xây dựng kho ngữ liệu đa ngữ Việt-ÊĐê với phông for research purposes. For this reason, the propose of this paperchữ Unicode có xử lý nhập nhằng và từ đa ngữ nghĩa, bằng cách is to develop a solution to building a Vietnamese-EDe multilingualgán nhãn theo từng ngữ cảnh thuộc lĩnh vực giáo dục như giáo dục corpus using the Unicode font which can process the ambiguity andvề chăn nuôi, trồng trọt, bảo vệ rừng, chăm sóc sức khoẻ,... cho các multi - meaning words by labeling each word with the context in theđồng bào các dân tộc thiểu số Việt Nam. educational field such as education in animal husbandry, cultivation, forest preservation, health care, etc. ... for the ethnic minorities (EM) in Vietnam.Từ khóa – Kho ngữ liệu đa ngữ; dân tộc thiểu số; ÊĐê; unicode; Key words – multilingual corpus; the ethnic minorities; Ede;tách từ. unicode; word segmentation.1. Đặt vấn đề học máy tiên tiến nhất. Bên cạnh đó việc khử nhập nhằng là bài toán không thể không kể đến trong dịch máy. Cho Trong số 55 dân tộc Việt Nam có 26 dân tộc đã có đến nay vẫn chưa có một kho ngữ liệu đa ngữ Việt-ÊĐê vớichữ viết. Một điều dễ nhận thấy, cùng với tiếng phổ thông phông chữ Unicode nào đã được công bố chính thức và cho(tiếng Việt), tiếng dân tộc thiểu số (DTTS) cũng đang chứng phép cộng đồng nghiên cứu có thể chia sẻ sử dụng cho cáctỏ vai trò của mình trong các lĩnh vực hoạt động tại các vùng mục tiêu nghiên cứu.đồng bào DTTS, nhất là trong việc gìn giữ và phát triển vănhoá dân tộc, xây dựng cuộc sống mới. Đảng và Nhà nước Xuất phát từ các vấn đề đã nêu, bài báo đề xuất giải phápđã đưa ra rất nhiều chủ chương chính sách nhằm bảo tồn và phát triển công cụ xây dựng kho ngữ liệu đa ngữ Việt-ÊĐêphát huy văn hóa dân tộc thiểu số. với phông chữ Unicode có xử lý nhập nhằng và từ đa ngữ nghĩa, bằng giải pháp gán nhãn theo ngữ cảnh thuộc lĩnh vực Hiện nay, Đài Tiếng nói Việt Nam và hầu hết các Đài giáo dục như giáo dục về chăn nuôi, trồng trọt, bảo vệ rừng,Phát thanh và Truyền hình (PT&TH) địa phương trong nước chăm sóc sức khoẻ, . . . cho các đồng bào DTTS Việt Nam.đều có các chương trình PT&TH bằng tiếng dân tộc, nhưĐài PT&TH tiếng ÊĐê tại các tỉnh Đăk Lăk. Những nội 2. Kho ngữ liệudung PT&TH hiện nay nhằm giúp đồng bào dân tộc có thêm 2.1. Giới thiệu kho ngữ liệuvốn hiểu ...
Nội dung trích xuất từ tài liệu:
Giải pháp xây dựng kho ngữ liệu đa ngữ Việt - ÊĐê gán nhãn theo ngữ cảnhTẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 1(74).2014.QUYỂN II GIẢI PHÁP XÂY DỰNG KHO NGỮ LIỆU ĐA NGỮ VIỆT - Ê ĐÊ GÁN NHÃN THEO NGỮ CẢNH SOLUTIONS TO BUILDING THE VIET - EDE MUTILINGUAL CORPUS WITH THE CONTEXTUAL LABEL Hoàng Thị Mỹ Lệ1 , Phan Huy Khánh2 1 Trường Cao đẳng Công nghệ, Đại học Đà Nẵng; Email: kquynhdn@yahoo.com 2 Trường Đại học Bách khoa, Đại học Đà Nẵng; Email: khanhph29@gmail.comTóm tắt – Trong lĩnh vực xử lý ngôn ngữ tự nhiên (XLNNTN), kho Abstract – In the natural language processing (NLP), thengữ liệu đa ngữ là một tài nguyên rất cần thiết. Chất lượng của kho multilingual corpus is a necessary resource. The quality ofngữ liệu đa ngữ đóng vai trò quyết định đến chất lượng đầu ra của multilingual corpus plays a decisive role in the output quality of thehệ dịch. Hệ dịch sẽ không cho kết quả tốt nếu kho ngữ liệu đa ngữ translational system. The translational system will not produce asử dụng trong quá trình huấn luyện có chất lượng không tốt cho good output, if the the quality of multilingual corpus in the trainingdù được áp dụng các phương pháp học máy tiên tiến nhất. Hiện process is not good, though the most advanced machine learningnay chưa có một kho ngữ liệu song ngữ Việt-ÊĐê với phông chữ methods are applied. Currently, there is no Vietnamese-EDeUnicode nào đã được công bố chính thức và cho phép cộng đồng multilingual corpus using Unicode fonts, which has been officiallynghiên cứu có thể chia sẽ sử dụng để nghiên cứu. Từ đó, bài báo announced and allows the research community to share and useđề xuất giải pháp xây dựng kho ngữ liệu đa ngữ Việt-ÊĐê với phông for research purposes. For this reason, the propose of this paperchữ Unicode có xử lý nhập nhằng và từ đa ngữ nghĩa, bằng cách is to develop a solution to building a Vietnamese-EDe multilingualgán nhãn theo từng ngữ cảnh thuộc lĩnh vực giáo dục như giáo dục corpus using the Unicode font which can process the ambiguity andvề chăn nuôi, trồng trọt, bảo vệ rừng, chăm sóc sức khoẻ,... cho các multi - meaning words by labeling each word with the context in theđồng bào các dân tộc thiểu số Việt Nam. educational field such as education in animal husbandry, cultivation, forest preservation, health care, etc. ... for the ethnic minorities (EM) in Vietnam.Từ khóa – Kho ngữ liệu đa ngữ; dân tộc thiểu số; ÊĐê; unicode; Key words – multilingual corpus; the ethnic minorities; Ede;tách từ. unicode; word segmentation.1. Đặt vấn đề học máy tiên tiến nhất. Bên cạnh đó việc khử nhập nhằng là bài toán không thể không kể đến trong dịch máy. Cho Trong số 55 dân tộc Việt Nam có 26 dân tộc đã có đến nay vẫn chưa có một kho ngữ liệu đa ngữ Việt-ÊĐê vớichữ viết. Một điều dễ nhận thấy, cùng với tiếng phổ thông phông chữ Unicode nào đã được công bố chính thức và cho(tiếng Việt), tiếng dân tộc thiểu số (DTTS) cũng đang chứng phép cộng đồng nghiên cứu có thể chia sẻ sử dụng cho cáctỏ vai trò của mình trong các lĩnh vực hoạt động tại các vùng mục tiêu nghiên cứu.đồng bào DTTS, nhất là trong việc gìn giữ và phát triển vănhoá dân tộc, xây dựng cuộc sống mới. Đảng và Nhà nước Xuất phát từ các vấn đề đã nêu, bài báo đề xuất giải phápđã đưa ra rất nhiều chủ chương chính sách nhằm bảo tồn và phát triển công cụ xây dựng kho ngữ liệu đa ngữ Việt-ÊĐêphát huy văn hóa dân tộc thiểu số. với phông chữ Unicode có xử lý nhập nhằng và từ đa ngữ nghĩa, bằng giải pháp gán nhãn theo ngữ cảnh thuộc lĩnh vực Hiện nay, Đài Tiếng nói Việt Nam và hầu hết các Đài giáo dục như giáo dục về chăn nuôi, trồng trọt, bảo vệ rừng,Phát thanh và Truyền hình (PT&TH) địa phương trong nước chăm sóc sức khoẻ, . . . cho các đồng bào DTTS Việt Nam.đều có các chương trình PT&TH bằng tiếng dân tộc, nhưĐài PT&TH tiếng ÊĐê tại các tỉnh Đăk Lăk. Những nội 2. Kho ngữ liệudung PT&TH hiện nay nhằm giúp đồng bào dân tộc có thêm 2.1. Giới thiệu kho ngữ liệuvốn hiểu ...
Tìm kiếm theo từ khóa liên quan:
Kho ngữ liệu đa ngữ Xử lý ngôn ngữ tự nhiên Kho ngữ liệu đa ngữ Việt - ÊĐê Phông chữ Unicode Ngữ âm tiếng ÊĐêTài liệu có liên quan:
-
12 trang 338 0 0
-
Phương pháp tạo ra văn bản tiếng Việt có đề tài xác định
7 trang 285 0 0 -
Giáo trình Lập trình logic trong prolog: Phần 1
114 trang 224 0 0 -
Xây dựng ontology trợ giúp ra quyết định về đào tạo cho các trường Đại học ở Việt Nam
10 trang 181 0 0 -
Tích hợp DSM và ảnh chụp UAV với mô hình nơ-ron tích chập trong phân loại lớp phủ mặt đất
8 trang 167 0 0 -
74 trang 161 0 0
-
Bài giảng Xử lý ngôn ngữ tự nhiên: Phân tích cú pháp xác suất - Lê Thanh Hương
19 trang 157 0 0 -
Trích xuất danh mục khía cạnh sử dụng BERT với hàm mất mát cân bằng
9 trang 142 0 0 -
Xây dựng các cặp câu hỏi - câu trả lời chất lượng cao từ các trang Web hỏi đáp cộng đồng
9 trang 125 0 0 -
Tóm tắt luận án Tiến sĩ Kỹ thuật: Sử dụng ngôn ngữ trục trong dịch đa ngữ
27 trang 101 0 0