
Xây dựng ontology thuộc lĩnh vực khoa học máy tính dựa vào cơ sở tri thức wikipedia và dbpedia
Số trang: 7
Loại file: pdf
Dung lượng: 892.90 KB
Lượt xem: 47
Lượt tải: 0
Xem trước 1 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Trong bài báo này, chúng tôi tập trung vào quy trình xây dựng ontology chứa thông tin thuộc một lĩnh vực cụ thể (là khoa học máy tính - KHMT) theo ngôn ngữ tiếng Anh dựa vào thư viện bách khoa toàn thư Wikipedia1 và cơ sở tri thức DBpedia2 . Bài toán xây dựng ontology là một trong những bước quan trọng để tạo nguồn cơ sở tri thức cho các nghiên cứu trong rút trích thông tin, chú thích ngữ nghĩa và đặc biệt là xử lý ngôn ngữ tự nhiên. Hiện nay có nhiều phương pháp xây dựng ontology.
Nội dung trích xuất từ tài liệu:
Xây dựng ontology thuộc lĩnh vực khoa học máy tính dựa vào cơ sở tri thức wikipedia và dbpedia Kỷ yếu kỷ niệm 35 năm thành lập Trường ĐH<br /> <br /> ng nghiệp Th c ph m T<br /> <br /> h<br /> <br /> inh<br /> <br /> -2017)<br /> <br /> XÂY DỰNG ONTOLOGY THUỘC LĨNH VỰC KHOA HỌC MÁY TÍNH<br /> DỰA VÀO CƠ SỞ TRI THỨC WIKIPEDIA VÀ DBPEDIA<br /> Ngu n Th B ch Ngân<br /> Trường Đại học<br /> <br /> ng nghiệp Th c ph m Thành phố<br /> <br /> h<br /> <br /> inh<br /> <br /> Email: nganntb@cntp.edu.vn<br /> Ngày nhận bài: 20/08/2017; Ngày chấp nhận đăng: 30/08/2017<br /> TÓM TẮT<br /> Trong bài báo này, chúng tôi tập trung vào quy trình xây dựng ontology chứa thông tin thuộc một<br /> lĩnh vực cụ thể (là khoa học máy tính - KHMT) theo ngôn ngữ tiếng Anh dựa vào thư viện bách khoa<br /> toàn thư Wikipedia1 và cơ sở tri thức DBpedia2. Bài toán xây dựng ontology là một trong những bước<br /> quan trọng để tạo nguồn cơ sở tri thức cho các nghiên cứu trong rút trích thông tin, chú thích ngữ nghĩa<br /> và đặc biệt là xử lý ngôn ngữ tự nhiên. Hiện nay có nhiều phương pháp xây dựng ontology. Tuy nhiên<br /> phần lớn gặp khó khăn trong việc xử lý dữ liệu quá lớn từ Wikipedia dẫn đến thời gian thực thi kết quả rất<br /> lâu, ngược lại nếu dữ liệu không trích xuất từ Wikipedia thì mức độ bao phủ thông tin không đảm bảo.<br /> Trong phương pháp của chúng tôi, chúng tôi đề xuất cách thức lọc dữ liệu theo các đặc trưng thông tin<br /> ban đầu của lĩnh vực KHMT để giảm bớt thời gian xử lý các thông tin không liên quan, nhưng vẫn đảm<br /> bảo độ đầy đủ thông tin vì các đặc trưng ban đầu cũng được chọn từ danh sách phân loại của Wikipedia.<br /> Sau đó tiến hành xây dựng cây ontology chứa nội dung tối ưu nhất có thể, đồng thời chúng ta có thể tiếp<br /> tục làm giàu thông tin cho ontology khi có thêm dữ liệu mới cập nhật. Ngoài ra phương pháp chúng tôi đề<br /> xuất có thể vận dụng để xây dựng ontology cho bất kỳ lĩnh vực nào mà có dữ liệu trong Wikipedia.<br /> Từ khóa: ontology, bách khoa toàn thư Wikipedia, cơ sở tri thức DBpedia, Khoa học máy tính, tạo<br /> ontology.<br /> 1. GIỚI THIỆU<br /> Những năm gần đây, các hướng nghiên cứu về xử lý ngôn ngữ tự nhiên hay web ngữ nghĩa đã và<br /> đang là một trong những mảng nghiên cứu có sự phát triển mạnh mẽ. Trong đó, bài toán xây dựng quy<br /> trình tạo cơ sở tri thức ontology có đầy đủ thông tin để tra cứu, truy xuất thông tin thực thể và quan hệ các<br /> thực thể là một bài toán quan trọng. Hiện nay đã có những nghiên cứu đề xuất một số cách thức xây dựng<br /> ontology tùy theo những mục tiêu, yêu cầu khác nhau.<br /> Trong nghiên cứu của Nora I. Al- Rajebah [1], hay Zareen S. Syed và các công sự [2], các nhóm tác<br /> giả tạo ontology có dữ liệu truy xuất từ Wikipedia, quá trình này thực hiện tốn nhiều công sức vì phải xử<br /> lý dữ liệu cực lớn từ Wikipedia. Một nghiên cứu khác của nhóm tác giả Daniil Mirylenka và các cộng sự<br /> [3], họ đề xuất phương pháp xây dựng ontology thuộc một lĩnh vực (domain) bằng cách đưa ra danh sách<br /> các khái niệm quan tâm ban đầu trong lĩnh vực đó, truy xuất các thuộc tính và quan hệ giữa các khái niệm<br /> quan tâm trong Wikipedia để thu được bộ dữ liệu cần thiết tiến hành xây dựng ontology. Phương pháp<br /> này đã giảm tải được dữ liệu thừa khi truy xuất dữ liệu trong Wikipedia. Tuy nhiên vì truy xuất trực tiếp<br /> bộ dữ liệu cực lớn của Wikipedia nên tốn thời gian thực hiện, đồng thời tính đầy đủ của bộ dữ liệu thu<br /> được sẽ phụ thuộc hoàn toàn vào danh sách các khái niệm quan tâm ban đầu. Ngoài ra cũng có cách thực<br /> hiện khá thủ công, người dùng tự tạo ontology bằng cách dùng các phần mềm có sẵn, phổ biến là<br /> 1<br /> 2<br /> <br /> https://www.wikipedia.org/<br /> http://wiki.dbpedia.org/<br /> <br /> 210<br /> <br /> Xây d ng ontology thuộc lĩnh v c khoa học máy t nh d a vào cơ sở tri thức wikipedia và dbpedia<br /> Protégé [4].<br /> Trong bài báo này, chúng tôi đề xuất quá trình xây dựng ontology thuộc lĩnh vực KHMT có dữ liệu<br /> dựa vào Wikipedia thông qua DBpedia. Wikipedia là một nguồn cơ sở tri thức bách khoa toàn thư chứa<br /> hầu hết các khái niệm thực thể trong tất cả các lĩnh vực của nhân loại, bao gồm 299 ngôn ngữ3 với hơn<br /> 171.010.892 bài báo4 (dữ liệu được cập nhật vào ngày 05/08/2017). DBpedia là một cơ sở dữ liệu công<br /> cộng, đa ngôn ngữ và là một đồ thị tri thức về ngữ nghĩa. Đây là một hệ thống do nổ lực của cộng đồng<br /> đóng góp tạo nên để lấy thông tin có cấu trúc từ Wikipedia, tạo thành các bộ tập hợp dữ liệu (data set)<br /> hoặc các bộ tập tin chứa dữ liệu dạng bộ ba (tripple). Ngoài ra, DBpedia cho phép người dùng truy vấn<br /> ngược lại thông tin trên Wikipedia, đồng thời liên kết các bộ dữ liệu khác nhau trên dữ liệu Web với<br /> Wikipedia [5].<br /> Hiển nhiên, Wikipedia là nguồn tri thức tin cậy cho các bài toán nghiên cứu khoa học [8], tuy nhiên<br /> việc xử lý dữ liệu cực lớn từ nó cũng phát sinh nhiều thử thách, dựa theo phân tích trong nghiên cứu của<br /> nhóm tác giả Lu Xiao và Nicole Askin [6]. Vì vậy, trong đề xuất của chúng tôi, chúng tôi không lấy dữ<br /> liệu trực tiếp từ Wikipedia mà thông qua DBpedia, dữ liệu từ Wikipedia đã tổ chức lại thành các tập tin<br /> (file) dạng bộ ba (tripble)5 thể hiện thuộc tính, quan hệ giữa các thực thể. Tiếp theo chúng tôi rút trích<br /> danh sách các khái niệm quan tâm đã được phân loại trong Wikipedia, làm điều kiện lọc cho các dữ liệu<br /> từ DBpedia. Sau đó tiến hành xây dựng ontology ...
Nội dung trích xuất từ tài liệu:
Xây dựng ontology thuộc lĩnh vực khoa học máy tính dựa vào cơ sở tri thức wikipedia và dbpedia Kỷ yếu kỷ niệm 35 năm thành lập Trường ĐH<br /> <br /> ng nghiệp Th c ph m T<br /> <br /> h<br /> <br /> inh<br /> <br /> -2017)<br /> <br /> XÂY DỰNG ONTOLOGY THUỘC LĨNH VỰC KHOA HỌC MÁY TÍNH<br /> DỰA VÀO CƠ SỞ TRI THỨC WIKIPEDIA VÀ DBPEDIA<br /> Ngu n Th B ch Ngân<br /> Trường Đại học<br /> <br /> ng nghiệp Th c ph m Thành phố<br /> <br /> h<br /> <br /> inh<br /> <br /> Email: nganntb@cntp.edu.vn<br /> Ngày nhận bài: 20/08/2017; Ngày chấp nhận đăng: 30/08/2017<br /> TÓM TẮT<br /> Trong bài báo này, chúng tôi tập trung vào quy trình xây dựng ontology chứa thông tin thuộc một<br /> lĩnh vực cụ thể (là khoa học máy tính - KHMT) theo ngôn ngữ tiếng Anh dựa vào thư viện bách khoa<br /> toàn thư Wikipedia1 và cơ sở tri thức DBpedia2. Bài toán xây dựng ontology là một trong những bước<br /> quan trọng để tạo nguồn cơ sở tri thức cho các nghiên cứu trong rút trích thông tin, chú thích ngữ nghĩa<br /> và đặc biệt là xử lý ngôn ngữ tự nhiên. Hiện nay có nhiều phương pháp xây dựng ontology. Tuy nhiên<br /> phần lớn gặp khó khăn trong việc xử lý dữ liệu quá lớn từ Wikipedia dẫn đến thời gian thực thi kết quả rất<br /> lâu, ngược lại nếu dữ liệu không trích xuất từ Wikipedia thì mức độ bao phủ thông tin không đảm bảo.<br /> Trong phương pháp của chúng tôi, chúng tôi đề xuất cách thức lọc dữ liệu theo các đặc trưng thông tin<br /> ban đầu của lĩnh vực KHMT để giảm bớt thời gian xử lý các thông tin không liên quan, nhưng vẫn đảm<br /> bảo độ đầy đủ thông tin vì các đặc trưng ban đầu cũng được chọn từ danh sách phân loại của Wikipedia.<br /> Sau đó tiến hành xây dựng cây ontology chứa nội dung tối ưu nhất có thể, đồng thời chúng ta có thể tiếp<br /> tục làm giàu thông tin cho ontology khi có thêm dữ liệu mới cập nhật. Ngoài ra phương pháp chúng tôi đề<br /> xuất có thể vận dụng để xây dựng ontology cho bất kỳ lĩnh vực nào mà có dữ liệu trong Wikipedia.<br /> Từ khóa: ontology, bách khoa toàn thư Wikipedia, cơ sở tri thức DBpedia, Khoa học máy tính, tạo<br /> ontology.<br /> 1. GIỚI THIỆU<br /> Những năm gần đây, các hướng nghiên cứu về xử lý ngôn ngữ tự nhiên hay web ngữ nghĩa đã và<br /> đang là một trong những mảng nghiên cứu có sự phát triển mạnh mẽ. Trong đó, bài toán xây dựng quy<br /> trình tạo cơ sở tri thức ontology có đầy đủ thông tin để tra cứu, truy xuất thông tin thực thể và quan hệ các<br /> thực thể là một bài toán quan trọng. Hiện nay đã có những nghiên cứu đề xuất một số cách thức xây dựng<br /> ontology tùy theo những mục tiêu, yêu cầu khác nhau.<br /> Trong nghiên cứu của Nora I. Al- Rajebah [1], hay Zareen S. Syed và các công sự [2], các nhóm tác<br /> giả tạo ontology có dữ liệu truy xuất từ Wikipedia, quá trình này thực hiện tốn nhiều công sức vì phải xử<br /> lý dữ liệu cực lớn từ Wikipedia. Một nghiên cứu khác của nhóm tác giả Daniil Mirylenka và các cộng sự<br /> [3], họ đề xuất phương pháp xây dựng ontology thuộc một lĩnh vực (domain) bằng cách đưa ra danh sách<br /> các khái niệm quan tâm ban đầu trong lĩnh vực đó, truy xuất các thuộc tính và quan hệ giữa các khái niệm<br /> quan tâm trong Wikipedia để thu được bộ dữ liệu cần thiết tiến hành xây dựng ontology. Phương pháp<br /> này đã giảm tải được dữ liệu thừa khi truy xuất dữ liệu trong Wikipedia. Tuy nhiên vì truy xuất trực tiếp<br /> bộ dữ liệu cực lớn của Wikipedia nên tốn thời gian thực hiện, đồng thời tính đầy đủ của bộ dữ liệu thu<br /> được sẽ phụ thuộc hoàn toàn vào danh sách các khái niệm quan tâm ban đầu. Ngoài ra cũng có cách thực<br /> hiện khá thủ công, người dùng tự tạo ontology bằng cách dùng các phần mềm có sẵn, phổ biến là<br /> 1<br /> 2<br /> <br /> https://www.wikipedia.org/<br /> http://wiki.dbpedia.org/<br /> <br /> 210<br /> <br /> Xây d ng ontology thuộc lĩnh v c khoa học máy t nh d a vào cơ sở tri thức wikipedia và dbpedia<br /> Protégé [4].<br /> Trong bài báo này, chúng tôi đề xuất quá trình xây dựng ontology thuộc lĩnh vực KHMT có dữ liệu<br /> dựa vào Wikipedia thông qua DBpedia. Wikipedia là một nguồn cơ sở tri thức bách khoa toàn thư chứa<br /> hầu hết các khái niệm thực thể trong tất cả các lĩnh vực của nhân loại, bao gồm 299 ngôn ngữ3 với hơn<br /> 171.010.892 bài báo4 (dữ liệu được cập nhật vào ngày 05/08/2017). DBpedia là một cơ sở dữ liệu công<br /> cộng, đa ngôn ngữ và là một đồ thị tri thức về ngữ nghĩa. Đây là một hệ thống do nổ lực của cộng đồng<br /> đóng góp tạo nên để lấy thông tin có cấu trúc từ Wikipedia, tạo thành các bộ tập hợp dữ liệu (data set)<br /> hoặc các bộ tập tin chứa dữ liệu dạng bộ ba (tripple). Ngoài ra, DBpedia cho phép người dùng truy vấn<br /> ngược lại thông tin trên Wikipedia, đồng thời liên kết các bộ dữ liệu khác nhau trên dữ liệu Web với<br /> Wikipedia [5].<br /> Hiển nhiên, Wikipedia là nguồn tri thức tin cậy cho các bài toán nghiên cứu khoa học [8], tuy nhiên<br /> việc xử lý dữ liệu cực lớn từ nó cũng phát sinh nhiều thử thách, dựa theo phân tích trong nghiên cứu của<br /> nhóm tác giả Lu Xiao và Nicole Askin [6]. Vì vậy, trong đề xuất của chúng tôi, chúng tôi không lấy dữ<br /> liệu trực tiếp từ Wikipedia mà thông qua DBpedia, dữ liệu từ Wikipedia đã tổ chức lại thành các tập tin<br /> (file) dạng bộ ba (tripble)5 thể hiện thuộc tính, quan hệ giữa các thực thể. Tiếp theo chúng tôi rút trích<br /> danh sách các khái niệm quan tâm đã được phân loại trong Wikipedia, làm điều kiện lọc cho các dữ liệu<br /> từ DBpedia. Sau đó tiến hành xây dựng ontology ...
Tìm kiếm theo từ khóa liên quan:
Tạp chí Đại học công nghiệp thực phẩm Xây dựng ontology Khoa học máy tính Cơ sở tri thức wikipedia và dbpedia Bách khoa toàn thư Wikipedia Cơ sở tri thức DBpediaTài liệu có liên quan:
-
Tóm tắt Đồ án tốt nghiệp Khoa học máy tính: Xây dựng ứng dụng quản lý quán cà phê
15 trang 508 1 0 -
Đề thi kết thúc học phần học kì 2 môn Cơ sở dữ liệu năm 2019-2020 có đáp án - Trường ĐH Đồng Tháp
5 trang 388 6 0 -
32 trang 257 0 0
-
Đồ án nghiên cứu khoa học: Ứng dụng công nghệ cảm biến IoT vào mô hình thủy canh
30 trang 210 0 0 -
6 trang 209 0 0
-
Giải thuật và cấu trúc dữ liệu
305 trang 186 0 0 -
Xây dựng ontology trợ giúp ra quyết định về đào tạo cho các trường Đại học ở Việt Nam
10 trang 180 0 0 -
76 trang 159 2 0
-
3 trang 155 2 0
-
Sửa chữa và lắp ráp máy tính tại nhà
276 trang 106 0 0 -
Tóm tắt luận án Tiến sĩ Kỹ thuật: Sử dụng ngôn ngữ trục trong dịch đa ngữ
27 trang 101 0 0 -
Bài giảng Khai phá dữ liệu: Chương 5 - TS. Võ Thị Ngọc Châu
116 trang 76 0 0 -
Giáo trình môn học Lý thuyết thông tin
136 trang 73 0 0 -
3 trang 72 1 0
-
Đề thi kết thúc học phần học kì 2 môn Cơ sở dữ liệu năm 2021-2022 có đáp án - Trường ĐH Đồng Tháp
5 trang 65 0 0 -
27 trang 64 0 0
-
2 trang 59 2 0
-
40 trang 58 0 0
-
4 trang 55 0 0
-
5 trang 52 1 0