Xây dựng ontology thuộc lĩnh vực khoa học máy tính dựa vào cơ sở tri thức wikipedia và dbpedia

Số trang: 7 Loại file: pdf Dung lượng: 892.90 KB Lượt xem: 47 Lượt tải: 0

tailieu_vip

Báo xấu

Xem trước 1 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Trong bài báo này, chúng tôi tập trung vào quy trình xây dựng ontology chứa thông tin thuộc một lĩnh vực cụ thể (là khoa học máy tính - KHMT) theo ngôn ngữ tiếng Anh dựa vào thư viện bách khoa toàn thư Wikipedia1 và cơ sở tri thức DBpedia2 . Bài toán xây dựng ontology là một trong những bước quan trọng để tạo nguồn cơ sở tri thức cho các nghiên cứu trong rút trích thông tin, chú thích ngữ nghĩa và đặc biệt là xử lý ngôn ngữ tự nhiên. Hiện nay có nhiều phương pháp xây dựng ontology.
Nội dung trích xuất từ tài liệu:
Xây dựng ontology thuộc lĩnh vực khoa học máy tính dựa vào cơ sở tri thức wikipedia và dbpedia Kỷ yếu kỷ niệm 35 năm thành lập Trường ĐH ng nghiệp Th c ph m T h inh -2017) XÂY DỰNG ONTOLOGY THUỘC LĨNH VỰC KHOA HỌC MÁY TÍNH DỰA VÀO CƠ SỞ TRI THỨC WIKIPEDIA VÀ DBPEDIA Ngu n Th B ch Ngân Trường Đại học ng nghiệp Th c ph m Thành phố h inh Email: nganntb@cntp.edu.vn Ngày nhận bài: 20/08/2017; Ngày chấp nhận đăng: 30/08/2017 TÓM TẮT Trong bài báo này, chúng tôi tập trung vào quy trình xây dựng ontology chứa thông tin thuộc một lĩnh vực cụ thể (là khoa học máy tính - KHMT) theo ngôn ngữ tiếng Anh dựa vào thư viện bách khoa toàn thư Wikipedia1 và cơ sở tri thức DBpedia2. Bài toán xây dựng ontology là một trong những bước quan trọng để tạo nguồn cơ sở tri thức cho các nghiên cứu trong rút trích thông tin, chú thích ngữ nghĩa và đặc biệt là xử lý ngôn ngữ tự nhiên. Hiện nay có nhiều phương pháp xây dựng ontology. Tuy nhiên phần lớn gặp khó khăn trong việc xử lý dữ liệu quá lớn từ Wikipedia dẫn đến thời gian thực thi kết quả rất lâu, ngược lại nếu dữ liệu không trích xuất từ Wikipedia thì mức độ bao phủ thông tin không đảm bảo. Trong phương pháp của chúng tôi, chúng tôi đề xuất cách thức lọc dữ liệu theo các đặc trưng thông tin ban đầu của lĩnh vực KHMT để giảm bớt thời gian xử lý các thông tin không liên quan, nhưng vẫn đảm bảo độ đầy đủ thông tin vì các đặc trưng ban đầu cũng được chọn từ danh sách phân loại của Wikipedia. Sau đó tiến hành xây dựng cây ontology chứa nội dung tối ưu nhất có thể, đồng thời chúng ta có thể tiếp tục làm giàu thông tin cho ontology khi có thêm dữ liệu mới cập nhật. Ngoài ra phương pháp chúng tôi đề xuất có thể vận dụng để xây dựng ontology cho bất kỳ lĩnh vực nào mà có dữ liệu trong Wikipedia. Từ khóa: ontology, bách khoa toàn thư Wikipedia, cơ sở tri thức DBpedia, Khoa học máy tính, tạo ontology. 1. GIỚI THIỆU Những năm gần đây, các hướng nghiên cứu về xử lý ngôn ngữ tự nhiên hay web ngữ nghĩa đã và đang là một trong những mảng nghiên cứu có sự phát triển mạnh mẽ. Trong đó, bài toán xây dựng quy trình tạo cơ sở tri thức ontology có đầy đủ thông tin để tra cứu, truy xuất thông tin thực thể và quan hệ các thực thể là một bài toán quan trọng. Hiện nay đã có những nghiên cứu đề xuất một số cách thức xây dựng ontology tùy theo những mục tiêu, yêu cầu khác nhau. Trong nghiên cứu của Nora I. Al- Rajebah [1], hay Zareen S. Syed và các công sự [2], các nhóm tác giả tạo ontology có dữ liệu truy xuất từ Wikipedia, quá trình này thực hiện tốn nhiều công sức vì phải xử lý dữ liệu cực lớn từ Wikipedia. Một nghiên cứu khác của nhóm tác giả Daniil Mirylenka và các cộng sự [3], họ đề xuất phương pháp xây dựng ontology thuộc một lĩnh vực (domain) bằng cách đưa ra danh sách các khái niệm quan tâm ban đầu trong lĩnh vực đó, truy xuất các thuộc tính và quan hệ giữa các khái niệm quan tâm trong Wikipedia để thu được bộ dữ liệu cần thiết tiến hành xây dựng ontology. Phương pháp này đã giảm tải được dữ liệu thừa khi truy xuất dữ liệu trong Wikipedia. Tuy nhiên vì truy xuất trực tiếp bộ dữ liệu cực lớn của Wikipedia nên tốn thời gian thực hiện, đồng thời tính đầy đủ của bộ dữ liệu thu được sẽ phụ thuộc hoàn toàn vào danh sách các khái niệm quan tâm ban đầu. Ngoài ra cũng có cách thực hiện khá thủ công, người dùng tự tạo ontology bằng cách dùng các phần mềm có sẵn, phổ biến là 1 2 https://www.wikipedia.org/ http://wiki.dbpedia.org/ 210 Xây d ng ontology thuộc lĩnh v c khoa học máy t nh d a vào cơ sở tri thức wikipedia và dbpedia Protégé [4]. Trong bài báo này, chúng tôi đề xuất quá trình xây dựng ontology thuộc lĩnh vực KHMT có dữ liệu dựa vào Wikipedia thông qua DBpedia. Wikipedia là một nguồn cơ sở tri thức bách khoa toàn thư chứa hầu hết các khái niệm thực thể trong tất cả các lĩnh vực của nhân loại, bao gồm 299 ngôn ngữ3 với hơn 171.010.892 bài báo4 (dữ liệu được cập nhật vào ngày 05/08/2017). DBpedia là một cơ sở dữ liệu công cộng, đa ngôn ngữ và là một đồ thị tri thức về ngữ nghĩa. Đây là một hệ thống do nổ lực của cộng đồng đóng góp tạo nên để lấy thông tin có cấu trúc từ Wikipedia, tạo thành các bộ tập hợp dữ liệu (data set) hoặc các bộ tập tin chứa dữ liệu dạng bộ ba (tripple). Ngoài ra, DBpedia cho phép người dùng truy vấn ngược lại thông tin trên Wikipedia, đồng thời liên kết các bộ dữ liệu khác nhau trên dữ liệu Web với Wikipedia [5]. Hiển nhiên, Wikipedia là nguồn tri thức tin cậy cho các bài toán nghiên cứu khoa học [8], tuy nhiên việc xử lý dữ liệu cực lớn từ nó cũng phát sinh nhiều thử thách, dựa theo phân tích trong nghiên cứu của nhóm tác giả Lu Xiao và Nicole Askin [6]. Vì vậy, trong đề xuất của chúng tôi, chúng tôi không lấy dữ liệu trực tiếp từ Wikipedia mà thông qua DBpedia, dữ liệu từ Wikipedia đã tổ chức lại thành các tập tin (file) dạng bộ ba (tripble)5 thể hiện thuộc tính, quan hệ giữa các thực thể. Tiếp theo chúng tôi rút trích danh sách các khái niệm quan tâm đã được phân loại trong Wikipedia, làm điều kiện lọc cho các dữ liệu từ DBpedia. Sau đó tiến hành xây dựng ontology ...