Chuyển đổi và phân tích dữ liệu mạng xã hội với mô hình dữ liệu RDF
Số trang: 16
Loại file: pdf
Dung lượng: 1,014.11 KB
Lượt xem: 21
Lượt tải: 0
Xem trước 2 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Mạng xã hội ngày càng đóng vai trò rất to lớn và không thể thay thế trong thời đại số hiện nay. Việc sử dụng có hiệu quả dữ liệu mạng xã hội cho các dịch vụ thông tin đa dạng trong phát triển kinh tế, xã hội, khoa học và giáo dục. Dữ liệu mạng xã hội, chẳng hạn như Facebook, Tweeter hay Zalo điều cơ bản được biểu diễn theo mô hình dữ liệu đồ thị với các liên kết định kiểu giữa các đối tượng thông tin.
Nội dung trích xuất từ tài liệu:
Chuyển đổi và phân tích dữ liệu mạng xã hội với mô hình dữ liệu RDF TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, Trường Đại học Khoa học, ĐH Huế Tập 15, Số 1 (2020) CHUYỂN ĐỔI VÀ PHÂN TÍCH DỮ LIỆU MẠNG XÃ HỘI VỚI MÔ HÌNH DỮ LIỆU RDF Hoàng Hữu Hạnh*, Phạm Vũ Minh Tú, Vũ Tiến Thành, Ngô Tiến Đạt Học viện Công nghệ Bưu chính Viễn thông *Email: hoanghuuhanh@ptit.edu.vn Ngày nhận bài: 18/11/2019; ngày hoàn thành phản biện: 28/11/2019; ngày duyệt đăng: 20/12/2019 TÓM TẮT Mạng xã hội ngày càng đóng vai trò rất to lớn và không thể thay thế trong thời đại số hiện nay. Việc sử dụng có hiệu quả dữ liệu mạng xã hội cho các dịch vụ thông tin đa dạng trong phát triển kinh tế, xã hội, khoa học và giáo dục. Dữ liệu mạng xã hội, chẳng hạn như Facebook, Tweeter hay Zalo đều cơ bản được biểu diễn theo mô hình dữ liệu đồ thị với các liên kết định kiểu giữa các đối tượng thông tin. Trong khi đó, RDF và Linked Data là những tiêu chuẩn dữ liệu dựa trên mô hình dữ liệu bộ ba làm cơ sở cho mạng ngữ nghĩa, đã thể hiện tính hiệu quả trong biểu diễn và mô tả tài nguyên dữ kiệu trên không gian Web hiện nay. Việc chuyển đổi dữ liệu mạng xã hội trong biểu diễn dạng RDF/Linked Data góp phần tạo nên một nền tảng dữ liệu liên kết có ý nghĩa và sẽ góp phần trong việc nâng cao hiệu quả của việc phân tích dữ liệu của các mạng xã hội. Từ khóa: Facebook, Linked Data, Mạng xã hội, Phân tích dữ liệu, RDF. 1. MỞ ĐẦU Mạng xã hội (social network) trở thành một phần quan trọng trong xã hội và nền kinh tế số hiện nay. Tính đa dạng dữ liệu của mạng xã hội và tính dễ kết nối, dễ mở rộng “mạng lưới” thông qua các liên kết thông tin và dữ liệu, tốc độ sản sinh và chia sẻ dữ liệu trên mạng xã hội đã đưa dữ liệu mạng xã hội thành một kho dữ liệu phân tán rất lớn. Nguồn dữ liệu này đã trở thành một môi trường số rất quan trọng tồn tại song song với xã hội thực tế, và cũng ảnh hưởng rất lớn đến những vấn đề của thực tế với cách thức thông tin được chia sẻ, được phân phát cũng như tính đa dạng và mở của nó. Mạng xã hội (MXH) hay dữ liệu mạng xã hội đã trở thành một trong những nguồn thông tin rất năng lực trong các hoạt động của xã hội số hiện nay, từ tin tức, thông tin quảng bá, quảng cáo, truyền thông, v.v< ảnh hưởng đến con người chúng ta trong cách thức giao tiếp và sử dụng nguồn thông tin vô cùng lớn này. Việc phân tích dữ liệu mạng xã hội vì thế sẽ là một vấn đề luôn có tính thời sự và cấp thiết nhằm cung 1 Chuyển đổi và phân tích dữ liệu mạng xã hội với mô hình dữ liệu RDF cấp một thông tin hữu ích, chính xác và dự đoán cũng như dự báo được những trào lưu đang diễn ra trên các mạng xã hội. Xét về khía cạnh khoa học, dữ liệu mạng xã hội là Dữ liệu Lớn (Big Data) với các tính chất về dung lượng rất lớn (Volume), tính đang dạng của dữ liệu và thông tin (Variety), tốc độ cung cấp dữ liệu trên mạng xã hội (Velocity), tuy nhiên tính chính xác và đáng tin cậy (Veracity) của dữ liệu mạng xã hội là một vấn đề. Nếu xét theo phạm vi nhỏ, khi mỗi người cung cấp thông tin cá nhân của mình, thì chủ quan rằng có sự chính xác; tuy nhiên, hiện nay các dữ liệu được cung cấp trên MXH thường không xuất phát từ các cá nhân sử dụng MXH mà có được từ chia sẻ các nguồn dữ liệu Internet khác. Việc phân tích và phân loại phục vụ lọc thông tin là một vấn đề đang được triển khai ứng dụng, tuy nhiên, tính chất ngữ nghĩa khá bị hạn chế do các tiếp cận trong phân tích dữ liệu hiện nay đều theo các tiếp cận sử dụng các phương pháp truyền thống trong khai phá dữ liệu hay phân tích toán học thông thường. Trong khi đó, Dữ liệu mạng xã hội được biểu diễn thường đi kèm với một lượt đồ hay bộ từ vựng đại diện cho tri thức miền. Do đó phương pháp truyền thống chưa khám phá hết các thông tin liên kết và giàu ngữ nghĩa của dữ liệu MXH hiện nay [1]. Nhằm cung cấp một tiếp cận chuyển đổi và biểu diễn dữ liệu MXH giàu ngữa nghĩa và phục vụ phân tích dữ liệu hiệu quả hơn, bài báo này đề xuất một phương pháp và giới thiệu một mô hình xử lý và phân tích dữ liệu MXH theo tiếp cận biểu diễn và xử lý theo ngữ nghĩa của dữ liệu dựa trên RDF. Bài báo đề cập đến: - Thu thập đữ liệu MXH từ mạng xã hội Facebook theo cơ chế bán thời gian thực và chuyển đổi sang dạng biểu diễn giàu ngữ nghĩa RDF sử dụng các tri thức hiện có là FOAF [2]; - Phát triển phương pháp xử lý dữ liệu MXH dựa trên hình thức biểu diễn dữ liệu MXH theo mô hình RDF [3]. Với các nội dụng như trên, cấu trúc bài báo được chia thành các phân như sau: mô hình dữ liệu RDF được giới thiệu ở phần 2. Phần 3 đề xuất hệ thống chuyển đổi và xử lý dữ liệu MXH nói chung. Và cuối cùng, phát triển hệ thống và kết quả thực nghiệm sẽ được trình bày ở phần 4. 2. MÔ HÌNH DỮ LIỆU RDF CHO DỮ LIỆU MẠNG XÃ HỘI 2.1. Mô hình dữ liệu RDF Mô hình cơ bản của RDF gồm ba đối tượng sau: - Tài nguyên (Resources): là tất cả những gì được mô tả bằng biểu thức RDF. Nó có thể là một trang Web, một phần của trang web hay một tập các trang Web. 2 TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, Trường Đại học Khoa học, ĐH Huế Tập 15, Số 1 (2020) - Thuộc tính (Properties): thuộc tính, đặc tính, hoặc quan hệ dùng để mô tả tính chất của tài nguyên. - Giá trị (Value): là giá trị được gán cho thuộc tính. Mô hình RDF mô tả các tài nguyên thông qua các phát biểu (Statements), mỗi phát biểu là một bộ ba , gồm ba thành phần sau : - S (Subject - Chủ thể): địa chỉ hay vị trí tài nguyên muốn mô tả, được xác định bời URI. - P (Predicate - Vị từ/thuộc tính): xác định tính chất của tài nguyê ...
Nội dung trích xuất từ tài liệu:
Chuyển đổi và phân tích dữ liệu mạng xã hội với mô hình dữ liệu RDF TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, Trường Đại học Khoa học, ĐH Huế Tập 15, Số 1 (2020) CHUYỂN ĐỔI VÀ PHÂN TÍCH DỮ LIỆU MẠNG XÃ HỘI VỚI MÔ HÌNH DỮ LIỆU RDF Hoàng Hữu Hạnh*, Phạm Vũ Minh Tú, Vũ Tiến Thành, Ngô Tiến Đạt Học viện Công nghệ Bưu chính Viễn thông *Email: hoanghuuhanh@ptit.edu.vn Ngày nhận bài: 18/11/2019; ngày hoàn thành phản biện: 28/11/2019; ngày duyệt đăng: 20/12/2019 TÓM TẮT Mạng xã hội ngày càng đóng vai trò rất to lớn và không thể thay thế trong thời đại số hiện nay. Việc sử dụng có hiệu quả dữ liệu mạng xã hội cho các dịch vụ thông tin đa dạng trong phát triển kinh tế, xã hội, khoa học và giáo dục. Dữ liệu mạng xã hội, chẳng hạn như Facebook, Tweeter hay Zalo đều cơ bản được biểu diễn theo mô hình dữ liệu đồ thị với các liên kết định kiểu giữa các đối tượng thông tin. Trong khi đó, RDF và Linked Data là những tiêu chuẩn dữ liệu dựa trên mô hình dữ liệu bộ ba làm cơ sở cho mạng ngữ nghĩa, đã thể hiện tính hiệu quả trong biểu diễn và mô tả tài nguyên dữ kiệu trên không gian Web hiện nay. Việc chuyển đổi dữ liệu mạng xã hội trong biểu diễn dạng RDF/Linked Data góp phần tạo nên một nền tảng dữ liệu liên kết có ý nghĩa và sẽ góp phần trong việc nâng cao hiệu quả của việc phân tích dữ liệu của các mạng xã hội. Từ khóa: Facebook, Linked Data, Mạng xã hội, Phân tích dữ liệu, RDF. 1. MỞ ĐẦU Mạng xã hội (social network) trở thành một phần quan trọng trong xã hội và nền kinh tế số hiện nay. Tính đa dạng dữ liệu của mạng xã hội và tính dễ kết nối, dễ mở rộng “mạng lưới” thông qua các liên kết thông tin và dữ liệu, tốc độ sản sinh và chia sẻ dữ liệu trên mạng xã hội đã đưa dữ liệu mạng xã hội thành một kho dữ liệu phân tán rất lớn. Nguồn dữ liệu này đã trở thành một môi trường số rất quan trọng tồn tại song song với xã hội thực tế, và cũng ảnh hưởng rất lớn đến những vấn đề của thực tế với cách thức thông tin được chia sẻ, được phân phát cũng như tính đa dạng và mở của nó. Mạng xã hội (MXH) hay dữ liệu mạng xã hội đã trở thành một trong những nguồn thông tin rất năng lực trong các hoạt động của xã hội số hiện nay, từ tin tức, thông tin quảng bá, quảng cáo, truyền thông, v.v< ảnh hưởng đến con người chúng ta trong cách thức giao tiếp và sử dụng nguồn thông tin vô cùng lớn này. Việc phân tích dữ liệu mạng xã hội vì thế sẽ là một vấn đề luôn có tính thời sự và cấp thiết nhằm cung 1 Chuyển đổi và phân tích dữ liệu mạng xã hội với mô hình dữ liệu RDF cấp một thông tin hữu ích, chính xác và dự đoán cũng như dự báo được những trào lưu đang diễn ra trên các mạng xã hội. Xét về khía cạnh khoa học, dữ liệu mạng xã hội là Dữ liệu Lớn (Big Data) với các tính chất về dung lượng rất lớn (Volume), tính đang dạng của dữ liệu và thông tin (Variety), tốc độ cung cấp dữ liệu trên mạng xã hội (Velocity), tuy nhiên tính chính xác và đáng tin cậy (Veracity) của dữ liệu mạng xã hội là một vấn đề. Nếu xét theo phạm vi nhỏ, khi mỗi người cung cấp thông tin cá nhân của mình, thì chủ quan rằng có sự chính xác; tuy nhiên, hiện nay các dữ liệu được cung cấp trên MXH thường không xuất phát từ các cá nhân sử dụng MXH mà có được từ chia sẻ các nguồn dữ liệu Internet khác. Việc phân tích và phân loại phục vụ lọc thông tin là một vấn đề đang được triển khai ứng dụng, tuy nhiên, tính chất ngữ nghĩa khá bị hạn chế do các tiếp cận trong phân tích dữ liệu hiện nay đều theo các tiếp cận sử dụng các phương pháp truyền thống trong khai phá dữ liệu hay phân tích toán học thông thường. Trong khi đó, Dữ liệu mạng xã hội được biểu diễn thường đi kèm với một lượt đồ hay bộ từ vựng đại diện cho tri thức miền. Do đó phương pháp truyền thống chưa khám phá hết các thông tin liên kết và giàu ngữ nghĩa của dữ liệu MXH hiện nay [1]. Nhằm cung cấp một tiếp cận chuyển đổi và biểu diễn dữ liệu MXH giàu ngữa nghĩa và phục vụ phân tích dữ liệu hiệu quả hơn, bài báo này đề xuất một phương pháp và giới thiệu một mô hình xử lý và phân tích dữ liệu MXH theo tiếp cận biểu diễn và xử lý theo ngữ nghĩa của dữ liệu dựa trên RDF. Bài báo đề cập đến: - Thu thập đữ liệu MXH từ mạng xã hội Facebook theo cơ chế bán thời gian thực và chuyển đổi sang dạng biểu diễn giàu ngữ nghĩa RDF sử dụng các tri thức hiện có là FOAF [2]; - Phát triển phương pháp xử lý dữ liệu MXH dựa trên hình thức biểu diễn dữ liệu MXH theo mô hình RDF [3]. Với các nội dụng như trên, cấu trúc bài báo được chia thành các phân như sau: mô hình dữ liệu RDF được giới thiệu ở phần 2. Phần 3 đề xuất hệ thống chuyển đổi và xử lý dữ liệu MXH nói chung. Và cuối cùng, phát triển hệ thống và kết quả thực nghiệm sẽ được trình bày ở phần 4. 2. MÔ HÌNH DỮ LIỆU RDF CHO DỮ LIỆU MẠNG XÃ HỘI 2.1. Mô hình dữ liệu RDF Mô hình cơ bản của RDF gồm ba đối tượng sau: - Tài nguyên (Resources): là tất cả những gì được mô tả bằng biểu thức RDF. Nó có thể là một trang Web, một phần của trang web hay một tập các trang Web. 2 TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, Trường Đại học Khoa học, ĐH Huế Tập 15, Số 1 (2020) - Thuộc tính (Properties): thuộc tính, đặc tính, hoặc quan hệ dùng để mô tả tính chất của tài nguyên. - Giá trị (Value): là giá trị được gán cho thuộc tính. Mô hình RDF mô tả các tài nguyên thông qua các phát biểu (Statements), mỗi phát biểu là một bộ ba , gồm ba thành phần sau : - S (Subject - Chủ thể): địa chỉ hay vị trí tài nguyên muốn mô tả, được xác định bời URI. - P (Predicate - Vị từ/thuộc tính): xác định tính chất của tài nguyê ...
Tìm kiếm theo từ khóa liên quan:
Linked Data Mạng xã hội Phân tích dữ liệu Dịch vụ thông tin Công nghệ thông tin Công nghệ sốTài liệu có liên quan:
-
11 trang 502 0 0
-
52 trang 468 1 0
-
Top 10 mẹo 'đơn giản nhưng hữu ích' trong nhiếp ảnh
11 trang 367 0 0 -
96 trang 334 0 0
-
74 trang 329 0 0
-
Đồ án tốt nghiệp: Xây dựng ứng dụng di động android quản lý khách hàng cắt tóc
81 trang 321 0 0 -
Tài liệu dạy học môn Tin học trong chương trình đào tạo trình độ cao đẳng
348 trang 321 1 0 -
Báo cáo thực tập thực tế: Nghiên cứu và xây dựng website bằng Wordpress
24 trang 304 0 0 -
Tài liệu hướng dẫn sử dụng thư điện tử tài nguyên và môi trường
72 trang 303 0 0 -
EBay - Internet và câu chuyện thần kỳ: Phần 1
143 trang 297 0 0