Hệ toạ độ hình sao thưa: Trực quan hóa dữ liệu số chiều lớn cỡ mẫu nhỏ
Số trang: 8
Loại file: pdf
Dung lượng: 489.39 KB
Lượt xem: 29
Lượt tải: 0
Xem trước 1 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Bài viết Hệ toạ độ hình sao thưa: Trực quan hóa dữ liệu số chiều lớn cỡ mẫu nhỏ giới thiệu cách tiếp cận phân tích dữ liệu bằng trực quan hoá đối với dữ liệu có số chiều cao và cỡ mẫu nhỏ. Ngoài ra bài viết còn đề xuất phương pháp chiếu thưa dựa vào phương pháp trực quan hoá bằng hệ toạ độ hình sao mà cấu trúc nhóm được bảo toàn nhờ vào việc tối ưu hoá sự phân bố hệ toạ độ hình sao.
Nội dung trích xuất từ tài liệu:
Hệ toạ độ hình sao thưa: Trực quan hóa dữ liệu số chiều lớn cỡ mẫu nhỏ TNU Journal of Science and Technology 228(07): 127 - 134 SPARSE STAR COORDINATES: VISUALIZATION FOR HIGH DIMENSION LOW SAMPLE SIZE Tran Van Long*, Bui Viet Huong University of Transport and Communications, Hanoi ARTICLE INFO ABSTRACT Received: 17/4/2023 The visual analysis of group structures and trends of high-dimensional data is a central topic in many fields, particularly in genomic data Revised: 24/5/2023 analysis. Gene expression data have a small number of observations Published: 24/5/2023 and a large number of attributes. The traditional statistical methods are not directly applied to analyze for high dimension, low sample size. In KEYWORDS this paper, we introduce a new visualization technique approach to visual analytics of high-dimension, low-sample size. We propose a Star coordinates sparse star coordinates visualization technique based on star High dimension low sample size coordinates that group structures are preserved thanks to the optimal layouts of star coordinate systems on the visual space. The larger star Data visualization coordinates are more important dimensions in cluster analysis. The Silhouette coefficient sparse star coordinate system attains by ranking the best quality Feature Importance visualization of the order of the dominant attributes to analyze the group structures of the high-dimension, low-sample size data sets. We present our proposed method with quality measurement and attest to the effectiveness of our approach for several real data sets. HỆ TOẠ ĐỘ HÌNH SAO THƯA: TRỰC QUAN HÓA DỮ LIỆU SỐ CHIỀU LỚN CỠ MẪU NHỎ Trần Văn Long*, Bùi Việt Hương Trường Đại học Giao thông vận tải, Hà Nội THÔNG TIN BÀI BÁO TÓM TẮT Ngày nhận bài: 17/4/2023 Phân tích khai phá về các cấu trúc nhóm và xu hướng của dữ liệu nhiều chiều là chủ đề chính của nhiều lĩnh vực nghiên cứu có nhiều ứng dụng, Ngày hoàn thiện: 24/5/2023 đặc biệt trong phân tích dữ liệu gen. Dữ liệu gen có số chiều lớn và số Ngày đăng: 24/5/2023 quan sát nhỏ. Các phương pháp phân tích thống kê truyền thống thông thường không được áp dụng trực tiếp cho dữ liệu có số chiều cao, số TỪ KHÓA mẫu nhỏ. Trong bài báo này, chúng tôi giới thiệu cách tiếp cận phân tích dữ liệu bằng trực quan hoá đối với dữ liệu có số chiều cao và cỡ Hệ tọa độ hình sao mẫu nhỏ. Chúng tôi đề xuất phương pháp chiếu thưa dựa vào phương Số chiều lớn cỡ mẫu nhỏ pháp trực quan hoá bằng hệ toạ độ hình sao mà cấu trúc nhóm được bảo Trực quan hóa dữ liệu toàn nhờ vào việc tối ưu hoá sự phân bố hệ toạ độ hình sao. Phương pháp chiếu thưa nhận được từ việc xếp hạng chất lượng trực quan hoá Hệ số Silhouette theo thứ tự các thuộc tính quan trọng để lựa chọn các thuộc tính quan Thuộc tính quan trọng trọng trong phân tích cấu trúc nhóm của dữ liệu. Các kết quả thực nghiệm chứng tỏ sự hiệu quả của phương pháp đề xuất. DOI: https://doi.org/10.34238/tnu-jst.7768 * Corresponding author. Email: vtran@utc.edu.vn http://jst.tnu.edu.vn 127 Email: jst@tnu.edu.vn TNU Journal of Science and Technology 228(07): 127 - 134 1. Giới thiệu Trực quan hoá phân tích dữ liệu là phương pháp để khám phá về cấu trúc, xu hướng, mối liên hệ giữa các nhóm, mối liên hệ giữa các thuộc tính được sử dụng trong phân tích dữ liệu nhiều chiều. Việc hiểu được sự ảnh hưởng của các thuộc tính đối với một cấu trúc nào đó của dữ liệu rất quan trọng trong phân tích dữ liệu. Các phương pháp biểu diễn dữ liệu nhằm giảm số chiều của dữ liệu bằng các phương pháp chiếu phi tuyến thông thường sẽ bảo toàn một số cấu trúc nào đó của dữ liệu. Tuy nhiên, các phương pháp này không có sự tác động của các thuộc tính trong biểu diễn. Các phương pháp biểu diễn trực quan hoá dữ liệu nhiều chiều có sử dụng trực tiếp các thuộc tính đối với dữ liệu như phương pháp ma trận biểu đồ phân tán (Scatterplot Matrix – biểu diễn tất cả các cặp thuộc tính), Hệ toạ độ song song (Parallel Coordinates – biểu diễn các điểm bằng các đường gấp khúc), Hệ toạ độ hình sao (Star Coordinate-biểu diễn bằng tổ hợp tuyến tính của hệ véc-tơ trong không gian hai chiều), Hệ toạ độ hướng tâm (Radviz -biểu diễn bởi điểm cân bằng trong hệ lò xo) được giới thiệu trong tổng quan về trực quan hoá [1]. Các phương pháp biểu diễn dữ liệu thường áp dụng đối với các dữ liệu có số chiều cỡ trung bình (dưới 50 chiều). Đối với số chiều lớn thì do hạn chế của sự biểu diễn hoặc có nhiều số chiều nhiễu nên sự biểu diễn không bảo toàn được các cấu trúc của dữ liệu. Trực quan hoá dữ liệu nhiều chiều để hiểu cấu trúc của dữ liệu, để hiểu và khai phá dữ liệu. Các nhà nghiên cứu đã giới thiệu nhiều phương pháp để biểu diễn dữ liệu nhiều chiều và được tổng kết trong bài báo [1]. Trong phần này chúng tôi tiếp cận phương pháp giảm số chiều trong biểu diễn dữ liệu nhiều chiều, dữ liệu biểu diễn bởi các điểm trong không gian trực quan hoá (2D). Chúng tôi tổng kết một số nghiên cứu gần đây về phương pháp hệ toạ độ hình sao và ...
Nội dung trích xuất từ tài liệu:
Hệ toạ độ hình sao thưa: Trực quan hóa dữ liệu số chiều lớn cỡ mẫu nhỏ TNU Journal of Science and Technology 228(07): 127 - 134 SPARSE STAR COORDINATES: VISUALIZATION FOR HIGH DIMENSION LOW SAMPLE SIZE Tran Van Long*, Bui Viet Huong University of Transport and Communications, Hanoi ARTICLE INFO ABSTRACT Received: 17/4/2023 The visual analysis of group structures and trends of high-dimensional data is a central topic in many fields, particularly in genomic data Revised: 24/5/2023 analysis. Gene expression data have a small number of observations Published: 24/5/2023 and a large number of attributes. The traditional statistical methods are not directly applied to analyze for high dimension, low sample size. In KEYWORDS this paper, we introduce a new visualization technique approach to visual analytics of high-dimension, low-sample size. We propose a Star coordinates sparse star coordinates visualization technique based on star High dimension low sample size coordinates that group structures are preserved thanks to the optimal layouts of star coordinate systems on the visual space. The larger star Data visualization coordinates are more important dimensions in cluster analysis. The Silhouette coefficient sparse star coordinate system attains by ranking the best quality Feature Importance visualization of the order of the dominant attributes to analyze the group structures of the high-dimension, low-sample size data sets. We present our proposed method with quality measurement and attest to the effectiveness of our approach for several real data sets. HỆ TOẠ ĐỘ HÌNH SAO THƯA: TRỰC QUAN HÓA DỮ LIỆU SỐ CHIỀU LỚN CỠ MẪU NHỎ Trần Văn Long*, Bùi Việt Hương Trường Đại học Giao thông vận tải, Hà Nội THÔNG TIN BÀI BÁO TÓM TẮT Ngày nhận bài: 17/4/2023 Phân tích khai phá về các cấu trúc nhóm và xu hướng của dữ liệu nhiều chiều là chủ đề chính của nhiều lĩnh vực nghiên cứu có nhiều ứng dụng, Ngày hoàn thiện: 24/5/2023 đặc biệt trong phân tích dữ liệu gen. Dữ liệu gen có số chiều lớn và số Ngày đăng: 24/5/2023 quan sát nhỏ. Các phương pháp phân tích thống kê truyền thống thông thường không được áp dụng trực tiếp cho dữ liệu có số chiều cao, số TỪ KHÓA mẫu nhỏ. Trong bài báo này, chúng tôi giới thiệu cách tiếp cận phân tích dữ liệu bằng trực quan hoá đối với dữ liệu có số chiều cao và cỡ Hệ tọa độ hình sao mẫu nhỏ. Chúng tôi đề xuất phương pháp chiếu thưa dựa vào phương Số chiều lớn cỡ mẫu nhỏ pháp trực quan hoá bằng hệ toạ độ hình sao mà cấu trúc nhóm được bảo Trực quan hóa dữ liệu toàn nhờ vào việc tối ưu hoá sự phân bố hệ toạ độ hình sao. Phương pháp chiếu thưa nhận được từ việc xếp hạng chất lượng trực quan hoá Hệ số Silhouette theo thứ tự các thuộc tính quan trọng để lựa chọn các thuộc tính quan Thuộc tính quan trọng trọng trong phân tích cấu trúc nhóm của dữ liệu. Các kết quả thực nghiệm chứng tỏ sự hiệu quả của phương pháp đề xuất. DOI: https://doi.org/10.34238/tnu-jst.7768 * Corresponding author. Email: vtran@utc.edu.vn http://jst.tnu.edu.vn 127 Email: jst@tnu.edu.vn TNU Journal of Science and Technology 228(07): 127 - 134 1. Giới thiệu Trực quan hoá phân tích dữ liệu là phương pháp để khám phá về cấu trúc, xu hướng, mối liên hệ giữa các nhóm, mối liên hệ giữa các thuộc tính được sử dụng trong phân tích dữ liệu nhiều chiều. Việc hiểu được sự ảnh hưởng của các thuộc tính đối với một cấu trúc nào đó của dữ liệu rất quan trọng trong phân tích dữ liệu. Các phương pháp biểu diễn dữ liệu nhằm giảm số chiều của dữ liệu bằng các phương pháp chiếu phi tuyến thông thường sẽ bảo toàn một số cấu trúc nào đó của dữ liệu. Tuy nhiên, các phương pháp này không có sự tác động của các thuộc tính trong biểu diễn. Các phương pháp biểu diễn trực quan hoá dữ liệu nhiều chiều có sử dụng trực tiếp các thuộc tính đối với dữ liệu như phương pháp ma trận biểu đồ phân tán (Scatterplot Matrix – biểu diễn tất cả các cặp thuộc tính), Hệ toạ độ song song (Parallel Coordinates – biểu diễn các điểm bằng các đường gấp khúc), Hệ toạ độ hình sao (Star Coordinate-biểu diễn bằng tổ hợp tuyến tính của hệ véc-tơ trong không gian hai chiều), Hệ toạ độ hướng tâm (Radviz -biểu diễn bởi điểm cân bằng trong hệ lò xo) được giới thiệu trong tổng quan về trực quan hoá [1]. Các phương pháp biểu diễn dữ liệu thường áp dụng đối với các dữ liệu có số chiều cỡ trung bình (dưới 50 chiều). Đối với số chiều lớn thì do hạn chế của sự biểu diễn hoặc có nhiều số chiều nhiễu nên sự biểu diễn không bảo toàn được các cấu trúc của dữ liệu. Trực quan hoá dữ liệu nhiều chiều để hiểu cấu trúc của dữ liệu, để hiểu và khai phá dữ liệu. Các nhà nghiên cứu đã giới thiệu nhiều phương pháp để biểu diễn dữ liệu nhiều chiều và được tổng kết trong bài báo [1]. Trong phần này chúng tôi tiếp cận phương pháp giảm số chiều trong biểu diễn dữ liệu nhiều chiều, dữ liệu biểu diễn bởi các điểm trong không gian trực quan hoá (2D). Chúng tôi tổng kết một số nghiên cứu gần đây về phương pháp hệ toạ độ hình sao và ...
Tìm kiếm theo từ khóa liên quan:
Hệ tọa độ hình sao Số chiều lớn cỡ mẫu nhỏ Trực quan hóa dữ liệu Hệ số Silhouette Phân tích dữ liệu genTài liệu có liên quan:
-
Bài giảng Tin học ứng dụng: Chương 3 - Nguyễn Thị Thùy Liên
34 trang 104 0 0 -
13 trang 53 0 0
-
Giáo án môn Tin học lớp 8 (Sách Kết nối tri thức)
141 trang 50 0 0 -
Trực quan hóa dữ liệu với Microsoft Power BI
11 trang 49 0 0 -
Trình bày dữ liệu đồ thị trong trực quan hóa dữ liệu
13 trang 48 0 0 -
Bài giảng Khai phá web - Bài 3: Trực quan hóa dữ liệu
42 trang 45 0 0 -
Trực quan hóa dữ liệu: Vai trò & thử thách
10 trang 45 0 0 -
Trực quan hóa dữ liệu trạng thái giao thông trên nền web
9 trang 42 0 0 -
Giải pháp nhà máy thông minh cho doanh nghiệp
11 trang 36 0 0 -
Đồ hoạ thông tin: Công cụ truyền thông trực tuyến trong thời đại số
9 trang 35 0 0