Danh mục tài liệu

Lakehouse cuộc tiến hóa của nền tảng lưu trữ dữ liệu

Số trang: 13      Loại file: pdf      Dung lượng: 539.47 KB      Lượt xem: 32      Lượt tải: 0    
Xem trước 2 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Bài viết "Lakehouse cuộc tiến hóa của nền tảng lưu trữ dữ liệu" triển khai kiến trúc dữ liệu, chuẩn hóa các phương pháp và giao thức, cũng như hệ thống thu thập, lưu trữ, quản lý và chia sẻ dữ liệu trong toàn tổ chức, doanh nghiệp để cải thiện việc ra quyết định. Trong các tổ chức, doanh nghiệp hiện đại, hầu hết các quyết định được đưa ra trong thời gian thực và để tạo điều kiện cho cơ sở hạ tầng quản lý dữ liệu theo thời gian thực và hiệu quả, kiến trúc sư dữ liệu đặt nền tảng hoặc kế hoạch chi tiết cơ bản cho quản lý dữ liệu của tổ chức, doanh nghiệp. Mời các bạn cùng tham khảo!
Nội dung trích xuất từ tài liệu:
Lakehouse cuộc tiến hóa của nền tảng lưu trữ dữ liệu LAKEHOUSE CUỘC TIẾN HÓA CỦA NỀN TẢNG LƯU TRỮ DỮ LIỆU Bùi Mạnh Trường Khoa Công nghệ Thông tin. Trường Đại học Tài chính – Marketing Email bmtruong@ufm.edu.vn Tóm tắt: Các tổ chức và doanh nghiệp có thể có được những hiểu biết sâu sắc và phong phúhơn khi họ tập hợp được tất cả dữ liệu có liên quan, từ tất cả các nguồn để phân tích. Để phân tíchlượng dữ liệu khổng lồ này, họ đã và đang cố gắng thu thập mọi dữ liệu rời rạc và tổng hợp tất cảdữ liệu đó ở một vị trí để triển khai việc phân tích hoặc áp dụng các lĩnh vực mới và công nghệmới trực tiếp trên đó. Mục đích chính của việc triển khai kiến trúc dữ liệu là chuẩn hóa các phươngpháp và giao thức, cũng như hệ thống thu thập, lưu trữ, quản lý và chia sẻ dữ liệu trong toàn tổchức, doanh nghiệp để cải thiện việc ra quyết định. Trong các tổ chức, doanh nghiệp hiện đại, hầuhết các quyết định được đưa ra trong thời gian thực và để tạo điều kiện cho cơ sở hạ tầng quản lýdữ liệu theo thời gian thực và hiệu quả, kiến trúc sư dữ liệu đặt nền tảng hoặc kế hoạch chi tiết cơbản cho quản lý dữ liệu của tổ chức, doanh nghiệp. . Từ khóa: Kho dữ liệu, Hồ dữ liệu, Lakehouse, kiến trúc lưu trữ dữ liệu1. ĐẶT VẤN ĐÈ Cùng sự gia tăng nhanh chóng số lượng ứng dụng ngày nay đã làm xuất hiện vấn đềvề tính toàn vẹn của dữ liệu. Vấn đề được nói tới ở đây chính là với số lượng các ứng dụngrất lớn đã tạo ra dữ liệu giống nhau ở nhiều nơi nhưng lại có các giá trị khác nhau. Để raquyết định, người dùng phải xem xét phiên bản dữ liệu nào phù hợp hoặc đúng nhất trongnhững ứng dụng đó. Nếu người dùng không tìm được đúng phiên bản của dữ liệu sẽ dẫn tớiquyết định sai lầm. Hình 1: Minh họa tình huống các phiên bản dữ liệu khác nhau 193 Đây chính là lý do cho sự cần thiết của phương pháp xây dựng nền tảng khác nhằmtìm được dữ liệu đúng khi ra quyết định, Kho dữ liệu chính là giải pháp.1.1 Kho dữ liệu Kho dữ liệu sẽ buộc dữ liệu sinh ra từ các ứng dụng khác nhau được lưu trữ tại mộtnơi lưu trữ vật lý riêng biệt. Các nhà thiết kế sẽ phải xây dựng một cơ sở hạ tầng hoàn toànmới xung quanh Kho dữ liệu. Dữ liệu có cấu trúc Kho dữ liệu Khóa KPI Văn bản Bản ghi QUẢN LÝ VÀ Siêu dữ liệu Lịch sử QUẢN TRỊ Tóm tắt Nguồn Phân loại DỮ LIỆU Chi tiết Mô hình Giao dịch BI và phân tích SQL Hình 2:: Mô hình cơ sở hạ tầng phân tích xung quanh Kho dữ liệuCơ sở hạ tầng phân tích được xây dựng xung quanh Kho dữ liệu chứa các thành phần sau : a. Siêu dữ liệu (Metadata) : Hướng dẫn dữ liệu nào nằm ở đâu. b. Mô hình dữ liệu : Mô tả dữ liệu được tìm thấy trong Kho dữ liệu c. Lịch sử dữ liệu : Lưu giữ nguồn gốc, việc chuyển đổi dữ liệu trong Kho dữ liệu d. Bản tóm tắt : Bản mô tả công việc thuật toán được thiết kế tạo dữ liệu. 194 e. KPI (Key Performance Indicator) : Chỉ số đánh giá hiệu suất. f. ETL : Cho phép dữ liệu ứng dụng chuyển đổi thành dữ liệu của tổ chức. Các hạn chế của Kho dữ liệu xuất hiện khi chủng loại dữ liệu cần lưu trữ gia tăng nhưvăn bản, hình ảnh, âm thanh, video, internet vạn vật… trong hoạt động cùa các tổ chức.Ngoài ra, việc trỗi dậy của lĩnh vực Máy học (ML – Machine Learning) và Trí tuệ nhân tạo(AI – Artificial Intelligence) đã làm xuất hiện các thuật toán lặp đòi hỏi việc truy cập dữliệu trực tiếp và không còn dựa trên SQL1.2 Các kiểu dữ liệu trong tổ chức Kho dữ liệu cũng tập trung vào dữ liệu có cấu trúc vốn chiếm phần lớn tạo thành dữliệu quan trọng và hữu ích, nhưng cũng có những kiểu dữ liệu khác tồn tại trong một tổchức bao gồm: a. Dữ liệu có cấu trúc Phổ biến nhất là các dữ liệu giao dịch được sinh ra từ các hoạt động vận hành hàngngày của tổ chức. b. Dữ liệu văn bản. Là dữ liệu được sinh ra từ thư từ, thư điện tử, văn bản và các cuộc trò chuyện diễn ratrong tổ chức. c. Dữ liệu không có cấu trúc Là dữ liệu xuất phát từ các nguồn khác như dữ liệu Internet vạn vật (IoT – Internet ofThings), hình ảnh, video và dữ liệu dạng tương tự (analog). Có cấu trúc Văn bản Khôn ...

Tài liệu có liên quan: