Lakehouse cuộc tiến hóa của nền tảng lưu trữ dữ liệu
Số trang: 13
Loại file: pdf
Dung lượng: 539.47 KB
Lượt xem: 32
Lượt tải: 0
Xem trước 2 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Bài viết "Lakehouse cuộc tiến hóa của nền tảng lưu trữ dữ liệu" triển khai kiến trúc dữ liệu, chuẩn hóa các phương pháp và giao thức, cũng như hệ thống thu thập, lưu trữ, quản lý và chia sẻ dữ liệu trong toàn tổ chức, doanh nghiệp để cải thiện việc ra quyết định. Trong các tổ chức, doanh nghiệp hiện đại, hầu hết các quyết định được đưa ra trong thời gian thực và để tạo điều kiện cho cơ sở hạ tầng quản lý dữ liệu theo thời gian thực và hiệu quả, kiến trúc sư dữ liệu đặt nền tảng hoặc kế hoạch chi tiết cơ bản cho quản lý dữ liệu của tổ chức, doanh nghiệp. Mời các bạn cùng tham khảo!
Nội dung trích xuất từ tài liệu:
Lakehouse cuộc tiến hóa của nền tảng lưu trữ dữ liệu LAKEHOUSE CUỘC TIẾN HÓA CỦA NỀN TẢNG LƯU TRỮ DỮ LIỆU Bùi Mạnh Trường Khoa Công nghệ Thông tin. Trường Đại học Tài chính – Marketing Email bmtruong@ufm.edu.vn Tóm tắt: Các tổ chức và doanh nghiệp có thể có được những hiểu biết sâu sắc và phong phúhơn khi họ tập hợp được tất cả dữ liệu có liên quan, từ tất cả các nguồn để phân tích. Để phân tíchlượng dữ liệu khổng lồ này, họ đã và đang cố gắng thu thập mọi dữ liệu rời rạc và tổng hợp tất cảdữ liệu đó ở một vị trí để triển khai việc phân tích hoặc áp dụng các lĩnh vực mới và công nghệmới trực tiếp trên đó. Mục đích chính của việc triển khai kiến trúc dữ liệu là chuẩn hóa các phươngpháp và giao thức, cũng như hệ thống thu thập, lưu trữ, quản lý và chia sẻ dữ liệu trong toàn tổchức, doanh nghiệp để cải thiện việc ra quyết định. Trong các tổ chức, doanh nghiệp hiện đại, hầuhết các quyết định được đưa ra trong thời gian thực và để tạo điều kiện cho cơ sở hạ tầng quản lýdữ liệu theo thời gian thực và hiệu quả, kiến trúc sư dữ liệu đặt nền tảng hoặc kế hoạch chi tiết cơbản cho quản lý dữ liệu của tổ chức, doanh nghiệp. . Từ khóa: Kho dữ liệu, Hồ dữ liệu, Lakehouse, kiến trúc lưu trữ dữ liệu1. ĐẶT VẤN ĐÈ Cùng sự gia tăng nhanh chóng số lượng ứng dụng ngày nay đã làm xuất hiện vấn đềvề tính toàn vẹn của dữ liệu. Vấn đề được nói tới ở đây chính là với số lượng các ứng dụngrất lớn đã tạo ra dữ liệu giống nhau ở nhiều nơi nhưng lại có các giá trị khác nhau. Để raquyết định, người dùng phải xem xét phiên bản dữ liệu nào phù hợp hoặc đúng nhất trongnhững ứng dụng đó. Nếu người dùng không tìm được đúng phiên bản của dữ liệu sẽ dẫn tớiquyết định sai lầm. Hình 1: Minh họa tình huống các phiên bản dữ liệu khác nhau 193 Đây chính là lý do cho sự cần thiết của phương pháp xây dựng nền tảng khác nhằmtìm được dữ liệu đúng khi ra quyết định, Kho dữ liệu chính là giải pháp.1.1 Kho dữ liệu Kho dữ liệu sẽ buộc dữ liệu sinh ra từ các ứng dụng khác nhau được lưu trữ tại mộtnơi lưu trữ vật lý riêng biệt. Các nhà thiết kế sẽ phải xây dựng một cơ sở hạ tầng hoàn toànmới xung quanh Kho dữ liệu. Dữ liệu có cấu trúc Kho dữ liệu Khóa KPI Văn bản Bản ghi QUẢN LÝ VÀ Siêu dữ liệu Lịch sử QUẢN TRỊ Tóm tắt Nguồn Phân loại DỮ LIỆU Chi tiết Mô hình Giao dịch BI và phân tích SQL Hình 2:: Mô hình cơ sở hạ tầng phân tích xung quanh Kho dữ liệuCơ sở hạ tầng phân tích được xây dựng xung quanh Kho dữ liệu chứa các thành phần sau : a. Siêu dữ liệu (Metadata) : Hướng dẫn dữ liệu nào nằm ở đâu. b. Mô hình dữ liệu : Mô tả dữ liệu được tìm thấy trong Kho dữ liệu c. Lịch sử dữ liệu : Lưu giữ nguồn gốc, việc chuyển đổi dữ liệu trong Kho dữ liệu d. Bản tóm tắt : Bản mô tả công việc thuật toán được thiết kế tạo dữ liệu. 194 e. KPI (Key Performance Indicator) : Chỉ số đánh giá hiệu suất. f. ETL : Cho phép dữ liệu ứng dụng chuyển đổi thành dữ liệu của tổ chức. Các hạn chế của Kho dữ liệu xuất hiện khi chủng loại dữ liệu cần lưu trữ gia tăng nhưvăn bản, hình ảnh, âm thanh, video, internet vạn vật… trong hoạt động cùa các tổ chức.Ngoài ra, việc trỗi dậy của lĩnh vực Máy học (ML – Machine Learning) và Trí tuệ nhân tạo(AI – Artificial Intelligence) đã làm xuất hiện các thuật toán lặp đòi hỏi việc truy cập dữliệu trực tiếp và không còn dựa trên SQL1.2 Các kiểu dữ liệu trong tổ chức Kho dữ liệu cũng tập trung vào dữ liệu có cấu trúc vốn chiếm phần lớn tạo thành dữliệu quan trọng và hữu ích, nhưng cũng có những kiểu dữ liệu khác tồn tại trong một tổchức bao gồm: a. Dữ liệu có cấu trúc Phổ biến nhất là các dữ liệu giao dịch được sinh ra từ các hoạt động vận hành hàngngày của tổ chức. b. Dữ liệu văn bản. Là dữ liệu được sinh ra từ thư từ, thư điện tử, văn bản và các cuộc trò chuyện diễn ratrong tổ chức. c. Dữ liệu không có cấu trúc Là dữ liệu xuất phát từ các nguồn khác như dữ liệu Internet vạn vật (IoT – Internet ofThings), hình ảnh, video và dữ liệu dạng tương tự (analog). Có cấu trúc Văn bản Khôn ...
Nội dung trích xuất từ tài liệu:
Lakehouse cuộc tiến hóa của nền tảng lưu trữ dữ liệu LAKEHOUSE CUỘC TIẾN HÓA CỦA NỀN TẢNG LƯU TRỮ DỮ LIỆU Bùi Mạnh Trường Khoa Công nghệ Thông tin. Trường Đại học Tài chính – Marketing Email bmtruong@ufm.edu.vn Tóm tắt: Các tổ chức và doanh nghiệp có thể có được những hiểu biết sâu sắc và phong phúhơn khi họ tập hợp được tất cả dữ liệu có liên quan, từ tất cả các nguồn để phân tích. Để phân tíchlượng dữ liệu khổng lồ này, họ đã và đang cố gắng thu thập mọi dữ liệu rời rạc và tổng hợp tất cảdữ liệu đó ở một vị trí để triển khai việc phân tích hoặc áp dụng các lĩnh vực mới và công nghệmới trực tiếp trên đó. Mục đích chính của việc triển khai kiến trúc dữ liệu là chuẩn hóa các phươngpháp và giao thức, cũng như hệ thống thu thập, lưu trữ, quản lý và chia sẻ dữ liệu trong toàn tổchức, doanh nghiệp để cải thiện việc ra quyết định. Trong các tổ chức, doanh nghiệp hiện đại, hầuhết các quyết định được đưa ra trong thời gian thực và để tạo điều kiện cho cơ sở hạ tầng quản lýdữ liệu theo thời gian thực và hiệu quả, kiến trúc sư dữ liệu đặt nền tảng hoặc kế hoạch chi tiết cơbản cho quản lý dữ liệu của tổ chức, doanh nghiệp. . Từ khóa: Kho dữ liệu, Hồ dữ liệu, Lakehouse, kiến trúc lưu trữ dữ liệu1. ĐẶT VẤN ĐÈ Cùng sự gia tăng nhanh chóng số lượng ứng dụng ngày nay đã làm xuất hiện vấn đềvề tính toàn vẹn của dữ liệu. Vấn đề được nói tới ở đây chính là với số lượng các ứng dụngrất lớn đã tạo ra dữ liệu giống nhau ở nhiều nơi nhưng lại có các giá trị khác nhau. Để raquyết định, người dùng phải xem xét phiên bản dữ liệu nào phù hợp hoặc đúng nhất trongnhững ứng dụng đó. Nếu người dùng không tìm được đúng phiên bản của dữ liệu sẽ dẫn tớiquyết định sai lầm. Hình 1: Minh họa tình huống các phiên bản dữ liệu khác nhau 193 Đây chính là lý do cho sự cần thiết của phương pháp xây dựng nền tảng khác nhằmtìm được dữ liệu đúng khi ra quyết định, Kho dữ liệu chính là giải pháp.1.1 Kho dữ liệu Kho dữ liệu sẽ buộc dữ liệu sinh ra từ các ứng dụng khác nhau được lưu trữ tại mộtnơi lưu trữ vật lý riêng biệt. Các nhà thiết kế sẽ phải xây dựng một cơ sở hạ tầng hoàn toànmới xung quanh Kho dữ liệu. Dữ liệu có cấu trúc Kho dữ liệu Khóa KPI Văn bản Bản ghi QUẢN LÝ VÀ Siêu dữ liệu Lịch sử QUẢN TRỊ Tóm tắt Nguồn Phân loại DỮ LIỆU Chi tiết Mô hình Giao dịch BI và phân tích SQL Hình 2:: Mô hình cơ sở hạ tầng phân tích xung quanh Kho dữ liệuCơ sở hạ tầng phân tích được xây dựng xung quanh Kho dữ liệu chứa các thành phần sau : a. Siêu dữ liệu (Metadata) : Hướng dẫn dữ liệu nào nằm ở đâu. b. Mô hình dữ liệu : Mô tả dữ liệu được tìm thấy trong Kho dữ liệu c. Lịch sử dữ liệu : Lưu giữ nguồn gốc, việc chuyển đổi dữ liệu trong Kho dữ liệu d. Bản tóm tắt : Bản mô tả công việc thuật toán được thiết kế tạo dữ liệu. 194 e. KPI (Key Performance Indicator) : Chỉ số đánh giá hiệu suất. f. ETL : Cho phép dữ liệu ứng dụng chuyển đổi thành dữ liệu của tổ chức. Các hạn chế của Kho dữ liệu xuất hiện khi chủng loại dữ liệu cần lưu trữ gia tăng nhưvăn bản, hình ảnh, âm thanh, video, internet vạn vật… trong hoạt động cùa các tổ chức.Ngoài ra, việc trỗi dậy của lĩnh vực Máy học (ML – Machine Learning) và Trí tuệ nhân tạo(AI – Artificial Intelligence) đã làm xuất hiện các thuật toán lặp đòi hỏi việc truy cập dữliệu trực tiếp và không còn dựa trên SQL1.2 Các kiểu dữ liệu trong tổ chức Kho dữ liệu cũng tập trung vào dữ liệu có cấu trúc vốn chiếm phần lớn tạo thành dữliệu quan trọng và hữu ích, nhưng cũng có những kiểu dữ liệu khác tồn tại trong một tổchức bao gồm: a. Dữ liệu có cấu trúc Phổ biến nhất là các dữ liệu giao dịch được sinh ra từ các hoạt động vận hành hàngngày của tổ chức. b. Dữ liệu văn bản. Là dữ liệu được sinh ra từ thư từ, thư điện tử, văn bản và các cuộc trò chuyện diễn ratrong tổ chức. c. Dữ liệu không có cấu trúc Là dữ liệu xuất phát từ các nguồn khác như dữ liệu Internet vạn vật (IoT – Internet ofThings), hình ảnh, video và dữ liệu dạng tương tự (analog). Có cấu trúc Văn bản Khôn ...
Tìm kiếm theo từ khóa liên quan:
Kỷ yếu hội thảo khoa học Hội thảo Khoa học Gắn kết đào tạo với doanh nghiệp Lưu trữ dữ liệu Kiến trúc lưu trữ dữ liệu Mô hình dữ liệu Thiết kế tạo dữ liệuTài liệu có liên quan:
-
Yếu tố nhận diện người thứ ba ngay tình trong giao dịch dân sự
11 trang 337 0 0 -
8 trang 298 0 0
-
Cách tính nhanh giá trị riêng của ma trận vuông cấp 2 và cấp 3
4 trang 285 0 0 -
197 trang 282 0 0
-
Một số vấn đề về chuyển đổi số và ứng dụng trong doanh nghiệp
11 trang 268 0 0 -
Thuật toán khai phá tập mục thường xuyên trong cơ sở dữ liệu lớn thông qua mẫu đại diện
11 trang 248 0 0 -
Quản lý dữ liệu thông tin người hưởng bảo hiểm xã hội
6 trang 234 0 0 -
Phương pháp nhận diện biển số xe ô tô sử dụng học máy và thư viện OpenCV
6 trang 218 0 0 -
11 trang 210 0 0
-
Nghi thức chào hỏi trong văn hóa giao tiếp của người Nhật
13 trang 194 0 0