Tiểu luận: Distributed File System
Số trang: 31
Loại file: pdf
Dung lượng: 1.97 MB
Lượt xem: 38
Lượt tải: 0
Xem trước 4 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Nội dung cơ bản của đề tài tiểu luận Distributed File System trình bày tổng quan hệ thống tập tin phân tán, Google File System, Map reduce, Hadoop distributed file system.
Nội dung trích xuất từ tài liệu:
Tiểu luận: Distributed File System Distributed File System GVHD: TS. Hồ Bảo Quốc Nhóm học viên thực hiện: • Dương Hữu Thành – 1212035 • Phạm Ngọc Vân Anh – 1212001 • Nguyễn Thanh Tòng – 1212039 LOGO 1 Nội dung 1 Tổng quan hệ thống tập tin phân tán 2 Google File System 3 Map reduce 4 Hadoop distributed file system 2.2 2 Nội dung 1 Tổng quan hệ thống tập tin phân tán 2 Google File System 3 3 Map reduce 4 Hadoop 3 Tổng quan hệ thống tập tin phân tán (DFS) (1/2) DFS là một mô hình phân lớp hệ thống tập tin được phân tán trên nhiều máy. DFS hổ trợ việc chia sẻ tập tin của các tập tin thông qua môi trường mạng. Client thao tác trên DFS giống như thao tác trên hệ thống FS (hệ thống tập tin cục bộ). Hệ thống tập tin cung cấp các dịch vụ cho client truy cập các tập tin trên server: tạo, đọc, ... tập tin. 4 Tổng quan hệ thống tập tin phân tán (DFS) (2/2) Hoạt động trên Tính trong suốt (Transparency): Đặt tên (naming): nhiều hệ điều • Trong suốt truy cập • Kết hợp tên local và host hành khác nhau. • Trong suốt vị trí • Các thư mục từ xa gắn kết vào thư • Trong suốt khả năng thực thi mục cục bộ • Trong suốt phạm vi (scaling) • Cấu trúc tên toàn cục duy nhất của • Độc lập vị trí hệ thống Stateful và stateless: Caching và caching location: • Stateful là server lưu • Vấn đề là bảo đảm tính nhất tất cả thông tin quan giữa cache và tập tin request từ client chính: tiếp cận từ client hay từ • Stateless là mỗi yêu DFS server cầu client phải cung • Ví trí cache: trên đĩa (đáng tin cấp đầy đủ thông tin cậy) hay vùng nhớ (tốc độ cho server nhanh) Nhân bản tập tin: mỗi tập tin có thể có nhiều bản sao nằm Truy cập đồng thời: việc thay đổi một ở các vị trí khác nhau tập tin không nên bị cản trở bởi hoạt • Tăng khả năng thực thi và động các client khác tính sẵn sàng. Có khả năng chịu lỗi. 5 • Tăng khả năng chịu lỗi Nội dung 1 Tổng quan hệ thống tập tin phân tán 2 Google File System 3 Map reduce 4 Hadoop 6 Nội dung 1 Tổng quan hệ thống tập tin phân tán 2 Google File System 3 3 Map reduce 4 Hadoop 7 Nội dung 1 Tổng quan hệ thống tập tin phân tán 2 Google File System 3 3 Map reduce 4 Hadoop distributed file system 8 Hadoop (1/3) Hadoop Map Reduce distributed file system • Hadoop là một dự án Apache, tất cả các thành phần tồn tại thông qua bản quyền nguồn mở của Apache. • Hadoop cung cấp một hệ thống tập tin phân tán và một framework để phân tích và sự biến đổi của tập dữ liệu rất lớn sử dụng MapReduce. • Đặc tính quan trọng của Hadoop là phân vùng dữ liệu và tính toán trên nhiều (hàng ngàn) máy chủ, và thực thi tính toán ứng dụng song song. 9 Hadoop (2/3) Tại sao chọn Hadoop? • Cần xử lý tập dữ liệu khổng lồ trên các cluster lớn của máy tính. • Tốn chi phí xây dựng tính tin cậy trong mỗi ứng dụng. • Cần kiến trúc hạ tầng chung: hiệu quả, đáng tín cậy, dễ dùng, nguồn mỡ, bản quyền apache. 10 Ai đang dùng Hadoop? HDFS – Tổng quan (1/2) HDFS là hệ thống tập tin phân tán được thiết kê để lưu trữ các tập tin rất lớn với dòng truy cập dữ liệu chạy trên các cluster của phần cứng. 12 HDFS – Tổng quan (2/2) Namespace duy nhất cho toàn cluster. Dữ liệu liên kết chặt chẻ. • Mô hình truy cập 1 ghi, nhiều đọc. Tập tin chia thành nhiều block. • Mỗi block đươc sao chép trên nhiều DataNode Client thông minh • Client có thể tìm vị trí các block • Client có thể truy cập trực tiếp dữ liệu từ DataNode 13 HDFS – Block (1/2) Tập tin được chia thành nhiều phần nhỏ, gọi là block để lưu trữ trong HDFS. Các block của cùng tập tin có thể nằm trên nhiều máy trong cluster. 14 HDFS – Block (2/2) Sắp đặt các block (block placement): • Bản sao đầu tiên nằm trên node ngẫu nhiên của rack cục bộ. • Bản sao thứ hai trên rack từ xa ngẫu nhiên. • Bản sao thứ ba nằm trên cùng rack ngẫu nhiên trên. • Các bản sao khác có thể sắp đặt ngẫu nhiên. Client sẽ đọc bản sao gần nhất. 15 HDFS – Kiến trúc (1/10) NameNode (master): • Quản lý namespace của hệ thống tập tin và các truy cập dữ liệu của client. Ánh xạ tên tập tin đến tập các block. Ánh xạ các block đến DataNode chứa nó • Quản lý cấu hình cluster. • Máy sao chép các block. ...
Nội dung trích xuất từ tài liệu:
Tiểu luận: Distributed File System Distributed File System GVHD: TS. Hồ Bảo Quốc Nhóm học viên thực hiện: • Dương Hữu Thành – 1212035 • Phạm Ngọc Vân Anh – 1212001 • Nguyễn Thanh Tòng – 1212039 LOGO 1 Nội dung 1 Tổng quan hệ thống tập tin phân tán 2 Google File System 3 Map reduce 4 Hadoop distributed file system 2.2 2 Nội dung 1 Tổng quan hệ thống tập tin phân tán 2 Google File System 3 3 Map reduce 4 Hadoop 3 Tổng quan hệ thống tập tin phân tán (DFS) (1/2) DFS là một mô hình phân lớp hệ thống tập tin được phân tán trên nhiều máy. DFS hổ trợ việc chia sẻ tập tin của các tập tin thông qua môi trường mạng. Client thao tác trên DFS giống như thao tác trên hệ thống FS (hệ thống tập tin cục bộ). Hệ thống tập tin cung cấp các dịch vụ cho client truy cập các tập tin trên server: tạo, đọc, ... tập tin. 4 Tổng quan hệ thống tập tin phân tán (DFS) (2/2) Hoạt động trên Tính trong suốt (Transparency): Đặt tên (naming): nhiều hệ điều • Trong suốt truy cập • Kết hợp tên local và host hành khác nhau. • Trong suốt vị trí • Các thư mục từ xa gắn kết vào thư • Trong suốt khả năng thực thi mục cục bộ • Trong suốt phạm vi (scaling) • Cấu trúc tên toàn cục duy nhất của • Độc lập vị trí hệ thống Stateful và stateless: Caching và caching location: • Stateful là server lưu • Vấn đề là bảo đảm tính nhất tất cả thông tin quan giữa cache và tập tin request từ client chính: tiếp cận từ client hay từ • Stateless là mỗi yêu DFS server cầu client phải cung • Ví trí cache: trên đĩa (đáng tin cấp đầy đủ thông tin cậy) hay vùng nhớ (tốc độ cho server nhanh) Nhân bản tập tin: mỗi tập tin có thể có nhiều bản sao nằm Truy cập đồng thời: việc thay đổi một ở các vị trí khác nhau tập tin không nên bị cản trở bởi hoạt • Tăng khả năng thực thi và động các client khác tính sẵn sàng. Có khả năng chịu lỗi. 5 • Tăng khả năng chịu lỗi Nội dung 1 Tổng quan hệ thống tập tin phân tán 2 Google File System 3 Map reduce 4 Hadoop 6 Nội dung 1 Tổng quan hệ thống tập tin phân tán 2 Google File System 3 3 Map reduce 4 Hadoop 7 Nội dung 1 Tổng quan hệ thống tập tin phân tán 2 Google File System 3 3 Map reduce 4 Hadoop distributed file system 8 Hadoop (1/3) Hadoop Map Reduce distributed file system • Hadoop là một dự án Apache, tất cả các thành phần tồn tại thông qua bản quyền nguồn mở của Apache. • Hadoop cung cấp một hệ thống tập tin phân tán và một framework để phân tích và sự biến đổi của tập dữ liệu rất lớn sử dụng MapReduce. • Đặc tính quan trọng của Hadoop là phân vùng dữ liệu và tính toán trên nhiều (hàng ngàn) máy chủ, và thực thi tính toán ứng dụng song song. 9 Hadoop (2/3) Tại sao chọn Hadoop? • Cần xử lý tập dữ liệu khổng lồ trên các cluster lớn của máy tính. • Tốn chi phí xây dựng tính tin cậy trong mỗi ứng dụng. • Cần kiến trúc hạ tầng chung: hiệu quả, đáng tín cậy, dễ dùng, nguồn mỡ, bản quyền apache. 10 Ai đang dùng Hadoop? HDFS – Tổng quan (1/2) HDFS là hệ thống tập tin phân tán được thiết kê để lưu trữ các tập tin rất lớn với dòng truy cập dữ liệu chạy trên các cluster của phần cứng. 12 HDFS – Tổng quan (2/2) Namespace duy nhất cho toàn cluster. Dữ liệu liên kết chặt chẻ. • Mô hình truy cập 1 ghi, nhiều đọc. Tập tin chia thành nhiều block. • Mỗi block đươc sao chép trên nhiều DataNode Client thông minh • Client có thể tìm vị trí các block • Client có thể truy cập trực tiếp dữ liệu từ DataNode 13 HDFS – Block (1/2) Tập tin được chia thành nhiều phần nhỏ, gọi là block để lưu trữ trong HDFS. Các block của cùng tập tin có thể nằm trên nhiều máy trong cluster. 14 HDFS – Block (2/2) Sắp đặt các block (block placement): • Bản sao đầu tiên nằm trên node ngẫu nhiên của rack cục bộ. • Bản sao thứ hai trên rack từ xa ngẫu nhiên. • Bản sao thứ ba nằm trên cùng rack ngẫu nhiên trên. • Các bản sao khác có thể sắp đặt ngẫu nhiên. Client sẽ đọc bản sao gần nhất. 15 HDFS – Kiến trúc (1/10) NameNode (master): • Quản lý namespace của hệ thống tập tin và các truy cập dữ liệu của client. Ánh xạ tên tập tin đến tập các block. Ánh xạ các block đến DataNode chứa nó • Quản lý cấu hình cluster. • Máy sao chép các block. ...
Tìm kiếm theo từ khóa liên quan:
Distributed File System Tiểu luận công nghệ thông tin Hệ thống tập tin phân tán Tài liệu Google File System Tổng quan tập tin phân tán Tập tin phân tánTài liệu có liên quan:
-
Mô hình xử lý dữ liệu lớn trên điện toán đám mây theo mô hình ánh xạ - rút gọn
8 trang 143 0 0 -
42 trang 83 0 0
-
22 trang 80 0 0
-
Tiểu luận: Nghiên cứu, xây dựng hạ tầng khóa công khai PKI dựa trên Openca
39 trang 52 0 0 -
Tiểu luận: Đặc tả thuật toán môn thiết kế cơ sở dữ liệu
26 trang 51 1 0 -
Tiểu luận: Công nghệ phần mềm - Quản lý nhà hàng
177 trang 45 0 0 -
Tiểu luận: Thiết kế hệ thống mạng cho một công ty (Công ty TPLTRANSER)
25 trang 42 0 0 -
Tiểu luận: Xây dựng và quảng bá website vngoingtour.com
33 trang 37 0 0 -
Báo cáo đồ án: Thiết kế cơ sở dữ liêu
11 trang 37 0 0 -
Bài tập nhóm: Thiết kế cơ sở dữ liêu
17 trang 33 0 0