Bài giảng Kho dữ liệu và khai phá dữ liệu: Chương 2 - Tiền xử lý dữ liệu
Số trang: 77
Loại file: ppt
Dung lượng: 966.50 KB
Lượt xem: 13
Lượt tải: 0
Xem trước 8 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Bài giảng Kho dữ liệu và khai phá dữ liệu: Chương 2 - Tiền xử lý dữ liệu giới thiệu tới các bạn những nội dung về dữ liệu và chuẩn bị dữ liệu; vai trò của tiền xử lý dữ liệu; làm sạch dữ liệu; tích hợp và chuyển dạng dữ liệu; rút gọn dữ liệu; rời rạc và sinh kiến trúc khái niệm.
Nội dung trích xuất từ tài liệu:
Bài giảng Kho dữ liệu và khai phá dữ liệu: Chương 2 - Tiền xử lý dữ liệu Bàigiảngmônhọc KHO DỮ LIỆU VÀ KHAI PHÁ DỮ LIỆU CHƯƠNG 2. TIỀN XỬ LÝ DỮ LIỆU Khodữliệuvàkhaiphádữliệu:Chương2November4,2015 1 Tàiliệuthamkhảo [HK06] J. Han and M. Kamber (2006). Data Mining-Concepts and Techniques (Second Edition), Morgan Kaufmann. Chapter 2. Data Preprocessing [NEM09] Robert Nisbet, John Elder, and Gary Miner (2009). Handbook of Statistical Analysis and Data Mining, Elsevier, 6/2009. Chapter 4. Data Understanding and Preparation; Chapter 5. Feature Selection. [Chap05] Chapman, A. D. (2005). Principles of Data Cleaning, Report for the Global Biodiversity Information Facility, Copenhagen [Chap05a] Chapman, A. D. (2005a). Principles and Methods of Data Cleaning – Primary Species and Species- Occurrence Data (version 1.0), Report for the Global Biodiversity Information Facility, Copenhagen [Hai02] Đoàn An Hải (2002). Learning to Map between Structured Representations of Data, PhD Thesis, The University of Washington, ACM 2003 Award Winners and Fellows (Doctoral Dissertation Award). [RD00] Erhard Rahm, Hong Hai Do (2000). Data Cleaning: Problems and Current Approaches, IEEE Data Eng. Bull., 23(4): 3-13 (2000) và một số tài liệu khác Khodữliệuvàkhaiphádữliệu:Chương2November4,2015 2 Chapter2:Tiềnxửlýdữliệu Hiểudữliệuvàchuẩnbịdữliệu Vaitròcủatiềnxửlýdữliệu Làmsạchdữliệu Tíchhợpvàchuyểndạngdữliệu Rútgọndữliệu Rờirạcvàsinhkiếntrúckháiniệm Khodữliệuvàkhaiphádữliệu:Chương2November4,2015 3 Nhữngvấnđềcơbảnđểhiểudữ liệu Cáchthuthậpđượcdữliệucầnthiếtđểmôhìnhhóa: DataAcquisition Cáchkếthợpdữliệutìmđượctừcácnguồndữliệukhácnhau DataIntegeation. Môtảdữliệu DataDescription Đánhgiáchấtlượng(độsạch)củadữliệu DataAssessment Khodữliệuvàkhaiphádữliệu:Chương2November4,2015 4 Thuthậpdữliệu Cách thu thập dữ liệu cần thiết để mô hình hóa Data Acquisition: TríchchọndữliệutheocâuhỏitừCSDLtớitậptin phẳng NgônngữhỏibậccaotruynhậptrựctiếpCSDL KếtnốimứcthấpđểtruynhậptrựctiếpCSDL Loại bỏ ràng buộc không gian/thời gian khi di chuyển khối lượng lớn dữ liệu Hỗ trợ việc quản lý và bảo quản dữ liệu tập trung hóa Rút gọn sự tăng không cần thiết của dữ liệu Tạo điều kiện quản trị dữ liệu tốt hơn để đáp ứng mối quan tâm đúng đắn Khodữliệuvàkhaiphádữliệu:Chương2November4,2015 5 Tíchhợpdữliệu Cáchkếthợpdữliệutìmđượctừcácnguồndữliệukhácnhau DataIntegeation. Khodữliệuvàkhaiphádữliệu:Chương2November4,2015 6 Môtảdữliệu Giá trị kỳ vọng (mean) Xu hướng trung tâm của tập dữ liệu Độ lệch chuẩn (Standarddeviation) Phânbốdữliệuxungquanhkỳvọng Cựctiểu(Minimum) Giátrịnhỏnhất Cựcđại(Maximum) Giátrịlớnnhất Bảngtầnsuất(Frequencytables) Phânbốtầnsuấtgiátrịcủacácbiến Lượcđồ(Histograms) Cungcấpkỹthuậtđồhọabiểudiễntầnsốgiátrịcủamộtbiến Khodữliệuvàkhaiphádữliệu:Chương2November4,2015 7 Mô tả dữ liệu, so sánh với phân bố chuẩn (chủ yếu trong miền [0,10]) Khodữliệuvàkhaiphádữliệu:Chương2November4,2015 8 Đánhgiávàlậphồsơdữliệu Đánh giá dữ liệu Định vị một vấn đề trong dữ liệu cần giải quyết: Tìm ra và quyết ...
Nội dung trích xuất từ tài liệu:
Bài giảng Kho dữ liệu và khai phá dữ liệu: Chương 2 - Tiền xử lý dữ liệu Bàigiảngmônhọc KHO DỮ LIỆU VÀ KHAI PHÁ DỮ LIỆU CHƯƠNG 2. TIỀN XỬ LÝ DỮ LIỆU Khodữliệuvàkhaiphádữliệu:Chương2November4,2015 1 Tàiliệuthamkhảo [HK06] J. Han and M. Kamber (2006). Data Mining-Concepts and Techniques (Second Edition), Morgan Kaufmann. Chapter 2. Data Preprocessing [NEM09] Robert Nisbet, John Elder, and Gary Miner (2009). Handbook of Statistical Analysis and Data Mining, Elsevier, 6/2009. Chapter 4. Data Understanding and Preparation; Chapter 5. Feature Selection. [Chap05] Chapman, A. D. (2005). Principles of Data Cleaning, Report for the Global Biodiversity Information Facility, Copenhagen [Chap05a] Chapman, A. D. (2005a). Principles and Methods of Data Cleaning – Primary Species and Species- Occurrence Data (version 1.0), Report for the Global Biodiversity Information Facility, Copenhagen [Hai02] Đoàn An Hải (2002). Learning to Map between Structured Representations of Data, PhD Thesis, The University of Washington, ACM 2003 Award Winners and Fellows (Doctoral Dissertation Award). [RD00] Erhard Rahm, Hong Hai Do (2000). Data Cleaning: Problems and Current Approaches, IEEE Data Eng. Bull., 23(4): 3-13 (2000) và một số tài liệu khác Khodữliệuvàkhaiphádữliệu:Chương2November4,2015 2 Chapter2:Tiềnxửlýdữliệu Hiểudữliệuvàchuẩnbịdữliệu Vaitròcủatiềnxửlýdữliệu Làmsạchdữliệu Tíchhợpvàchuyểndạngdữliệu Rútgọndữliệu Rờirạcvàsinhkiếntrúckháiniệm Khodữliệuvàkhaiphádữliệu:Chương2November4,2015 3 Nhữngvấnđềcơbảnđểhiểudữ liệu Cáchthuthậpđượcdữliệucầnthiếtđểmôhìnhhóa: DataAcquisition Cáchkếthợpdữliệutìmđượctừcácnguồndữliệukhácnhau DataIntegeation. Môtảdữliệu DataDescription Đánhgiáchấtlượng(độsạch)củadữliệu DataAssessment Khodữliệuvàkhaiphádữliệu:Chương2November4,2015 4 Thuthậpdữliệu Cách thu thập dữ liệu cần thiết để mô hình hóa Data Acquisition: TríchchọndữliệutheocâuhỏitừCSDLtớitậptin phẳng NgônngữhỏibậccaotruynhậptrựctiếpCSDL KếtnốimứcthấpđểtruynhậptrựctiếpCSDL Loại bỏ ràng buộc không gian/thời gian khi di chuyển khối lượng lớn dữ liệu Hỗ trợ việc quản lý và bảo quản dữ liệu tập trung hóa Rút gọn sự tăng không cần thiết của dữ liệu Tạo điều kiện quản trị dữ liệu tốt hơn để đáp ứng mối quan tâm đúng đắn Khodữliệuvàkhaiphádữliệu:Chương2November4,2015 5 Tíchhợpdữliệu Cáchkếthợpdữliệutìmđượctừcácnguồndữliệukhácnhau DataIntegeation. Khodữliệuvàkhaiphádữliệu:Chương2November4,2015 6 Môtảdữliệu Giá trị kỳ vọng (mean) Xu hướng trung tâm của tập dữ liệu Độ lệch chuẩn (Standarddeviation) Phânbốdữliệuxungquanhkỳvọng Cựctiểu(Minimum) Giátrịnhỏnhất Cựcđại(Maximum) Giátrịlớnnhất Bảngtầnsuất(Frequencytables) Phânbốtầnsuấtgiátrịcủacácbiến Lượcđồ(Histograms) Cungcấpkỹthuậtđồhọabiểudiễntầnsốgiátrịcủamộtbiến Khodữliệuvàkhaiphádữliệu:Chương2November4,2015 7 Mô tả dữ liệu, so sánh với phân bố chuẩn (chủ yếu trong miền [0,10]) Khodữliệuvàkhaiphádữliệu:Chương2November4,2015 8 Đánhgiávàlậphồsơdữliệu Đánh giá dữ liệu Định vị một vấn đề trong dữ liệu cần giải quyết: Tìm ra và quyết ...
Tìm kiếm theo từ khóa liên quan:
Kho dữ liệu Bài giảng Kho dữ liệu Khai phá dữ liệu Tiền xử lý dữ liệu Chuẩn bị dữ liệu Vai trò của tiền xử lý dữ liệuTài liệu có liên quan:
-
Bài tập lớn môn Khai phá dữ liệu: Phân lớp dữ liệu số bằng giải thuật K-NN
22 trang 357 1 0 -
Thuật toán khai phá tập mục thường xuyên trong cơ sở dữ liệu lớn thông qua mẫu đại diện
11 trang 250 0 0 -
Ứng dụng khai phá dữ liệu nâng cao dịch vụ thư viện số
16 trang 240 0 0 -
Luận văn: Tổng quan khai phá dữ liệu và ứng dụng
55 trang 180 0 0 -
8 trang 148 0 0
-
4 trang 122 0 0
-
Bài giảng Khai phá dữ liệu: Chương 5 - TS. Võ Thị Ngọc Châu
116 trang 78 0 0 -
Bài giảng Khai phá dữ liệu (Data mining): Chương 8 - ĐH Bách khoa TP.HCM
8 trang 59 0 0 -
Bài giảng Nhập môn Học máy và Khai phá dữ liệu: Chương 2 - Nguyễn Nhật Quang
31 trang 52 0 0 -
Bài giảng Khai phá web - Bài 1: Tổng quan về khai phá web
44 trang 50 0 0