Danh mục tài liệu

Bài giảng Kho dữ liệu và khai phá dữ liệu: Chương 2 - Tiền xử lý dữ liệu

Số trang: 77      Loại file: ppt      Dung lượng: 966.50 KB      Lượt xem: 13      Lượt tải: 0    
Xem trước 8 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Bài giảng Kho dữ liệu và khai phá dữ liệu: Chương 2 - Tiền xử lý dữ liệu giới thiệu tới các bạn những nội dung về dữ liệu và chuẩn bị dữ liệu; vai trò của tiền xử lý dữ liệu; làm sạch dữ liệu; tích hợp và chuyển dạng dữ liệu; rút gọn dữ liệu; rời rạc và sinh kiến trúc khái niệm.
Nội dung trích xuất từ tài liệu:
Bài giảng Kho dữ liệu và khai phá dữ liệu: Chương 2 - Tiền xử lý dữ liệu Bàigiảngmônhọc KHO DỮ LIỆU VÀ KHAI PHÁ DỮ LIỆU CHƯƠNG 2. TIỀN XỬ LÝ DỮ LIỆU Khodữliệuvàkhaiphádữliệu:Chương2November4,2015 1 Tàiliệuthamkhảo  [HK06] J. Han and M. Kamber (2006). Data Mining-Concepts and Techniques (Second Edition), Morgan Kaufmann. Chapter 2. Data Preprocessing  [NEM09] Robert Nisbet, John Elder, and Gary Miner (2009). Handbook of Statistical Analysis and Data Mining, Elsevier, 6/2009. Chapter 4. Data Understanding and Preparation; Chapter 5. Feature Selection.  [Chap05] Chapman, A. D. (2005). Principles of Data Cleaning, Report for the Global Biodiversity Information Facility, Copenhagen  [Chap05a] Chapman, A. D. (2005a). Principles and Methods of Data Cleaning – Primary Species and Species- Occurrence Data (version 1.0), Report for the Global Biodiversity Information Facility, Copenhagen  [Hai02] Đoàn An Hải (2002). Learning to Map between Structured Representations of Data, PhD Thesis, The University of Washington, ACM 2003 Award Winners and Fellows (Doctoral Dissertation Award).  [RD00] Erhard Rahm, Hong Hai Do (2000). Data Cleaning: Problems and Current Approaches, IEEE Data Eng. Bull., 23(4): 3-13 (2000)  và một số tài liệu khác Khodữliệuvàkhaiphádữliệu:Chương2November4,2015 2 Chapter2:Tiềnxửlýdữliệu  Hiểudữliệuvàchuẩnbịdữliệu  Vaitròcủatiềnxửlýdữliệu  Làmsạchdữliệu  Tíchhợpvàchuyểndạngdữliệu  Rútgọndữliệu  Rờirạcvàsinhkiếntrúckháiniệm Khodữliệuvàkhaiphádữliệu:Chương2November4,2015 3 Nhữngvấnđềcơbảnđểhiểudữ liệu  Cáchthuthậpđượcdữliệucầnthiếtđểmôhìnhhóa:  DataAcquisition  Cáchkếthợpdữliệutìmđượctừcácnguồndữliệukhácnhau  DataIntegeation.  Môtảdữliệu  DataDescription  Đánhgiáchấtlượng(độsạch)củadữliệu  DataAssessment Khodữliệuvàkhaiphádữliệu:Chương2November4,2015 4 Thuthậpdữliệu  Cách thu thập dữ liệu cần thiết để mô hình hóa Data Acquisition:  TríchchọndữliệutheocâuhỏitừCSDLtớitậptin phẳng  NgônngữhỏibậccaotruynhậptrựctiếpCSDL  KếtnốimứcthấpđểtruynhậptrựctiếpCSDL  Loại bỏ ràng buộc không gian/thời gian khi di chuyển khối lượng lớn dữ liệu  Hỗ trợ việc quản lý và bảo quản dữ liệu tập trung hóa  Rút gọn sự tăng không cần thiết của dữ liệu  Tạo điều kiện quản trị dữ liệu tốt hơn để đáp ứng mối quan tâm đúng đắn Khodữliệuvàkhaiphádữliệu:Chương2November4,2015 5 Tíchhợpdữliệu  Cáchkếthợpdữliệutìmđượctừcácnguồndữliệukhácnhau DataIntegeation. Khodữliệuvàkhaiphádữliệu:Chương2November4,2015 6 Môtảdữliệu  Giá trị kỳ vọng (mean)  Xu hướng trung tâm của tập dữ liệu  Độ lệch chuẩn (Standarddeviation)  Phânbốdữliệuxungquanhkỳvọng  Cựctiểu(Minimum)  Giátrịnhỏnhất  Cựcđại(Maximum)  Giátrịlớnnhất  Bảngtầnsuất(Frequencytables)  Phânbốtầnsuấtgiátrịcủacácbiến  Lượcđồ(Histograms)  Cungcấpkỹthuậtđồhọabiểudiễntầnsốgiátrịcủamộtbiến Khodữliệuvàkhaiphádữliệu:Chương2November4,2015 7 Mô tả dữ liệu, so sánh với phân bố chuẩn (chủ yếu trong miền [0,10]) Khodữliệuvàkhaiphádữliệu:Chương2November4,2015 8 Đánhgiávàlậphồsơdữliệu  Đánh giá dữ liệu  Định vị một vấn đề trong dữ liệu cần giải quyết: Tìm ra và quyết ...