Danh mục tài liệu

Bài giảng Khai phá dữ liệu - Chương 1: Tổng quan về khai phá dữ liệu

Số trang: 61      Loại file: pdf      Dung lượng: 2.88 MB      Lượt xem: 15      Lượt tải: 0    
Xem trước 7 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Bài giảng "Khai phá dữ liệu - Chương 1: Tổng quan về khai phá dữ liệu" cung cấp cho người học các kiến thức: Tình huống, quá trình khám phá tri thức, các khái niệm, ý nghĩa và vai trò của khai phá dữ liệu, ứng dụng của khai phá dữ liệu. Mời các bạn cùng tham khảo nội dung chi tiết.
Nội dung trích xuất từ tài liệu:
Bài giảng Khai phá dữ liệu - Chương 1: Tổng quan về khai phá dữ liệu Chương 1: Tổng quan về khai phá dữ liệu Khai phá dữ liệu (Data mining) 1 Nội dung  1.0. Tình huống  1.1. Quá trình khám phá tri thức  1.2. Các khái niệm  1.3. Ý nghĩa và vai trò của khai phá dữ liệu  1.4. Ứng dụng của khai phá dữ liệu  1.5. Tóm tắt 2 1.0. Tình huống 1 Người đang sử dụng thẻ ID = 1234 thật sự là chủ nhân của thẻ hay là một tên trộm? 3 1.0. Tình huống 2 Marital Taxable Tid Refund Evade Status Income 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No Ông A (Tid = 100) 5 No Divorced 95K Yes có khả năng trốn 6 No Married 60K No thuế??? 7 Yes Divorced 220K No 8 No Single 85K Yes 9 No Married 75K No 10 No Single 90K Yes 10 4 1.0. Tình huống 3 Ngày mai cổ phiếu STB sẽ tăng??? 5 1.0. Tình huống 4 Khóa MãSV MônHọc1 MônHọc2 … TốtNghiệp 2004 1 9.0 8.5 … Có 2004 2 6.5 8.0 … Có 2004 3 4.0 2.5 … Không 2004 8 5.5 3.5 … Không 2004 14 5.0 5.5 … Có … … … … … … 2005 90 7.0 6.0 … Có (80%) 2006 24 9.5 7.5 … Có (90%) 2007 82 5.5 4.5 … Không (45%) 2008 47 2.0 3.0 … Không (97%) … … … … … … Làm sao xác định được khả năng tốt nghiệp của một sinh viên hiện tại? 6 1.0. Tình huống … We are data rich, but information poor. “Necessity is the mother of invention”. - Plato 7 1.1. Quá trình khám phá tri thức Pattern Evaluation/ Presentation Data Mining Patterns Task-relevant Data Data Warehouse Selection/Transformation Data Cleaning Data Integration Data Sources 8 1.1. Quá trình khám phá tri thức  “Knowledge discovery from databases is the process of using the database along with any required selection, preprocessing, sub-sampling, and transformations of it; to apply data mining methods (algorithms) to enumerate patterns from it; and to evaluate the products of data mining to identify the subset of the enumerated patterns deemed knowledge.”  Fayyad, U.M et al. (1996). Advances in Knowledge Discovery and Data Mining. MIT Press. 9 1.1. Quá trình khám phá tri thức  Quá trình khám phá tri thức là một chuỗi lặp gồm các bước:  Data cleaning (làm sạch dữ liệu)  Data integration (tích hợp dữ liệu)  Data selection (chọn lựa dữ liệu)  Data transformation (biến đổi dữ liệu)  Data mining (khai phá dữ liệu)  Pattern evaluation (đánh giá mẫu)  Knowledge presentation (biểu diễn tri thức) 10 1.1. Quá trình khám phá tri thức  Quá trình khám phá tri thức là một chuỗi lặp gồm các bước được thực thi với:  Data sources (các nguồn dữ liệu)  Data warehouse (kho dữ liệu)  Task-relevant data (dữ liệu cụ thể sẽ được khai phá)  Patterns (mẫu kết quả từ khai phá dữ liệu)  Knowledge (tri thức đạt được) 11 1.1. Quá trình khám phá tri thức Increasing potential to support business decisions End User Making Decisions Data Presentation Business Analyst Visualization Techniques Data Mining Data Information Discovery Analyst Data Exploration Statistical Analysis, Querying and Reporting Data Warehouses / Data Marts OLAP, MDA DBA Data Sources Paper, Files, Information Providers, Database Systems, OLTP 12 1.2. Các khái niệm  1.2.1. Khai phá dữ liệu (data mining)  1.2.2. Các tác vụ khai phá dữ liệu (data mining tasks/functions)  1.2.3. Các quy trình khai phá dữ liệu (data mining processes)  1.2.4. Các hệ thống khai phá dữ liệu (data mining systems) 13 1.2.1. Khai phá dữ liệu  Khai phá dữ liệu  một quá trình trích xuất tri thức từ lượng lớn dữ liệu  “extracting or mining knowledge from large amounts of data”  “knowledge mining from data”  một quá trình không dễ trích ...