Danh mục tài liệu

Bài giảng Khai phá dữ liệu: Chương 1 - Phan Mạnh Thường

Số trang: 18      Loại file: pdf      Dung lượng: 1.67 MB      Lượt xem: 22      Lượt tải: 0    
Xem trước 2 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Bài giảng Khai phá dữ liệu: Chương 1 Tổng quan về khai phá dữ liệu trình bày về những kiến thức các khái niệm cơ bản về khai phá dữ liệu, các giai đoạn khai phá tri thức, ứng dụng của khai phá dữ liệu và các kỹ thuật khai phá.
Nội dung trích xuất từ tài liệu:
Bài giảng Khai phá dữ liệu: Chương 1 - Phan Mạnh Thường Khai phá dữ liệu (Datamining) Phan Mạnh Thường LOGO12/07/2014 Thông tin về môn học Thời lượng • Số tiết lý thuyết : 45 • Số tiết thực hành : 30 Điều kiện • Nắm vững kiến thức cơ sở dữ liệu • SQL Server và ngôn ngữ T-SQL • Lập trình Visual.NET Mục tiêu Cung cấp các kiến thức về • Các phương pháp khai phá dữ liệu • Nhà kho dữ liệu7/12/2014 www.lhu.edu.vn Thông tin về môn học Tài liệu tham khảo1. Đỗ Phúc, Giáo trình Khai thác dữ liệu, ĐHQG TPHCM, 20052. Hồ Tú Bảo, Introduction to knowledge discovery and data mining, IOIT, 2001.3. Morgan Kaufman, Data Mining: Concepts and Techniques, Morgan Kaufmann Publishers, 20024. Jiawei Han and Micheline Kamber, Data Mining Concepts and Techniques, University of Illinois, Morgan Kaufmann Publishers, 20025. John Wang, Data mining: opportunities and challenges, Idea Group, 20036. ZhaoHui Tang & Jamie MacLennan, Data Mining with SQL Server 2005, Wiley Publishing, 20057/12/2014 www.lhu.edu.vn Nội dung môn học Chương 1: Tổng quan về khai phá dữ liệu 2 Chương 2: Luật kết hợp 3 Chương 3: Phân lớp dữ liệu 4 Chương 4: Chuỗi phổ biến 5 Chương 5: Gom cụm dữ liệu 5 Chương 6: Nhà kho dữ liệu7/12/2014 www.lhu.edu.vn Thông tin về môn học Đánh giá Gồm 3 cột điểm: • Điểm chuyên cần (10%): điểm danh buổi học (Lưu ý: nghỉ quá 30% số tiết bị cấm thi) • Điểm kiểm tra (30%): bài tập, seminar • Điểm thi (60%): làm bài thi trên máy7/12/2014 www.lhu.edu.vn Chương 1 Tổng quan Nội dung1 Các khái niệm cơ bản2 Các giai đoạn khai phá tri thức3 Ứng dụng của khai phá dữ liệu4 Các kỹ thuật khai phá Chương 1 Tổng quan Các khái niệm cơ bản Dữ liệu (Data): có thể xem là chuỗi các bit, là số, ký tự…mà chúng ta tập hợp hàng ngày trong công việc Thông tin (Information): là tập hợp của những mảnh dữ liệu đã được chắt lọc dùng mô tả, giải thích đặc tính của một đối tượng nào đó Tri thức (Knowledge): là tập hợp những thông tin có liên hệ với nhau, có thể xem tri thức là sự kết tinh từ dữ liệu. Tri thức thể hiện tư duy của con người về một vấn đề7/12/2014 www.lhu.edu.vn Chương 1 Tổng quan Các khái niệm cơ bản Khám phá tri thức từ cơ sở dữ liệu: (Knowledge Discovery in Databases – KDD)  “KDD is the automatic extraction of non-obvious, hidden knowledge from large volumes of data.” Fayyad, Platetsky-Shapiro, Smyth (1996)  “Khám phá tri thức từ cơ sở dữ liệu là quy trình bao gồm nhiều công đoạn như: xác định vấn đề, tập hợp và chọn lọc dữ liệu, khai thác dữ liệu, đánh giá kết quả, giải thích dữ liệu, áp dụng tri thức vào thực tế  http://www.kdnuggets.com/7/12/2014 www.lhu.edu.vn Chương 1 Tổng quan Tại sao phải khai phá dữ liệu ? Nhà bác học nổi tiếng Karan Sing đã từng nói rằng “Chúng ta đang ngập chìm trong biển thông tin nhưng lại đang khát tri thức”. Dữ liệu được thu thập hàng ngày là rất lớn  Các CSDL khổng lồ  Dữ liệu từ Internet Theo các báo cáo của IBM, chỉ có 80% dữ liệu được khai thác, 20% còn lại ẩn trong các Database là những tri thức quý giá7/12/2014 www.lhu.edu.vn Chương 1 Tổng quan Khai phá dữ liệu là gì? Khai phá dữ liệu (Datamining) là một bước trong quy trình khám phá tri thức, nhằm:  Rút trích thông tin hữu ích, chưa biết, tiềm ẩn trong khối dữ liệu lớn  Phân tích dữ liệu bán tự động  Giải thích dữ liệu trên các tập dữ liệu lớn .7/12/2014 www.lhu.edu.vn Chương 1 Tổng quan Lợi ích của khai phá dữ liệuGiá trị EDP MISSố lượng DSS EDP: Electronic Data Processing MIS: Management Information Systems 7/12/2014 DSS: Decision Support Systems www.lhu.edu.vn ...