Danh mục tài liệu

Khai phá dữ liệu

Số trang: 25      Loại file: ppt      Dung lượng: 12.80 MB      Lượt xem: 26      Lượt tải: 0    
Xem trước 3 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Dữ liệu (Data): có thể xem là chuỗi các bit, là số, ký tự…mà chúng ta thu thập hàng ngày trong công việc.Thông tin (Information): là tập hợp của những dữ liệu đã được xử lý, dùng mô tả, giải thích đặc tính của một đối tượng nào đó.Tri thức (Knowledge): là tập hợp những thông tin có liên hệ với nhau, được lập luận chặt chẽ hoặc được thực nghiệm kiểm chứng quan nhiều thế hệ. Tri thức thể hiện tư duy của con người về một vấn đề....
Nội dung trích xuất từ tài liệu:
Khai phá dữ liệu Khai phá dữ liệu (Data Mining) Nguyễn Đình Thuân UIT – VNU HCM18/01/13 1 Nội dung môn học 11 Chương 1: Tổng quan về khai phá dữ liệu 2 Chương 2: Luật kết hợp 3 Chương 3: Dãy phổ biến 4 Chương 4: Phân lớp dữ liệu 5 Chương 5: Gom cụm dữ liệu 66 Giới thiệu 10 thuật toán hàng đầu của DataMining 201/18/13 www.lhu.edu.vn Thông tin về môn học Đánh giá Phương pháp đánh giá Trọng số[%] Chuyên cần, bài tập trên lớp 10% Thực hành, thí nghiệm 15% Kiểm tra giữa kỳ 15% Tiểu luận, báo cáo trên lớp 20% Thi cuối học kỳ 40% 301/18/13 www.lhu.edu.vn Tài liệu tham khảo1. Đỗ Phúc, Giáo trình + Slide Bài giảng Khai thác dữ liệu, ĐHQG TPHCM, 2005.2. Hồ Tú Bảo, Introduction to knowledge discovery and data mining, IOIT, 2001.3. Jiawei Han and Micheline Kamber, Data Mining Concepts and Techniques, University of Illinois, Morgan Kaufmann Publishers, 2006.4. X. Wu, V. Kumar, J. Ross Quinlan, ... Top 10 Algorithms in Data Mining, Chapman & Hall/CRC, Taylor & Francis Group, LLC, 2009.5. ZhaoHui Tang & Jamie MacLennan, Data Mining with SQL Server 2005, Wiley Publishing, 2005. 4 01/18/13 www.lhu.edu.vnChương 1 Tổng quan Các khái niệm cơ bảnDữ liệu (Data): có thể xem là chuỗi cácbit, là số, ký tự…mà chúng ta thu thậphàng ngày trong công việc.Thông tin (Information): là tập hợpcủa những dữ liệu đã được xử lý, dùngmô tả, giải thích đặc tính của một đốitượng nào đó.Tri thức (Knowledge): là tập hợpnhững thông tin có liên hệ với nhau,được lập luận chặt chẽ hoặc đượcthực nghiệm kiểm chứng quan nhiềuthế hệ. Tri thức thể hiện tư duy củacon người về một vấn đề. 501/18/13 www.lhu.edu.vn Các khái niệm cơ bảnKhám phá tri thức từ cơ sở dữ liệu: (Knowledge Discovery in Databases – KDD) – “KDD is the automatic extraction of non-obvious, hidden knowledge from large volumes of data.” Fayyad, Platetsky-Shapiro, Smyth (1996) – “Khám phá tri thức từ cơ sở dữ liệu là quy trình bao gồm nhiều công đoạn như: xác định vấn đề, tập hợp và chọn lọc dữ liệu, khai thác dữ liệu, đánh giá kết quả, giải thích dữ liệu, áp dụng tri thức vào thực t ế – http://www.kdnuggets.com/ 601/18/13 www.lhu.edu.vn Tại sao phải khai phá dữ liệu ?John Naisbitt (www.naisbitt.com/) in 1982:“We are drowning in data, but starving for knowlegde”.Dữ liệu được thu thập hàng ngày là rất lớn – Các CSDL khổng lồ – Dữ liệu từ InternetTheo các báo cáo của IBM, chỉ có 80% dữ liệu được khai thác, 20% còn lại ẩn trong các Database là những tri thức quý giá 701/18/13 www.lhu.edu.vn Khai phá dữ liệu là gì?Khai phá dữ liệu (Datamining) là một bước trong quy trình khám phá tri thức, nhằm: – Rút trích thông tin hữu ích, chưa biết, tiềm ẩn trong khối dữ liệu lớn – Phân tích dữ liệu bán tự động – Giải thích dữ liệu trên các tập dữ liệu lớn . 801/18/13 www.lhu.edu.vn Lợi ích của khai phá dữ liệuGiátrị EDP MISSốlượng DSS EDP:ElectronicDataProcessing MIS:ManagementInformationSystems 01/18/13 DSS:DecisionSupportSystems www.lhu.edu.vn 9 Khai phá dữ liệu là gì ?Thuật ngữ: – Khai phá dữ liệu - Data mining • KPDL là một buớc của tiến trình KDD – Knowledge discovery in databases (KDD) • Thuật ngữ tổng quát gồm các buớc như tiền xử lý, KPDL, hậu xử lý . ...