Khai Phá Dữ Liệu-Phát hiện các luật kết hợp
Số trang: 47
Loại file: pdf
Dung lượng: 547.29 KB
Lượt xem: 26
Lượt tải: 0
Xem trước 5 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Với một tập các giao dịch transactions) cho trước, cần ộ ập g ị ( ) , n tìm các
luật dự đoán khả năng xuất hiện trong một giao dịch của các mục
(items) này dựa trên việc xuất hiện của các mục khác
Nội dung trích xuất từ tài liệu:
Khai Phá Dữ Liệu-Phát hiện các luật kết hợp Khai Phá Dữ Liệu Nguyễn Nhật Quang quangnn-fit@mail.hut.edu.vn Viện Công nghệ Thông tin và Truyền thông Trường Đại học Bách Khoa Hà Nội Năm học 2010-2011 Nội dung môn học: Giới thiệu về Khai phá dữ liệu Giới thiệu về công cụ WEKA Tiền xử lý dữ liệu Phát hiện các luật kết hợp Các kỹ thuật phân lớp và dự đoán thu phân và Các kỹ thuật phân nhóm Khai Phá Dữ Liệu 2 Phát hiện các luật kết hợp – Giới thiệu Bài toán phát hiện luật kết hợp (Association rule mining) Với một tập các giao dịch (transactions) cho trước, cần tìm các luật dự đoán khả năng xuất hiện trong một giao dịch của các mục (items) này dựa trên việc xuất hiện của các mục khác Các ví dụ của luật kết hợp: TID Items 1 Bread, Milk {Diaper} → {Beer} 2 Bread, Diaper, Beer, Eggs {Milk, Bread} → {Eggs, Coke} 3 Milk, Diaper, Beer, Coke {Beer, Bread} → {Milk} 4 Bread, Milk, Diaper Beer Bread, Milk, Diaper, Beer 5 Bread, Milk, Diaper, Coke Khai Phá Dữ Liệu 3 Các định nghĩa cơ bản (1) Tập mục (Itemset) Một tập hợp gồm một hoặc nhiều mục Ví dụ: {Milk, Bread, Diaper} TID Items Tập mục mức k (k-itemset) 1 Bread, Milk Một tập mục gồm k mục 2 Bread Diaper Beer Eggs Bread, Diaper, Beer, Eggs Tổng số hỗ trợ (Support count) σ (S 3 Milk, Diaper, Beer, Coke Số lần xuất hiện của một tập mục 4 Bread, Milk, Diaper, Beer Ví dụ: σ({Milk, Bread, Diaper}) = 2 5 Bread Milk Diaper Coke Bread, Milk, Diaper, Coke Độ hỗ trợ (Support) s Tỷ lệ các giao dịch chứa một tập mục Ví dụ: s({Milk, Bread, Diaper}) = 2/5 Tập mục thường xuyên (Frequent/large itemset) Một tập mục mà độ hỗ trợ lớn hơn hoặc bằng một giá trị ngưỡng minsup Khai Phá Dữ Liệu 4 Các định nghĩa cơ bản (2) Luật kết hợp (Association TID Items rule) 1 Bread, Milk Một biểu thức kéo theo có 2 Bread, Diaper, Beer, Eggs dạng: X → Y, trong đó X và Y 3 Milk, Diaper, Beer, Coke là các tập mục 4 Bread, Milk, Diaper, Beer Ví dụ: {Milk, Diaper} → {Beer} {Milk Diaper} 5 Bread, Milk, Diaper, Coke Các độ đo đánh giá luật Độ hỗ trợ (Support) s {Milk , Diaper} → Beer Tỷ lệ các giao dịch chứa cả X và Y đối với tất cả các σ ( Milk , Diaper, Beer ) 2 s= = = 0 .4 giao dịch |T| 5 Độ tin cậy (Confidence) c σ (Milk, Diaper, Beer) 2 Tỷ lệ các giao dịch chứa cả c= = = 0.67 X và Y đối với các giao dịch σ (Milk, Diaper) 3 chứa X ch Khai Phá Dữ Liệu 5 Phát hiện các luật kết hợp Với một tập các giao dịch T, mục đích của bài toán phát hiện luật kết hợp là tìm ra tất cả các luật có: hi lu là tìm ra các lu có: độ hỗ trợ ≥ giá trị ngưỡng minsup, và độ tin cậy ≥ giá trị ngưỡng minconf Cách tiếp cận vét cạn (Brute-force) Liệt kê tất cả các luật kết hợp có thể Tính toán độ hỗ trợ và độ tin cậy cho mỗi luật độ độ ti Tí Loại bỏ đi các luật có độ hỗ trợ nhỏ hơn minsup hoặc có độ tin cậy nhỏ hơn minconf ⇒ Phương pháp vét cạn này có chi phí tính toán quá lớn, không áp dụng được trong thực tế! Khai Phá Dữ Liệu 6 Phát hiện luật kết hợp Các luật kết hợp: TID Items 1 Bread, Milk {Milk, Diaper} → {Beer} (s=0.4, c=0.67) {Milk, Beer} → {Diaper} 2 Bread, Diaper, Beer, Eggs Di (s=0.4, c=1.0) {Diaper, Beer} → {Milk} (s=0.4, c=0.67) 3 Milk, Diaper, Beer, Coke {Beer} → {Milk, Diaper} (s=0.4, c=0.67) 4 Bread, Milk, Diaper, Beer {Diaper} → {Milk, Beer} Beer} (s=0.4, c=0.5) (s 5 Bread, Milk, Diaper, Coke {Milk} → {Diaper, Beer} (s=0.4, c=0.5) Tất cả các luật trên đều là sự phân tách (thành 2 tập con) của cùng tập mục : {Milk, Diaper, Beer} Các luật sinh ra từ cùng một tập múc sẽ có cùng độ hỗ trợ, nhưng có thể khác về độ ti ...
Nội dung trích xuất từ tài liệu:
Khai Phá Dữ Liệu-Phát hiện các luật kết hợp Khai Phá Dữ Liệu Nguyễn Nhật Quang quangnn-fit@mail.hut.edu.vn Viện Công nghệ Thông tin và Truyền thông Trường Đại học Bách Khoa Hà Nội Năm học 2010-2011 Nội dung môn học: Giới thiệu về Khai phá dữ liệu Giới thiệu về công cụ WEKA Tiền xử lý dữ liệu Phát hiện các luật kết hợp Các kỹ thuật phân lớp và dự đoán thu phân và Các kỹ thuật phân nhóm Khai Phá Dữ Liệu 2 Phát hiện các luật kết hợp – Giới thiệu Bài toán phát hiện luật kết hợp (Association rule mining) Với một tập các giao dịch (transactions) cho trước, cần tìm các luật dự đoán khả năng xuất hiện trong một giao dịch của các mục (items) này dựa trên việc xuất hiện của các mục khác Các ví dụ của luật kết hợp: TID Items 1 Bread, Milk {Diaper} → {Beer} 2 Bread, Diaper, Beer, Eggs {Milk, Bread} → {Eggs, Coke} 3 Milk, Diaper, Beer, Coke {Beer, Bread} → {Milk} 4 Bread, Milk, Diaper Beer Bread, Milk, Diaper, Beer 5 Bread, Milk, Diaper, Coke Khai Phá Dữ Liệu 3 Các định nghĩa cơ bản (1) Tập mục (Itemset) Một tập hợp gồm một hoặc nhiều mục Ví dụ: {Milk, Bread, Diaper} TID Items Tập mục mức k (k-itemset) 1 Bread, Milk Một tập mục gồm k mục 2 Bread Diaper Beer Eggs Bread, Diaper, Beer, Eggs Tổng số hỗ trợ (Support count) σ (S 3 Milk, Diaper, Beer, Coke Số lần xuất hiện của một tập mục 4 Bread, Milk, Diaper, Beer Ví dụ: σ({Milk, Bread, Diaper}) = 2 5 Bread Milk Diaper Coke Bread, Milk, Diaper, Coke Độ hỗ trợ (Support) s Tỷ lệ các giao dịch chứa một tập mục Ví dụ: s({Milk, Bread, Diaper}) = 2/5 Tập mục thường xuyên (Frequent/large itemset) Một tập mục mà độ hỗ trợ lớn hơn hoặc bằng một giá trị ngưỡng minsup Khai Phá Dữ Liệu 4 Các định nghĩa cơ bản (2) Luật kết hợp (Association TID Items rule) 1 Bread, Milk Một biểu thức kéo theo có 2 Bread, Diaper, Beer, Eggs dạng: X → Y, trong đó X và Y 3 Milk, Diaper, Beer, Coke là các tập mục 4 Bread, Milk, Diaper, Beer Ví dụ: {Milk, Diaper} → {Beer} {Milk Diaper} 5 Bread, Milk, Diaper, Coke Các độ đo đánh giá luật Độ hỗ trợ (Support) s {Milk , Diaper} → Beer Tỷ lệ các giao dịch chứa cả X và Y đối với tất cả các σ ( Milk , Diaper, Beer ) 2 s= = = 0 .4 giao dịch |T| 5 Độ tin cậy (Confidence) c σ (Milk, Diaper, Beer) 2 Tỷ lệ các giao dịch chứa cả c= = = 0.67 X và Y đối với các giao dịch σ (Milk, Diaper) 3 chứa X ch Khai Phá Dữ Liệu 5 Phát hiện các luật kết hợp Với một tập các giao dịch T, mục đích của bài toán phát hiện luật kết hợp là tìm ra tất cả các luật có: hi lu là tìm ra các lu có: độ hỗ trợ ≥ giá trị ngưỡng minsup, và độ tin cậy ≥ giá trị ngưỡng minconf Cách tiếp cận vét cạn (Brute-force) Liệt kê tất cả các luật kết hợp có thể Tính toán độ hỗ trợ và độ tin cậy cho mỗi luật độ độ ti Tí Loại bỏ đi các luật có độ hỗ trợ nhỏ hơn minsup hoặc có độ tin cậy nhỏ hơn minconf ⇒ Phương pháp vét cạn này có chi phí tính toán quá lớn, không áp dụng được trong thực tế! Khai Phá Dữ Liệu 6 Phát hiện luật kết hợp Các luật kết hợp: TID Items 1 Bread, Milk {Milk, Diaper} → {Beer} (s=0.4, c=0.67) {Milk, Beer} → {Diaper} 2 Bread, Diaper, Beer, Eggs Di (s=0.4, c=1.0) {Diaper, Beer} → {Milk} (s=0.4, c=0.67) 3 Milk, Diaper, Beer, Coke {Beer} → {Milk, Diaper} (s=0.4, c=0.67) 4 Bread, Milk, Diaper, Beer {Diaper} → {Milk, Beer} Beer} (s=0.4, c=0.5) (s 5 Bread, Milk, Diaper, Coke {Milk} → {Diaper, Beer} (s=0.4, c=0.5) Tất cả các luật trên đều là sự phân tách (thành 2 tập con) của cùng tập mục : {Milk, Diaper, Beer} Các luật sinh ra từ cùng một tập múc sẽ có cùng độ hỗ trợ, nhưng có thể khác về độ ti ...
Tìm kiếm theo từ khóa liên quan:
khai phá dữ liệu luật kết hợp song song bài toán khai phá dữ liệu ứng dụng khai phá dữ liệu luật kết hợp khai phá luật kết hợpTài liệu có liên quan:
-
Bài tập lớn môn Khai phá dữ liệu: Phân lớp dữ liệu số bằng giải thuật K-NN
22 trang 357 1 0 -
Thuật toán khai phá tập mục thường xuyên trong cơ sở dữ liệu lớn thông qua mẫu đại diện
11 trang 250 0 0 -
Ứng dụng khai phá dữ liệu nâng cao dịch vụ thư viện số
16 trang 240 0 0 -
Luận văn: Tổng quan khai phá dữ liệu và ứng dụng
55 trang 180 0 0 -
8 trang 148 0 0
-
4 trang 122 0 0
-
Bài giảng Khai phá dữ liệu: Chương 5 - TS. Võ Thị Ngọc Châu
116 trang 78 0 0 -
Bài giảng Khai phá dữ liệu (Data mining): Chương 8 - ĐH Bách khoa TP.HCM
8 trang 59 0 0 -
Thuật toán TANE và ứng dụng trong bài toán khai phá dữ liệu
6 trang 52 0 0 -
Bài giảng Khai phá web - Bài 1: Tổng quan về khai phá web
44 trang 50 0 0