Bài giảng Khai phá dữ liệu web (PGS.TS. Hà Quang Thụy) - Chương 5. Phân lớp
Số trang: 63
Loại file: ppt
Dung lượng: 1.47 MB
Lượt xem: 34
Lượt tải: 0
Xem trước 7 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Giới thiệu về phân lớp, phân lớp học giám sát, phân lớp học giám sát đến với chương này các bạn có thể nắm rõ các vấn đề mắc thắc cần giải quyết, một số bài tập ví dụ giúp các bạn thành thạo hơn với nội dung chương này. Mời các bạn tham khảo nhé!
Nội dung trích xuất từ tài liệu:
Bài giảng Khai phá dữ liệu web (PGS.TS. Hà Quang Thụy) - Chương 5. Phân lớp BÀI GIẢNG NHẬP MÔN KHAI PHÁ DỮ LIỆU CHƯƠNG 5. PHÂN LỚP PGS. TS. HÀ QUANG THỤY HÀ NỘI 9-2011 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI 1 Nội dung Giới thiệu phân lớp Phân lớp học giám sát Phân lớp học bán giám sát 2 Bài toán phân lớp Đầu vào Tập dữ liệu D = {di} Tập các lớp C1, C2, …, Ck mỗi dữ liệu d thuộc một lớp Ci Tập ví dụ Dexam = D1+D2+ …+ Dk với Di={d∈Dexam: d thuộc Ci} Tập ví dụ Dexam đại diện cho tập D Đầu ra Mô hình phân lớp: ánh xạ từ D sang C Sử dụng mô hình d ∈ D \ Dexam : xác định lớp của đối tượng d 3 Phân lớp: Quá trình hai pha Xây dựng mô hình: Tìm mô tả cho tập lớp đã có Cho trước tập lớp C = {C1, C2, …, Ck} Cho ánh xạ (chưa biết) từ miền D sang tập lớp C Có tập ví dụ Dexam=D1+D2+ …+ Dk với Di={d∈Dexam: d∈Ci} Dexam được gọi là tập ví dụ mẫu. Xây dựng ánh xạ (mô hình) phân lớp trên: Dạy bộ phân lớp. Mô hình: Luật phân lớp, cây quyết định, công thức toán h ọc… Pha 1: Dạy bộ phân lớp Tách Dexam thành Dtrain (2/3) + Dtest (1/3). Dtrain và Dtest “tính đại diện” cho miền ứng dụng Dtrain : xây dựng mô hình phân lớp (xác định tham số mô hình) Dtest : đánh giá mô hình phân lớp (các độ đo hiệu quả) Chọn mô hình có chất lượng nhất Pha 2: Sử dụng bộ phân lớp 4 d ∈ D \ Dexam : xác định lớp của d. Ví dụ phân lớp: Bài toán cho vay Tid Refund Marital Status Taxable Income Cheat 1 No Single 75K No 2 Yes Married 50K No 3 No Single 75K No 4 No Married 150K Yes 5 No Single 40K No 6 No Married 80K Yes 7 No Single 75K No 8 Yes Married 50K No 9 Yes Married 50K No 10 No Married 150K Yes 11 No Single 40K No 12 No Married 150K Yes 13 No Married 80K Yes 14 No Single 40K No 15 No Married 80K Yes B 5 Phân lớp: Quá trình hai pha 6 Phân lớp: Quá trình hai pha Learning Attrib1 Attrib2 Attrib3 Class Tid No algorithm 1 Yes Large 125K No 2 No Medium 100K No 3 No Small 70K No Induction 4 Yes Medium 120K Yes 5 No Large 95K No 6 No Medium 60K Learn No 7 Yes Large 220K Model Yes 8 No Small 85K No 9 No Medium 75K Yes 10 No Small 90K Model 10 Training Set Apply Model Attrib1 Attrib2 Attrib3 Class Tid ? 11 No Small 55K ? 12 Yes Medium 80K Deduction ? 13 Yes Large 110K ? 14 No Small 95K ? 15 No Large 67K 10 Test Set 7 Các loại phân lớp lớp nhị phân/ đa lớp: Phân |C|=2: phân lớp nhị phân. |C|>2: phân lớp đa lớp. lớp đơn nhãn/ đa nhãn: Phân Đơn nhãn: mỗi tài liệu được gán vào chính xác một lớp. Đa nhãn: một tài liệu có thể được gán nhiều hơn một lớp. Phân cấp: lớp này là cha/con của lớp kia 8 Các vấn đề đánh giá mô hình Các phương pháp đánh giá hiệu quả – Câu hỏi: Làm thế nào để đánh giá được hiệu quả của một mô hình? Độ đo để đánh g ...
Nội dung trích xuất từ tài liệu:
Bài giảng Khai phá dữ liệu web (PGS.TS. Hà Quang Thụy) - Chương 5. Phân lớp BÀI GIẢNG NHẬP MÔN KHAI PHÁ DỮ LIỆU CHƯƠNG 5. PHÂN LỚP PGS. TS. HÀ QUANG THỤY HÀ NỘI 9-2011 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI 1 Nội dung Giới thiệu phân lớp Phân lớp học giám sát Phân lớp học bán giám sát 2 Bài toán phân lớp Đầu vào Tập dữ liệu D = {di} Tập các lớp C1, C2, …, Ck mỗi dữ liệu d thuộc một lớp Ci Tập ví dụ Dexam = D1+D2+ …+ Dk với Di={d∈Dexam: d thuộc Ci} Tập ví dụ Dexam đại diện cho tập D Đầu ra Mô hình phân lớp: ánh xạ từ D sang C Sử dụng mô hình d ∈ D \ Dexam : xác định lớp của đối tượng d 3 Phân lớp: Quá trình hai pha Xây dựng mô hình: Tìm mô tả cho tập lớp đã có Cho trước tập lớp C = {C1, C2, …, Ck} Cho ánh xạ (chưa biết) từ miền D sang tập lớp C Có tập ví dụ Dexam=D1+D2+ …+ Dk với Di={d∈Dexam: d∈Ci} Dexam được gọi là tập ví dụ mẫu. Xây dựng ánh xạ (mô hình) phân lớp trên: Dạy bộ phân lớp. Mô hình: Luật phân lớp, cây quyết định, công thức toán h ọc… Pha 1: Dạy bộ phân lớp Tách Dexam thành Dtrain (2/3) + Dtest (1/3). Dtrain và Dtest “tính đại diện” cho miền ứng dụng Dtrain : xây dựng mô hình phân lớp (xác định tham số mô hình) Dtest : đánh giá mô hình phân lớp (các độ đo hiệu quả) Chọn mô hình có chất lượng nhất Pha 2: Sử dụng bộ phân lớp 4 d ∈ D \ Dexam : xác định lớp của d. Ví dụ phân lớp: Bài toán cho vay Tid Refund Marital Status Taxable Income Cheat 1 No Single 75K No 2 Yes Married 50K No 3 No Single 75K No 4 No Married 150K Yes 5 No Single 40K No 6 No Married 80K Yes 7 No Single 75K No 8 Yes Married 50K No 9 Yes Married 50K No 10 No Married 150K Yes 11 No Single 40K No 12 No Married 150K Yes 13 No Married 80K Yes 14 No Single 40K No 15 No Married 80K Yes B 5 Phân lớp: Quá trình hai pha 6 Phân lớp: Quá trình hai pha Learning Attrib1 Attrib2 Attrib3 Class Tid No algorithm 1 Yes Large 125K No 2 No Medium 100K No 3 No Small 70K No Induction 4 Yes Medium 120K Yes 5 No Large 95K No 6 No Medium 60K Learn No 7 Yes Large 220K Model Yes 8 No Small 85K No 9 No Medium 75K Yes 10 No Small 90K Model 10 Training Set Apply Model Attrib1 Attrib2 Attrib3 Class Tid ? 11 No Small 55K ? 12 Yes Medium 80K Deduction ? 13 Yes Large 110K ? 14 No Small 95K ? 15 No Large 67K 10 Test Set 7 Các loại phân lớp lớp nhị phân/ đa lớp: Phân |C|=2: phân lớp nhị phân. |C|>2: phân lớp đa lớp. lớp đơn nhãn/ đa nhãn: Phân Đơn nhãn: mỗi tài liệu được gán vào chính xác một lớp. Đa nhãn: một tài liệu có thể được gán nhiều hơn một lớp. Phân cấp: lớp này là cha/con của lớp kia 8 Các vấn đề đánh giá mô hình Các phương pháp đánh giá hiệu quả – Câu hỏi: Làm thế nào để đánh giá được hiệu quả của một mô hình? Độ đo để đánh g ...
Tìm kiếm theo từ khóa liên quan:
quản trị thông tin phân lớp nhị phân phân lớp đa lớp kỹ thuật phân lớp phương pháp cây quyết định phương pháp mạng nơronTài liệu có liên quan:
-
Kỹ thuật phân lớp để giải mã hiệu quả mã LDPC trong hệ thống thông tin di động 5G
13 trang 318 0 0 -
Một số dạng bài tập Quản lý dự án
7 trang 204 0 0 -
Trắc nghiệm và đáp án hệ cơ sở dữ liệu - ĐH Công Nghiệp Tp. Hồ Chí Minh
63 trang 126 0 0 -
150 trang 79 0 0
-
54 trang 65 0 0
-
Bài giảng môn học Quản trị văn phòng: Chương 2 - TS. Nguyễn Nam Hà
98 trang 54 0 0 -
132 trang 39 0 0
-
10 trang 35 0 0
-
Nhập môn Cơ sở Dữ liệu - Phần 5
51 trang 34 0 0 -
Dò tìm bất thường thiết bị định tuyến bằng kĩ thuật phân lớp
10 trang 34 0 0