Danh mục tài liệu

Bài giảng Nhập môn Học máy và Khai phá dữ liệu: Chương 5 - Nguyễn Nhật Quang

Số trang: 24      Loại file: pdf      Dung lượng: 688.86 KB      Lượt xem: 40      Lượt tải: 0    
Xem trước 3 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Bài giảng Nhập môn Học máy và Khai phá dữ liệu: Chương 5, chương này cung cấp cho học viên những nội dung về: phân lớp; bài toán phân lớp; học dựa trên các láng giềng gần nhất (Nearest neighbors learning); ma trận nhầm lẫn (Confusion matrix); giải thuật phân lớp k-NN;... Mời các bạn cùng tham khảo chi tiết nội dung bài giảng!
Nội dung trích xuất từ tài liệu:
Bài giảng Nhập môn Học máy và Khai phá dữ liệu: Chương 5 - Nguyễn Nhật Quang Nhập môn Học máy và Khai phá dữ liệu (IT3190) Nguyễn Nhật Quang quang.nguyennhat@hust.edu.vn Trường Đại học Bách Khoa Hà Nội Viện Công nghệ thông tin và truyền thông Năm học 2020-2021 Nội dung môn học: ◼ Giới thiệu về Học máy và Khai phá dữ liệu ◼ Tiền xử lý dữ liệu ◼ Đánh giá hiệu năng của hệ thống ◼ Hồi quy ◼ Phân lớp ❑ Bài toán phân lớp ❑ Học dựa trên các láng giềng gần nhất (Nearest neighbors learning) ◼ Phân cụm ◼ Phát hiện luật kết hợp Nhập môn Học máy và Khai phá dữ liệu – Introduction to Machine learning and Data mining 2 Bài toán phân lớp ◼ Phân lớp (classification) thuộc nhóm bài toán học có giám sát (supervised learning) ◼ Mục tiêu của bài toán phân lớp là dự đoán một giá trị rời rạc (kiểu định danh) f: X → Y trong đó, Y là tập hữu hạn các giá trị rời rạc (discrete values) Nhập môn Học máy và Khai phá dữ liệu – Introduction to Machine learning and Data mining 3 Bài toán phân lớp: Đánh giá hiệu năng  Identical(o( x), c( x)); 1 Accuracy = D _ test xD _ test 1, if (a = b) Identical(a, b) =  0, if otherwise •x: Một ví dụ trong tập thử nghiệm D_test •o(x): Phân lớp đưa ra bởi hệ thống đối với ví dụ x •c(x): Phân lớp thực sự (đúng) đối với ví dụ x Nhập môn Học máy và Khai phá dữ liệu – Introduction to Machine learning and Data mining 4 Ma trận nhầm lẫn (Confusion matrix) ◼ Còn được gọi là Contingency Table ◼ Chỉ được sử dụng đối với bài toán phân lớp ❑ Không thể áp dụng cho bài toán hồi quy (dự đoán) • TPi: Số lượng các ví dụ thuộc lớp ci được phân loại Được phân lớp chính xác vào lớp ci Lớp ci bởi hệ thống • FPi: Số lượng các ví dụ không thuộc lớp ci bị phân Thuộc Ko thuộc loại nhầm vào lớp ci • TNi: Số lượng các ví dụ Phân lớp Thuộc TPi FNi không thuộc lớp ci được thực sự phân loại chính xác (đúng) Ko thuộc FPi TNi • FNi: Số lượng các ví dụ thuộc lớp ci- bị phân loại nhầm (vào các lớp khác ci) Nhập môn Học máy và Khai phá dữ liệu – Introduction to Machine learning and Data mining 5 Precision and Recall (1) ◼ Rất hay được sử dụng để đánh giá các hệ thống phân lớp văn bản (document classification) ◼ Precision đối với lớp ci TPi Pr ecision(ci ) = → Tổng số các ví dụ thuộc lớp ci TPi + FPi được phân lớp chính xác chia cho tổng số các ví dụ được phân lớp vào lớp ci TPi ◼ Recall đối với lớp ci Re call(ci ) = TPi + FN i → Tổng số các ví dụ thuộc lớpci được phân lớp chính xác chia cho tổng số các ví dụ thuộc lớp ci Nhập môn Học máy và Khai phá dữ liệu – Introduction to Machine learning and Data mining 6 Precision and Recall (2) ◼ Làm thế nào để tính toán được giá trị Precision và Recall (một cách tổng thể) cho toàn bộ các lớp C={ci}? ◼ Trung bình vi mô (Micro-averaging) C C  TP i  TP i Pr ecision = C i =1 Re call = i =1 C  (TP + FP ) i =1 i i  (TP + FN ) i i i =1 ◼ Trung bình vĩ mô (Macro-averaging) C  Pr ecision(c ) C i  Re call(c ) i Pr ecision = i =1 Re call = i =1 C C Nhập môn Học máy và Khai phá dữ liệu – Introduction to Machine learning and Data mining 7 F1 ◼ Tiêu chí đánh giá F1 là sự kết hợp của 2 tiêu chí đánh giá Precision và Recall 2. Pr ecision.Re call 2 F1 = = Pr ecision + Re call 1 + 1 Pr ecision Re call ◼ F1 là một trung bình điều hòa (harmonic mean) của các tiêu chí Precision v ...