Bài giảng Nhập môn Học máy và Khai phá dữ liệu: Chương 5 - Nguyễn Nhật Quang
Thông tin tài liệu:
Nội dung trích xuất từ tài liệu:
Bài giảng Nhập môn Học máy và Khai phá dữ liệu: Chương 5 - Nguyễn Nhật Quang Nhập môn Học máy và Khai phá dữ liệu (IT3190) Nguyễn Nhật Quang quang.nguyennhat@hust.edu.vn Trường Đại học Bách Khoa Hà Nội Viện Công nghệ thông tin và truyền thông Năm học 2020-2021 Nội dung môn học: ◼ Giới thiệu về Học máy và Khai phá dữ liệu ◼ Tiền xử lý dữ liệu ◼ Đánh giá hiệu năng của hệ thống ◼ Hồi quy ◼ Phân lớp ❑ Bài toán phân lớp ❑ Học dựa trên các láng giềng gần nhất (Nearest neighbors learning) ◼ Phân cụm ◼ Phát hiện luật kết hợp Nhập môn Học máy và Khai phá dữ liệu – Introduction to Machine learning and Data mining 2 Bài toán phân lớp ◼ Phân lớp (classification) thuộc nhóm bài toán học có giám sát (supervised learning) ◼ Mục tiêu của bài toán phân lớp là dự đoán một giá trị rời rạc (kiểu định danh) f: X → Y trong đó, Y là tập hữu hạn các giá trị rời rạc (discrete values) Nhập môn Học máy và Khai phá dữ liệu – Introduction to Machine learning and Data mining 3 Bài toán phân lớp: Đánh giá hiệu năng Identical(o( x), c( x)); 1 Accuracy = D _ test xD _ test 1, if (a = b) Identical(a, b) = 0, if otherwise •x: Một ví dụ trong tập thử nghiệm D_test •o(x): Phân lớp đưa ra bởi hệ thống đối với ví dụ x •c(x): Phân lớp thực sự (đúng) đối với ví dụ x Nhập môn Học máy và Khai phá dữ liệu – Introduction to Machine learning and Data mining 4 Ma trận nhầm lẫn (Confusion matrix) ◼ Còn được gọi là Contingency Table ◼ Chỉ được sử dụng đối với bài toán phân lớp ❑ Không thể áp dụng cho bài toán hồi quy (dự đoán) • TPi: Số lượng các ví dụ thuộc lớp ci được phân loại Được phân lớp chính xác vào lớp ci Lớp ci bởi hệ thống • FPi: Số lượng các ví dụ không thuộc lớp ci bị phân Thuộc Ko thuộc loại nhầm vào lớp ci • TNi: Số lượng các ví dụ Phân lớp Thuộc TPi FNi không thuộc lớp ci được thực sự phân loại chính xác (đúng) Ko thuộc FPi TNi • FNi: Số lượng các ví dụ thuộc lớp ci- bị phân loại nhầm (vào các lớp khác ci) Nhập môn Học máy và Khai phá dữ liệu – Introduction to Machine learning and Data mining 5 Precision and Recall (1) ◼ Rất hay được sử dụng để đánh giá các hệ thống phân lớp văn bản (document classification) ◼ Precision đối với lớp ci TPi Pr ecision(ci ) = → Tổng số các ví dụ thuộc lớp ci TPi + FPi được phân lớp chính xác chia cho tổng số các ví dụ được phân lớp vào lớp ci TPi ◼ Recall đối với lớp ci Re call(ci ) = TPi + FN i → Tổng số các ví dụ thuộc lớpci được phân lớp chính xác chia cho tổng số các ví dụ thuộc lớp ci Nhập môn Học máy và Khai phá dữ liệu – Introduction to Machine learning and Data mining 6 Precision and Recall (2) ◼ Làm thế nào để tính toán được giá trị Precision và Recall (một cách tổng thể) cho toàn bộ các lớp C={ci}? ◼ Trung bình vi mô (Micro-averaging) C C TP i TP i Pr ecision = C i =1 Re call = i =1 C (TP + FP ) i =1 i i (TP + FN ) i i i =1 ◼ Trung bình vĩ mô (Macro-averaging) C Pr ecision(c ) C i Re call(c ) i Pr ecision = i =1 Re call = i =1 C C Nhập môn Học máy và Khai phá dữ liệu – Introduction to Machine learning and Data mining 7 F1 ◼ Tiêu chí đánh giá F1 là sự kết hợp của 2 tiêu chí đánh giá Precision và Recall 2. Pr ecision.Re call 2 F1 = = Pr ecision + Re call 1 + 1 Pr ecision Re call ◼ F1 là một trung bình điều hòa (harmonic mean) của các tiêu chí Precision v ...
Tìm kiếm theo từ khóa liên quan:
Bài giảng Nhập môn Học máy và Khai phá dữ liệu Nhập môn Học máy và Khai phá dữ liệu Bài toán phân lớp Học dựa trên các láng giềng gần nhất Nearest neighbors learning Giải thuật phân lớp k-NNTài liệu có liên quan:
-
Bài giảng Nhập môn Học máy và Khai phá dữ liệu: Chương 7 - Nguyễn Nhật Quang
37 trang 103 0 0 -
Bài giảng Nhập môn Học máy và Khai phá dữ liệu: Chương 3 - Nguyễn Nhật Quang
19 trang 59 0 0 -
Bài giảng Nhập môn Học máy và Khai phá dữ liệu: Chương 9 - Nguyễn Nhật Quang
48 trang 55 0 0 -
Bài giảng Nhập môn Học máy và Khai phá dữ liệu: Chương 2 - Nguyễn Nhật Quang
31 trang 52 0 0 -
Một số bất đẳng thức về lỗi phân lớp đối với bài toán phân lớp nhị phân
4 trang 50 0 0 -
Bài giảng Nhập môn Học máy và Khai phá dữ liệu: Chương 6 - Nguyễn Nhật Quang
32 trang 48 0 0 -
Bài giảng Nhập môn Học máy và Khai phá dữ liệu: Chương 4 - Nguyễn Nhật Quang
15 trang 40 0 0 -
Bài giảng Nhập môn Học máy và Khai phá dữ liệu: Chương 11 - Nguyễn Nhật Quang
21 trang 39 0 0 -
Bài giảng Nhập môn Học máy và Khai phá dữ liệu - Chương 0: Giới thiệu môn học
12 trang 37 0 0 -
Bài giảng Nhập môn Học máy và Khai phá dữ liệu - Chương 8: Cây quyết định và rừng ngẫu nhiên
43 trang 36 0 0