Bài giảng Nhập môn Học máy và Khai phá dữ liệu: Chương 5 - Nguyễn Nhật Quang

Số trang: 24 Loại file: pdf Dung lượng: 688.86 KB Lượt xem: 40 Lượt tải: 0

tailieu_vip

Báo xấu

Xem trước 3 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Bài giảng Nhập môn Học máy và Khai phá dữ liệu: Chương 5, chương này cung cấp cho học viên những nội dung về: phân lớp; bài toán phân lớp; học dựa trên các láng giềng gần nhất (Nearest neighbors learning); ma trận nhầm lẫn (Confusion matrix); giải thuật phân lớp k-NN;... Mời các bạn cùng tham khảo chi tiết nội dung bài giảng!
Nội dung trích xuất từ tài liệu:
Bài giảng Nhập môn Học máy và Khai phá dữ liệu: Chương 5 - Nguyễn Nhật Quang Nhập môn Học máy và Khai phá dữ liệu (IT3190) Nguyễn Nhật Quang quang.nguyennhat@hust.edu.vn Trường Đại học Bách Khoa Hà Nội Viện Công nghệ thông tin và truyền thông Năm học 2020-2021 Nội dung môn học: ◼ Giới thiệu về Học máy và Khai phá dữ liệu ◼ Tiền xử lý dữ liệu ◼ Đánh giá hiệu năng của hệ thống ◼ Hồi quy ◼ Phân lớp ❑ Bài toán phân lớp ❑ Học dựa trên các láng giềng gần nhất (Nearest neighbors learning) ◼ Phân cụm ◼ Phát hiện luật kết hợp Nhập môn Học máy và Khai phá dữ liệu – Introduction to Machine learning and Data mining 2 Bài toán phân lớp ◼ Phân lớp (classification) thuộc nhóm bài toán học có giám sát (supervised learning) ◼ Mục tiêu của bài toán phân lớp là dự đoán một giá trị rời rạc (kiểu định danh) f: X → Y trong đó, Y là tập hữu hạn các giá trị rời rạc (discrete values) Nhập môn Học máy và Khai phá dữ liệu – Introduction to Machine learning and Data mining 3 Bài toán phân lớp: Đánh giá hiệu năng  Identical(o( x), c( x)); 1 Accuracy = D _ test xD _ test 1, if (a = b) Identical(a, b) =  0, if otherwise •x: Một ví dụ trong tập thử nghiệm D_test •o(x): Phân lớp đưa ra bởi hệ thống đối với ví dụ x •c(x): Phân lớp thực sự (đúng) đối với ví dụ x Nhập môn Học máy và Khai phá dữ liệu – Introduction to Machine learning and Data mining 4 Ma trận nhầm lẫn (Confusion matrix) ◼ Còn được gọi là Contingency Table ◼ Chỉ được sử dụng đối với bài toán phân lớp ❑ Không thể áp dụng cho bài toán hồi quy (dự đoán) • TPi: Số lượng các ví dụ thuộc lớp ci được phân loại Được phân lớp chính xác vào lớp ci Lớp ci bởi hệ thống • FPi: Số lượng các ví dụ không thuộc lớp ci bị phân Thuộc Ko thuộc loại nhầm vào lớp ci • TNi: Số lượng các ví dụ Phân lớp Thuộc TPi FNi không thuộc lớp ci được thực sự phân loại chính xác (đúng) Ko thuộc FPi TNi • FNi: Số lượng các ví dụ thuộc lớp ci- bị phân loại nhầm (vào các lớp khác ci) Nhập môn Học máy và Khai phá dữ liệu – Introduction to Machine learning and Data mining 5 Precision and Recall (1) ◼ Rất hay được sử dụng để đánh giá các hệ thống phân lớp văn bản (document classification) ◼ Precision đối với lớp ci TPi Pr ecision(ci ) = → Tổng số các ví dụ thuộc lớp ci TPi + FPi được phân lớp chính xác chia cho tổng số các ví dụ được phân lớp vào lớp ci TPi ◼ Recall đối với lớp ci Re call(ci ) = TPi + FN i → Tổng số các ví dụ thuộc lớpci được phân lớp chính xác chia cho tổng số các ví dụ thuộc lớp ci Nhập môn Học máy và Khai phá dữ liệu – Introduction to Machine learning and Data mining 6 Precision and Recall (2) ◼ Làm thế nào để tính toán được giá trị Precision và Recall (một cách tổng thể) cho toàn bộ các lớp C={ci}? ◼ Trung bình vi mô (Micro-averaging) C C  TP i  TP i Pr ecision = C i =1 Re call = i =1 C  (TP + FP ) i =1 i i  (TP + FN ) i i i =1 ◼ Trung bình vĩ mô (Macro-averaging) C  Pr ecision(c ) C i  Re call(c ) i Pr ecision = i =1 Re call = i =1 C C Nhập môn Học máy và Khai phá dữ liệu – Introduction to Machine learning and Data mining 7 F1 ◼ Tiêu chí đánh giá F1 là sự kết hợp của 2 tiêu chí đánh giá Precision và Recall 2. Pr ecision.Re call 2 F1 = = Pr ecision + Re call 1 + 1 Pr ecision Re call ◼ F1 là một trung bình điều hòa (harmonic mean) của các tiêu chí Precision v ...

Tìm kiếm theo từ khóa liên quan:

Bài giảng Nhập môn Học máy và Khai phá dữ liệu Nhập môn Học máy và Khai phá dữ liệu Bài toán phân lớp Học dựa trên các láng giềng gần nhất Nearest neighbors learning Giải thuật phân lớp k-NN

Tài liệu có liên quan:

Bài giảng Nhập môn Học máy và Khai phá dữ liệu: Chương 7 - Nguyễn Nhật Quang

37 trang 103 0 0
Bài giảng Nhập môn Học máy và Khai phá dữ liệu: Chương 3 - Nguyễn Nhật Quang

19 trang 59 0 0
Bài giảng Nhập môn Học máy và Khai phá dữ liệu: Chương 9 - Nguyễn Nhật Quang

48 trang 55 0 0
Bài giảng Nhập môn Học máy và Khai phá dữ liệu: Chương 2 - Nguyễn Nhật Quang

31 trang 52 0 0
Một số bất đẳng thức về lỗi phân lớp đối với bài toán phân lớp nhị phân

4 trang 50 0 0
Bài giảng Nhập môn Học máy và Khai phá dữ liệu: Chương 6 - Nguyễn Nhật Quang

32 trang 48 0 0
Bài giảng Nhập môn Học máy và Khai phá dữ liệu: Chương 4 - Nguyễn Nhật Quang

15 trang 40 0 0
Bài giảng Nhập môn Học máy và Khai phá dữ liệu: Chương 11 - Nguyễn Nhật Quang

21 trang 39 0 0
Bài giảng Nhập môn Học máy và Khai phá dữ liệu - Chương 0: Giới thiệu môn học

12 trang 37 0 0
Bài giảng Nhập môn Học máy và Khai phá dữ liệu - Chương 8: Cây quyết định và rừng ngẫu nhiên

43 trang 36 0 0