Bài giảng Học máy: Bài 2 - Nguyễn Hoàng Long
Số trang: 0
Loại file: pdf
Dung lượng: 1.63 MB
Lượt xem: 19
Lượt tải: 0
Xem trước 10 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Bài giảng "Học máy - Bài 2: Học có giám sát" cung cấp cho người học các kiến thức: Giải thuật phân lớp đơn giản, lựa chọn K, giải thuật học máy tốt nhất, chuẩn bị dữ liệu, giới thiệu về học có giám sát, phân lớp và hồi quy,... Mời các bạn cùng tham khảo.
Nội dung trích xuất từ tài liệu:
Bài giảng Học máy: Bài 2 - Nguyễn Hoàng Long Học có giám sát Nguyễn Thanh Tùng Khoa Công nghệ thông tin – Đại học Thủy Lợi tungnt@tlu.edu.vn Website môn học: https://sites.google.com/a/wru.vn/cse445fall2016Bài giảng có sử dụng hình vẽ trong cuốn sách “An Introduction to Statistical Learning with Applications in R” với sựcho phép của tác giả, có sử dụng slides các khóa học CME250 của ĐH Stanford và IOM530 của ĐH Southern California CSE 445: Học máy | Học kỳ 1, 2016-2017 1Giải thuật phân lớp đơn giản (nhắc lại Bài 1) CSE 445: Học máy | Học kỳ 1, 2016-2017 2K-Nearest Neighbor classifier (KNN)• Ý tưởng: phân lớp các mẫu dựa trên “hàng xóm” các mẫu đã biết nhãn CSE 445: Học máy | Học kỳ 1, 2016-2017 3K-Nearest Neighbor classifier (KNN)• Bộ phân lớp: Chia không gian thuộc tính thành nhiều vùng – Mỗi vùng được gắn với 1 nhãn lớp (class label) – Ranh giới quyết định chia tách các vùng quyết định• Các phương pháp phân lớp xây dựng mô hình có dạng: CSE 445: Học máy | Học kỳ 1, 2016-2017 4K-Nearest Neighbor classifier (KNN)• Bộ phân lớp KNN – Việc dự đoán lớp cho mẫu X là lớp phổ biến nhất giữa K láng giềng gần nhất (trong tập học) – Mô hình phân lớp: CSE 445: Học máy | Học kỳ 1, 2016-2017 5K-Nearest Neighbor classifier (KNN)Figure 2.14, ISL 2013 CSE 445: Học máy | Học kỳ 1, 2016-2017 6 Lựa chọn K (bộ phân lớp KNN)• K nhỏ – Ranh giới quyết định linh hoạt hơn, tuy nhiên dễ bị overfit• K lớn – Ranh giới quyết định ít linh hoạt nhưng ít bị overfit• Overfitting: Cho kết quả tốt trên tập học nhưng kém trên tập thử nghiệm CSE 445: Học máy | Học kỳ 1, 2016-2017 7 Lựa chọn K (bộ phân lớp KNN)Figure 2.16, ISL 2013 CSE 445: Học máy | Học kỳ 1, 2016-2017 8 Lựa chọn K (bộ phân lớp KNN) Tại sao lỗi huấn luyện (trên dữ liệu học) tăng cùng K? Tại sao lỗi kiểm thử lại khác?Figure 2.17, ISL 2013 Tăng K, tăng sự linh hoạt CSE 445: Học máy | Học kỳ 1, 2016-2017 9 Lựa chọn K (bộ phân lớp KNN)Figure 2.15, ISL 2013 CSE 445: Học máy | Học kỳ 1, 2016-2017 10 Câu đố:• Bộ phân lớp KNN là tham số hay phi tham số? – Nhắc lại: Kỹ thuật tham số phải đặt các giả định của mô hình về dữ liệu (chẳng hạn, dữ liệu theo xu hướng tuyến tính; dữ liệu tuân theo phân bố chuẩn)• Liệu ta có thể dùng kỹ thuật KNN dự đoán một giá trị số thay cho giá trị định danh (i.e. “KNN hồi quy”)? CSE 445: Học máy | Học kỳ 1, 2016-2017 11 Các dạng giải thuật học máy Do you have labeled data? Yes No Supervised Unsupervised What do you want to predict? Do you want to group the data? Category Quantity Yes No Classification Regression Cluster Dimensionality Analysis ReductionSVM KNN CART LASSO Logistic Linear K-means Regression Regression ICA PCA CSE 445: Học máy | Học kỳ 1, 2016-2017 12Giải thuật Học máy “Tốt nhất”• Tin tồi: Không có giải thuật nào tốt nhất – Không có giải thuật học máy nào thực hiện tốt cho mọi bài toán• Tin tốt: Tất cả các giải thuật học máy đều tốt – Mỗi giải thuật học máy thực hiện tốt cho một số bài toán• Định lý “No free lunch” – Wolpert (1996): các giải thuật thực hiện như nhau khi ta lấy trung bình kết quả chúng t ...
Nội dung trích xuất từ tài liệu:
Bài giảng Học máy: Bài 2 - Nguyễn Hoàng Long Học có giám sát Nguyễn Thanh Tùng Khoa Công nghệ thông tin – Đại học Thủy Lợi tungnt@tlu.edu.vn Website môn học: https://sites.google.com/a/wru.vn/cse445fall2016Bài giảng có sử dụng hình vẽ trong cuốn sách “An Introduction to Statistical Learning with Applications in R” với sựcho phép của tác giả, có sử dụng slides các khóa học CME250 của ĐH Stanford và IOM530 của ĐH Southern California CSE 445: Học máy | Học kỳ 1, 2016-2017 1Giải thuật phân lớp đơn giản (nhắc lại Bài 1) CSE 445: Học máy | Học kỳ 1, 2016-2017 2K-Nearest Neighbor classifier (KNN)• Ý tưởng: phân lớp các mẫu dựa trên “hàng xóm” các mẫu đã biết nhãn CSE 445: Học máy | Học kỳ 1, 2016-2017 3K-Nearest Neighbor classifier (KNN)• Bộ phân lớp: Chia không gian thuộc tính thành nhiều vùng – Mỗi vùng được gắn với 1 nhãn lớp (class label) – Ranh giới quyết định chia tách các vùng quyết định• Các phương pháp phân lớp xây dựng mô hình có dạng: CSE 445: Học máy | Học kỳ 1, 2016-2017 4K-Nearest Neighbor classifier (KNN)• Bộ phân lớp KNN – Việc dự đoán lớp cho mẫu X là lớp phổ biến nhất giữa K láng giềng gần nhất (trong tập học) – Mô hình phân lớp: CSE 445: Học máy | Học kỳ 1, 2016-2017 5K-Nearest Neighbor classifier (KNN)Figure 2.14, ISL 2013 CSE 445: Học máy | Học kỳ 1, 2016-2017 6 Lựa chọn K (bộ phân lớp KNN)• K nhỏ – Ranh giới quyết định linh hoạt hơn, tuy nhiên dễ bị overfit• K lớn – Ranh giới quyết định ít linh hoạt nhưng ít bị overfit• Overfitting: Cho kết quả tốt trên tập học nhưng kém trên tập thử nghiệm CSE 445: Học máy | Học kỳ 1, 2016-2017 7 Lựa chọn K (bộ phân lớp KNN)Figure 2.16, ISL 2013 CSE 445: Học máy | Học kỳ 1, 2016-2017 8 Lựa chọn K (bộ phân lớp KNN) Tại sao lỗi huấn luyện (trên dữ liệu học) tăng cùng K? Tại sao lỗi kiểm thử lại khác?Figure 2.17, ISL 2013 Tăng K, tăng sự linh hoạt CSE 445: Học máy | Học kỳ 1, 2016-2017 9 Lựa chọn K (bộ phân lớp KNN)Figure 2.15, ISL 2013 CSE 445: Học máy | Học kỳ 1, 2016-2017 10 Câu đố:• Bộ phân lớp KNN là tham số hay phi tham số? – Nhắc lại: Kỹ thuật tham số phải đặt các giả định của mô hình về dữ liệu (chẳng hạn, dữ liệu theo xu hướng tuyến tính; dữ liệu tuân theo phân bố chuẩn)• Liệu ta có thể dùng kỹ thuật KNN dự đoán một giá trị số thay cho giá trị định danh (i.e. “KNN hồi quy”)? CSE 445: Học máy | Học kỳ 1, 2016-2017 11 Các dạng giải thuật học máy Do you have labeled data? Yes No Supervised Unsupervised What do you want to predict? Do you want to group the data? Category Quantity Yes No Classification Regression Cluster Dimensionality Analysis ReductionSVM KNN CART LASSO Logistic Linear K-means Regression Regression ICA PCA CSE 445: Học máy | Học kỳ 1, 2016-2017 12Giải thuật Học máy “Tốt nhất”• Tin tồi: Không có giải thuật nào tốt nhất – Không có giải thuật học máy nào thực hiện tốt cho mọi bài toán• Tin tốt: Tất cả các giải thuật học máy đều tốt – Mỗi giải thuật học máy thực hiện tốt cho một số bài toán• Định lý “No free lunch” – Wolpert (1996): các giải thuật thực hiện như nhau khi ta lấy trung bình kết quả chúng t ...
Tìm kiếm theo từ khóa liên quan:
Bài giảng Học máy Machine leaning Học máy Kỹ thuật lập trình Học có giám sát Chuẩn bị dữ liệu Giải thuật học máyTài liệu có liên quan:
-
Kỹ thuật lập trình trên Visual Basic 2005
148 trang 310 0 0 -
NGÂN HÀNG CÂU HỎI TRẮC NGHIỆM THIẾT KẾ WEB
8 trang 250 0 0 -
Giới thiệu môn học Ngôn ngữ lập trình C++
5 trang 223 0 0 -
Phương pháp nhận diện biển số xe ô tô sử dụng học máy và thư viện OpenCV
6 trang 218 0 0 -
Bài giảng Nhập môn về lập trình - Chương 1: Giới thiệu về máy tính và lập trình
30 trang 189 0 0 -
Luận văn: Nghiên cứu kỹ thuật giấu tin trong ảnh Gif
33 trang 160 0 0 -
Báo cáo thực tập Công nghệ thông tin: Lập trình game trên Unity
27 trang 127 0 0 -
Giáo trình về phân tích thiết kế hệ thống thông tin
113 trang 121 0 0 -
LUẬN VĂN: Tìm hiểu kỹ thuật tạo bóng cứng trong đồ họa 3D
41 trang 115 0 0 -
Bài giảng Kỹ thuật lập trình - Chương 10: Tổng kết môn học (Trường Đại học Bách khoa Hà Nội)
67 trang 113 0 0