Danh mục tài liệu

Bài giảng Học máy: Bài 2 - Nguyễn Hoàng Long

Số trang: 0      Loại file: pdf      Dung lượng: 1.63 MB      Lượt xem: 19      Lượt tải: 0    
Xem trước 10 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Bài giảng "Học máy - Bài 2: Học có giám sát" cung cấp cho người học các kiến thức: Giải thuật phân lớp đơn giản, lựa chọn K, giải thuật học máy tốt nhất, chuẩn bị dữ liệu, giới thiệu về học có giám sát, phân lớp và hồi quy,... Mời các bạn cùng tham khảo.
Nội dung trích xuất từ tài liệu:
Bài giảng Học máy: Bài 2 - Nguyễn Hoàng Long Học có giám sát Nguyễn Thanh Tùng Khoa Công nghệ thông tin – Đại học Thủy Lợi tungnt@tlu.edu.vn Website môn học: https://sites.google.com/a/wru.vn/cse445fall2016Bài giảng có sử dụng hình vẽ trong cuốn sách “An Introduction to Statistical Learning with Applications in R” với sựcho phép của tác giả, có sử dụng slides các khóa học CME250 của ĐH Stanford và IOM530 của ĐH Southern California CSE 445: Học máy | Học kỳ 1, 2016-2017 1Giải thuật phân lớp đơn giản (nhắc lại Bài 1) CSE 445: Học máy | Học kỳ 1, 2016-2017 2K-Nearest Neighbor classifier (KNN)• Ý tưởng: phân lớp các mẫu dựa trên “hàng xóm” các mẫu đã biết nhãn CSE 445: Học máy | Học kỳ 1, 2016-2017 3K-Nearest Neighbor classifier (KNN)• Bộ phân lớp: Chia không gian thuộc tính thành nhiều vùng – Mỗi vùng được gắn với 1 nhãn lớp (class label) – Ranh giới quyết định chia tách các vùng quyết định• Các phương pháp phân lớp xây dựng mô hình có dạng: CSE 445: Học máy | Học kỳ 1, 2016-2017 4K-Nearest Neighbor classifier (KNN)• Bộ phân lớp KNN – Việc dự đoán lớp cho mẫu X là lớp phổ biến nhất giữa K láng giềng gần nhất (trong tập học) – Mô hình phân lớp: CSE 445: Học máy | Học kỳ 1, 2016-2017 5K-Nearest Neighbor classifier (KNN)Figure 2.14, ISL 2013 CSE 445: Học máy | Học kỳ 1, 2016-2017 6 Lựa chọn K (bộ phân lớp KNN)• K nhỏ – Ranh giới quyết định linh hoạt hơn, tuy nhiên dễ bị overfit• K lớn – Ranh giới quyết định ít linh hoạt nhưng ít bị overfit• Overfitting: Cho kết quả tốt trên tập học nhưng kém trên tập thử nghiệm CSE 445: Học máy | Học kỳ 1, 2016-2017 7 Lựa chọn K (bộ phân lớp KNN)Figure 2.16, ISL 2013 CSE 445: Học máy | Học kỳ 1, 2016-2017 8 Lựa chọn K (bộ phân lớp KNN) Tại sao lỗi huấn luyện (trên dữ liệu học) tăng cùng K? Tại sao lỗi kiểm thử lại khác?Figure 2.17, ISL 2013 Tăng K, tăng sự linh hoạt CSE 445: Học máy | Học kỳ 1, 2016-2017 9 Lựa chọn K (bộ phân lớp KNN)Figure 2.15, ISL 2013 CSE 445: Học máy | Học kỳ 1, 2016-2017 10 Câu đố:• Bộ phân lớp KNN là tham số hay phi tham số? – Nhắc lại: Kỹ thuật tham số phải đặt các giả định của mô hình về dữ liệu (chẳng hạn, dữ liệu theo xu hướng tuyến tính; dữ liệu tuân theo phân bố chuẩn)• Liệu ta có thể dùng kỹ thuật KNN dự đoán một giá trị số thay cho giá trị định danh (i.e. “KNN hồi quy”)? CSE 445: Học máy | Học kỳ 1, 2016-2017 11 Các dạng giải thuật học máy Do you have labeled data? Yes No Supervised Unsupervised What do you want to predict? Do you want to group the data? Category Quantity Yes No Classification Regression Cluster Dimensionality Analysis ReductionSVM KNN CART LASSO Logistic Linear K-means Regression Regression ICA PCA CSE 445: Học máy | Học kỳ 1, 2016-2017 12Giải thuật Học máy “Tốt nhất”• Tin tồi: Không có giải thuật nào tốt nhất – Không có giải thuật học máy nào thực hiện tốt cho mọi bài toán• Tin tốt: Tất cả các giải thuật học máy đều tốt – Mỗi giải thuật học máy thực hiện tốt cho một số bài toán• Định lý “No free lunch” – Wolpert (1996): các giải thuật thực hiện như nhau khi ta lấy trung bình kết quả chúng t ...