Danh mục tài liệu

Các khái niệm trong Học máy

Số trang: 7      Loại file: doc      Dung lượng: 189.91 KB      Lượt xem: 25      Lượt tải: 0    
Xem trước 2 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Học máy(Machine Learning) là một ngành khoa học nghiên cứu cácthuật toán cho phép máy tính có thể học được các khái niệm (concept).Phân loại:Có hai loại phương pháp học máy chính· Phương pháp quy nạp : Máy học/phân biệt các khái niệm dựa trêndữ liệu đã thu thập được trước đó. Phương pháp này cho phép tậndụng được nguồn dữ liệu rất nhiều và sẵn có.· Phương pháp suy diễn : Máy học/phân biệt các khái niệm dựa vàocác luật. Phương pháp này cho phép tận dụng được các kiến thứcchuyên ngành để hỗ trợ máy tính.Hiện nay, các...
Nội dung trích xuất từ tài liệu:
Các khái niệm trong Học máyCác khái niệm trong Học máy (Machine Learning) (1) – Tổng quanHọc máy(Machine Learning) là một ngành khoa học nghiên cứu cácthuật toán cho phép máy tính có thể học được các khái niệm (concept).Phân loại:Có hai loại phương pháp học máy chính • Phương pháp quy nạp: Máy học/phân biệt các khái niệm dựa trên dữ liệu đã thu thập được trước đó. Phương pháp này cho phép tận dụng được nguồn dữ liệu rất nhiều và sẵn có. • Phương pháp suy diễn: Máy học/phân biệt các khái niệm dựa vào các luật. Phương pháp này cho phép tận dụng được các kiến thức chuyên ngành để hỗ trợ máy tính.Hiện nay, các thuật toán đều cố gắng tận dụng được ưu điểm của haiphương pháp này.Các ngành khoa học liên quan: • Lý thuyết thống kê:các kết quả trong xác suất thống kê là tiền đề cho rất nhiều phương pháp học máy. Đặc biệt, lý thuyết thống kê cho phép ước lượng sai số của các phương pháp học máy. • Các phương pháp tính:các thuật toán học máy thường sử dụng các tính toán số thực/số nguyên trên dữ liệu rất lớn. Trong đó, các bài toán như: tối ưu có/không ràng buộc, giải phương trình tuyến tính v.v… được sử dụng rất phổ biến. • Khoa học máy tính:là cơ sở để thiết kế các thuật toán, đồng thời đánh giá thời gian chạy, bộ nhớ của các thuật toán học máy.Ứng dụng:Học máy có ứng dụng rộng khắp trong các ngành khoahọc/sản xuất, đặc biệt những ngành cần phân tích khối lượng dữ liệukhổng lồ. Một số ứng dụng thường thấy (wikipedia§): • Xử lý ngôn ngữ tự nhiên (Natural Language Processing): xử lý văn bản, giao tiếp người – máy, … • Nhận dạng (Pattern Recognition): nhận dạng tiếng nói, chữ viết tay, vân tay, thị giác máy (Computer Vision) … • Tìm kiếm (Search Engine) • Chẩn đoán trong y tế: phân tích ảnh X-quang, các hệ chuyên gia chẩn đoán tự động. • Tin sinh học: phân loại chuỗi gene, quá trình hình thành gene/protein • Vật lý: phân tích ảnh thiên văn, tác động giữa các hạt … • Phát hiện gian lận tài chính (financial fraud): gian lận thẻ tỉn dụng • Phân tích thị trường chứng khoán (stock market analysis) • Chơi trò chơi: tự động chơi cờ, hành động của các nhân vật ảo • Rôbốt: là tổng hợp của rất nhiều ngành khoa học, trong đó học máy tạo nên hệ thần kinh/bộ não của người máy.Các nhóm giải thuật học máy: • Học có giám sát:Máy tính được xem một số mẫu gồm đầu vào (input) và đầu ra (output) tương ứng trước. Sau khi học xong các mẫu này, máy tính quan sát một đầu vào mới và cho ra kết quả. • Học không giám sát:Máy tính chỉ được xem các mẫu không có đầu ra, sau đó máy tính phải tự tìm cách phân loại các mẫu này và các mẫu mới. • Học nửa giám sát:Một dạng lai giữa hai nhóm giải thuật trên. • Học tăng cường:Máy tính đưa ra quyết định hành động (action) và nhận kết quả phản hồi(response/reward) từ môi trường (environment). Sau đó máy tính tìm cách chỉnh sửa cách ra quyết định hành động của mình.Các khái niệm trong Học máy (Machine Learning) (2) – Xác suất, công thức BayesĐịnh nghĩa (- đại số): Cho tập , tập gọi là - đại số của nếu 1. Các phần tử của là các tập con của 2. Tập khác rỗng: 3. Tập đóng với phép hợp: . 4. Tập đóng với phép bù:Ví dụ: 1. Từ các tính chất, ta thấy - đại số luôn chứa tập rỗng và tập vũ trụ (vì ). 2. Nếu thì , , là các - đại số trên .Định nghĩa (độ đo): Cho và là - đại số trên . Hàm gọi là độ đo trênnếu 1. 2. 3. Nếu và không giao nhau từng đôi một () thìTa nói bộ là không gian đo được.Định nghĩa (không gian mẫu, biến cố, xác suất):Không gian mẫu: Một tập khác rỗng gọi là không gian mẫu nếu cácphần tử của nó có thể là kết quả của một phép thực nghiệm ngẫunhiên.Ví dụ: 1. Có một hộp có gồm 10 viên bi bên trong, nhắm mắt lại chọn ngẫu nhiên 1 viên bi. Như vậy mỗi viên bi đều có thể là kết quả của phép thực nghiệm này, không gian mẫu là là số hiệu cuả từng viên bi. 2. Có 3 người, chọn ngẫu nhiên 1 người và hỏi người này có thích màu đỏ không? Không gian mẫu là . Nếu hỏi cả 3 người xem họ có thích màu đỏ không, lúc này không gian mẫu lại là , trong đó là thích, là không thích.Biến cố: Một - đại số của không gian mẫu gọi là tập các biến cốtrên . Mỗi tập gọi là một biến cố. Khi thực nghiệm ngẫu nhiên cho kếtquả thì với các biến cố mà , ta nói biến cố đã xảy ra.Ví dụ: 1. Xét hòm bi có 3 viên bi, và tập biến cố . Nếu ta nhấc được hòn bi số thì các biến cố đã xảy ra, còn các biến cố không xảy ra. 2. Nếu hỏi cả 3 người xem họ có thích màu đỏ không, không gian mẫu là . Biến cố “có đúng 2 người thích màu đỏ là” , biến cố “có ít nhất 1 người không thích màu đỏ” là .Xác suất: Xét một thực nghiệm ngẫu nhiên với không gian mẫu và tậpcác biến cố , ta nói độ đo trên là độ đo xác suất nếu (có thể suy ra ).Ví dụ: 1. Như vậy, xác suất theo định nghĩa trên chỉ đơn giản là một hàm (độ đo) trên tập các biến ...

Tài liệu có liên quan: