Danh mục tài liệu

Nghiên cứu cơ sở khoa học ứng dụng thuật toán random forest trong phân loại ảnh vệ tinh SPOT6 với khu vực thực nghiệm tại tỉnh Cà Mau

Số trang: 5      Loại file: pdf      Dung lượng: 561.75 KB      Lượt xem: 32      Lượt tải: 0    
Xem trước 2 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Trong phạm vi bài viết này, nhóm nghiên tiến hành thử nghiệm một thuật toán của phương pháp học máy (Machine Learning) trong phân loại rừng ngập mặn trên ảnh vệ tinh SPOT6 với khu vực thử nghiệm tại Tỉnh Cà Mau.
Nội dung trích xuất từ tài liệu:
Nghiên cứu cơ sở khoa học ứng dụng thuật toán random forest trong phân loại ảnh vệ tinh SPOT6 với khu vực thực nghiệm tại tỉnh Cà Mau Kỷ yếu Hội nghị: Nghiên cứu cơ bản trong “Khoa học Trái đất và Môi trường” DOI: 10.15625/vap.2019.000155 NGHIÊN CỨU CƠ SỞ KHOA HỌC ỨNG DỤNG THUẬT TOÁN RANDOM FOREST TRONG PHÂN LOẠI ẢNH VỆ TINH SPOT6 VỚI KHU VỰC THỰC NGHIỆM TẠI TỈNH CÀ MAU Phạm Minh Hải1, Đỗ Thị Hoài1, Bùi Quang Thành2, Nguyễn Ngọc Quang3 1 Viện Khoa học Đo đạc và Bản đồ, Bộ Tài Nguyên và Môi trường Email: pmhai@monre.gov.vn, haialas@yahoo.com 2 Trường Đại học Khoa học Tự nhiên, ĐHQG Hà Nội Email: qthanh.bui@gmail.com 3 Cục Viễn thám Quốc gia, Bộ Tài Nguyên và Môi trường Email: quangavril@yahoo.com TÓM TẮT Random forest (RF) là một phương pháp học máy (machine learning statistic) dùng để phục vụ các mục đích phân loại, tính hồi quy và các nhiệm vụ khác bằng cách xây dựng nhiều cây quyết định (Decision tree). Trong phạm vi bài báo này, nhóm nghiên tiến hành thử nghiệm một thuật toán của phương pháp học máy (Machine Learning) trong phân loại rừng ngập mặn trên ảnh vệ tinh SPOT6 với khu vực thử nghiệm tại Tỉnh Cà Mau. Kết quả thực hiện của nghiên cứu đã đạt được 2 điểm mới đó là: ứng dụng thành công phương pháp học máy (RF) trong phân loại ảnh viễn thám; khả năng của phương pháp phân loại được chi tiết theo loài thực vật của rừng ngập mặn tại khu vực thực nghiệm. Từ khóa: Viễn thám, rừng ngập mặn, random forest 1. GIỚI THIỆU Từ trước đến nay, để chiết tách các thông tin ảnh viễn thám, việc ứng dụng các thuật toán có kiểm định như K-Nearest Neighbors (KNN) đã trở nên phổ biến. K-Nearest Neighbors phương pháp để phân lớp các đối tượng dựa vào khoảng cách gần nhất giữa đối tượng cần xếp lớp (Query point) và tất cả các đối tượng trong các bộ mẫu (Training Data). Tuy nhiên hiện nay, các nhà nghiên cứu đã và đang phát triển nhiều thuật toán mới, phức tạp, mạnh mẽ và hiệu quả hơn. Một trong số đó là Random Forest. Thuật toán này cho phép con người xác định chính xác các thông tin phân loại và thống kê dựa vào các tập dữ liệu khổng lồ. Trong phạm vi bài báo này, nhóm nghiên cứu tiến hành thử nghiệm một thuật toán của phương pháp học máy (Machine Learning) - RF trong phân loại rừng ngập mặn trên ảnh viễn thám SPOT6 với khu vực thử nghiệm tại Tỉnh Cà Mau. 2. PHƯƠNG PHÁP LUẬN CỦA NGHIÊN CỨU Random forest là một phương pháp thống kê mô hình hóa bằng máy (machine learning statistic) dùng để phục vụ các mục đích phân loại, tính hồi quy và các nhiệm vụ khác bằng cách xây dựng nhiều cây quyết định (Decision tree) [1]. Mỗi Node của cây sẽ là các thuộc tính, và các nhánh là giá trị lựa chọn của thuộc tính đó. Từ hình 1 chúng ta thấy rằng Random Forest được cấu thành bởi một số cây quyết định. Thuật toán lấy mẫu cho phương pháp random forest ứng dụng cho các phương pháp sử dụng thuật toán mô tả thống kê để ước lượng số lượng từ một mẫu dữ liệu (bagging). Một tập mẫu X = x1, ..., xn với các câu trả lời Y = y1, ..., yn, lấy giá trị trung bình (B lần), chọn một mẫu ngẫu nhiên từ bộ mẫu phù hợp với cây quyết định: Lặp b = 1,…, B; n mẫu từ giá trị tọa độ (X, Y); gọi là (Xb, Yb); lớp dữ liệu hay kết quả hồi quy fb của biến Xb, Yb; 361 Hồ Chí Minh, tháng 11 năm 2019 Cây 1 Cây 2 Cây 3 Tổng hợp để phân lớp hay chia trung bình để tính hồi quy Hình 1. Sơ đồ biểu diễn các cây quyết định trong phương pháp random forest [1]. Sau khi lấy mẫu, các phép tính toán cho các mẫu là ẩn số x’ có thể được thực hiện bằng cách lấy trung bình các giá trị nội suy từ tất cả các cây hồi quy riêng lẻ của biến x hoặc lấy giá trị từ đa số của các mẫu trong cây quyết định: ∑ Random forest có thể sắp xếp sự quan trọng của các biến trong các bài toán phân loại hay hồi quy, được mô tả trong các nghiên cứu của Breiman, xác định các biến quan trọng trong 1 tập dữ liệu là làm phù hợp phương pháp random forest với tập dữ liệu: . Để xác định được tính quan trọng của đối tượng thứ i sau khi lấy mẫu, các giá trị của mẫu i được hoán vị trong tập mẫu và các lỗi dự báo được tính toán lại trong tập dữ liệu. Độ quan trọng của đối tượng được tính bằng điểm, các điểm được tính toán bằng cách lấy trung bình của độ chênh lệch giữa các lỗi dự báo trước và sau khi hoán vị. Các đối tượng có giá trị lớn được xếp quan trọng hơn các điểm có giá trị nhỏ. 3. KẾT QUẢ VÀ THẢO LUẬN 3.1. Dữ liệu đầu vào v ...