Một phương pháp xử lý giá trị ngoại lai trong tập mẫu huấn luyện cây quyết định sử dụng đại số gia tử
Số trang: 9
Loại file: pdf
Dung lượng: 629.06 KB
Lượt xem: 11
Lượt tải: 0
Xem trước 2 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Bài viết đã đánh giá tính phức tạp của tập mẫu huấn luyện khi trích chọn từ dữ liệu nghiệp vụ thông qua việc phân tích tính đa dạng của miền trị thuộc tính. Bài viết cũng đã chỉ ra tính phức tạp khi định lượng giá trị ngôn ngữ đặc biệt là các giá trị ngôn ngữ ngoại lai trong tập mẫu huấn luyện.
Nội dung trích xuất từ tài liệu:
Một phương pháp xử lý giá trị ngoại lai trong tập mẫu huấn luyện cây quyết định sử dụng đại số gia tửCác công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-2, Số 14 (34), tháng 12/2015 Một phương pháp xử lý giá trị ngoại lai trong tập mẫu huấn luyện cây quyết định sử dụng đại số gia tử A method for handling outliers in training data set to build a decision tree based on hedge algebra Lê Văn Tường Lân, Nguyễn Mậu Hân, Nguyễn Công Hào Abstract: In this paper we propose a method to các tập mẫu tương ứng M1, M2, …, Mk và sau đó lại tiếp handle the outliers of the fuzzy fileds in the sample tục. training dataset that based on hedge algebra. Due to Đây là bước phân chia với kết quả nhận được từ the value of the attribute domain may be value or Bước 1, điều này có nghĩa là chất lượng của cây kết linguistic so we need a method of approximate data in quả phụ thuộc phần lớn vào cách chọn thuộc tính và a simple way and effective to handle outliers of it. cách phân chia các mẫu tại mỗi nút. Chính vì điều này, Keyword: Hedge algebra, decision tree, fuzzy các thuật toán đều phải tính lượng thông tin nhận được decision tree, training data set. trên các thuộc tính và chọn thuộc tính tương ứng có lượng thông tin tốt nhất để làm nút phân tách trên cây,I. ĐẶT VẤN ĐỀ nhằm để đạt được cây có ít nút nhưng có khả năng dự Trong bài toán khai phá dữ liệu thì việc chọn đúng đoán cao [2,17]. tập mẫu huấn luyện là một trong những giai đoạn rất Trong thế giới thực, dữ liệu nghiệp vụ rất đa dạng vì quan trọng, nó quyết định kết quả của công việc khai chúng được lưu trữ để phục vụ nhiều công việc khác phá. Bài toán xây dựng cây quyết định cũng là một bài nhau, nhiều thuộc tính đã được thuần nhất miền giá trị toán của khai phá dữ liệu nên vấn đề chọn tập mẫu trước khi lưu trữ nhưng cũng tồn tại nhiều thuộc tính huấn luyện cây là vấn đề cần phải giải quyết. có miền trị chưa thuần nhất [5,7,20]. Khi các thuộc tính Như chúng ta đã biết, cây quyết định được xây dựng chưa thuần nhất này xuất hiện trong tập mẫu huấn dựa trên một tập dữ liệu huấn luyện bao gồm các đối luyện, các thuật toán học để xây dựng cây chưa thể tiến tượng mẫu, tất cả các mẫu của tập đều có chung một hành. Do đó, cần phải tiền xử lý dữ liệu để có được tập cấu trúc, gồm những cặp . Mỗi mẫu huấn luyện thuần nhất. Vấn đề đặt ra là ta phải xử đối tượng được mô tả bởi một tập giá trị các thuộc tính lý như thế nào để có được kết quả là khả quan. và nhãn lớp. Để xây dựng cây quyết định, tại mỗi nút Ví dụ: Cho bảng dữ liệu DIEUTRA lưu trữ về tình trong cần xác định một thuộc tính thích hợp để kiểm hình mua máy tính xách tay của khách hàng tại một tra, phân chia dữ liệu thành các tập con. Trên tập mẫu công ty như Bảng 1, ta cần xây dựng một cây quyết huấn luyện M, về cơ bản, các thuật toán phân lớp phải định cho việc dự đoán khách hàng mua hàng. thực hiện 2 bước sau: Lúc này, trong tập mẫu huấn luyện có thuộc tính Bước 1: Chọn thuộc tính Ai có các giá trị ai1, ai2,…, LươngTháng chứa dữ liệu không nhất quán. Để có thể ain. huấn luyện trên các tập mẫu này, chúng ta phải làm Bước 2: Với thuộc tính Ai được chọn, ta tạo một nút thuần nhất dữ liệu cho các thuộc tính này [8]. của cây và sau đó chia các mẫu ứng với nút này thành - 55 - Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-2, Số 14 (34), tháng 12/2015 Bảng 1: Bảng dữ liệu điều tra Phiếu ĐT Họ Tên Số CMND Chuyên Ngành Lương Tháng Máy Tính M01045 Nguyễn An 193567450 Luật 48 Không M01087 Lê Văn Bình 191568422 Luật Thấp Không M02043 Hoàng Hà 196986568 CNTT 53 Có M02081 Võ Văn Bình 191003117 LịchSử 20 Có M02046 Trần Hương 196001278 LịchSử Cao Có M03087 Nguyễn Lài 198235457 LịchSử Cao Không M03025 Vũ Văn Hoa 198875584 CNTT Rất cao Có M03017 Lê Bá Linh 191098234 Luật 35 Không M04036 Võ Bạch Ân 196224003 Luật 100 ...
Nội dung trích xuất từ tài liệu:
Một phương pháp xử lý giá trị ngoại lai trong tập mẫu huấn luyện cây quyết định sử dụng đại số gia tửCác công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-2, Số 14 (34), tháng 12/2015 Một phương pháp xử lý giá trị ngoại lai trong tập mẫu huấn luyện cây quyết định sử dụng đại số gia tử A method for handling outliers in training data set to build a decision tree based on hedge algebra Lê Văn Tường Lân, Nguyễn Mậu Hân, Nguyễn Công Hào Abstract: In this paper we propose a method to các tập mẫu tương ứng M1, M2, …, Mk và sau đó lại tiếp handle the outliers of the fuzzy fileds in the sample tục. training dataset that based on hedge algebra. Due to Đây là bước phân chia với kết quả nhận được từ the value of the attribute domain may be value or Bước 1, điều này có nghĩa là chất lượng của cây kết linguistic so we need a method of approximate data in quả phụ thuộc phần lớn vào cách chọn thuộc tính và a simple way and effective to handle outliers of it. cách phân chia các mẫu tại mỗi nút. Chính vì điều này, Keyword: Hedge algebra, decision tree, fuzzy các thuật toán đều phải tính lượng thông tin nhận được decision tree, training data set. trên các thuộc tính và chọn thuộc tính tương ứng có lượng thông tin tốt nhất để làm nút phân tách trên cây,I. ĐẶT VẤN ĐỀ nhằm để đạt được cây có ít nút nhưng có khả năng dự Trong bài toán khai phá dữ liệu thì việc chọn đúng đoán cao [2,17]. tập mẫu huấn luyện là một trong những giai đoạn rất Trong thế giới thực, dữ liệu nghiệp vụ rất đa dạng vì quan trọng, nó quyết định kết quả của công việc khai chúng được lưu trữ để phục vụ nhiều công việc khác phá. Bài toán xây dựng cây quyết định cũng là một bài nhau, nhiều thuộc tính đã được thuần nhất miền giá trị toán của khai phá dữ liệu nên vấn đề chọn tập mẫu trước khi lưu trữ nhưng cũng tồn tại nhiều thuộc tính huấn luyện cây là vấn đề cần phải giải quyết. có miền trị chưa thuần nhất [5,7,20]. Khi các thuộc tính Như chúng ta đã biết, cây quyết định được xây dựng chưa thuần nhất này xuất hiện trong tập mẫu huấn dựa trên một tập dữ liệu huấn luyện bao gồm các đối luyện, các thuật toán học để xây dựng cây chưa thể tiến tượng mẫu, tất cả các mẫu của tập đều có chung một hành. Do đó, cần phải tiền xử lý dữ liệu để có được tập cấu trúc, gồm những cặp . Mỗi mẫu huấn luyện thuần nhất. Vấn đề đặt ra là ta phải xử đối tượng được mô tả bởi một tập giá trị các thuộc tính lý như thế nào để có được kết quả là khả quan. và nhãn lớp. Để xây dựng cây quyết định, tại mỗi nút Ví dụ: Cho bảng dữ liệu DIEUTRA lưu trữ về tình trong cần xác định một thuộc tính thích hợp để kiểm hình mua máy tính xách tay của khách hàng tại một tra, phân chia dữ liệu thành các tập con. Trên tập mẫu công ty như Bảng 1, ta cần xây dựng một cây quyết huấn luyện M, về cơ bản, các thuật toán phân lớp phải định cho việc dự đoán khách hàng mua hàng. thực hiện 2 bước sau: Lúc này, trong tập mẫu huấn luyện có thuộc tính Bước 1: Chọn thuộc tính Ai có các giá trị ai1, ai2,…, LươngTháng chứa dữ liệu không nhất quán. Để có thể ain. huấn luyện trên các tập mẫu này, chúng ta phải làm Bước 2: Với thuộc tính Ai được chọn, ta tạo một nút thuần nhất dữ liệu cho các thuộc tính này [8]. của cây và sau đó chia các mẫu ứng với nút này thành - 55 - Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-2, Số 14 (34), tháng 12/2015 Bảng 1: Bảng dữ liệu điều tra Phiếu ĐT Họ Tên Số CMND Chuyên Ngành Lương Tháng Máy Tính M01045 Nguyễn An 193567450 Luật 48 Không M01087 Lê Văn Bình 191568422 Luật Thấp Không M02043 Hoàng Hà 196986568 CNTT 53 Có M02081 Võ Văn Bình 191003117 LịchSử 20 Có M02046 Trần Hương 196001278 LịchSử Cao Có M03087 Nguyễn Lài 198235457 LịchSử Cao Không M03025 Vũ Văn Hoa 198875584 CNTT Rất cao Có M03017 Lê Bá Linh 191098234 Luật 35 Không M04036 Võ Bạch Ân 196224003 Luật 100 ...
Tìm kiếm theo từ khóa liên quan:
Phương pháp xử lý giá trị ngoại lai Cây quyết định Đại số gia tử Định lượng giá trị ngôn ngữ Bài toán khai phá dữ liệuTài liệu có liên quan:
-
Nâng cao hiệu quả tra cứu ảnh nhãn hiệu sử dụng cây quyết định và phản hồi liên quan
10 trang 176 0 0 -
Bài giảng Nhập môn Học máy và Khai phá dữ liệu: Chương 7 - Nguyễn Nhật Quang
37 trang 103 0 0 -
28 trang 81 0 0
-
Ảnh hưởng các tham số trong bảng sam điều kiện đối với phương pháp điều khiển sử dụng đại số gia tử
9 trang 73 0 0 -
Bài giảng Khai phá web - Bài 2: Học máy (Phần 1)
53 trang 55 0 0 -
Thuật toán TANE và ứng dụng trong bài toán khai phá dữ liệu
6 trang 52 0 0 -
Một tiếp cận nhanh và hiệu quả cho nhận dạng số hiệu container
7 trang 41 0 0 -
7 trang 39 0 0
-
Phân tích cấu trúc dữ liệu: Phần 2
226 trang 36 0 0 -
4 trang 36 0 0