RỪNG NGẪU NHIÊN CẢI TIẾN CHO PHÂN LOẠI DỮ LIỆU GIEN
Số trang: 9
Loại file: pdf
Dung lượng: 331.45 KB
Lượt xem: 10
Lượt tải: 0
Xem trước 2 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Trong bài viết này, chúng tôi đề xuất giải thuật rừng ngẫu nhiên cải tiến cho phân lớp dữliệu gien thường có rất ít các phần tử dữ liệu nhưng số chiều rất lớn và có nhiễu. Trongthực tế, giải thuật rừng ngẫu nhiên của Breiman thường được sử dụng cho phân lớp kiểudữ liệu như dữ liệu gien. Tuy nhiên, do sử dụng luật bình chọn số đông ở nút lá của câyquyết định làm dự báo của rừng ngẫu nhiên bị giảm. Để cải thiện kết quả dự báo củarừng ngẫu nhiên, chúng tôi đề xuất thay thế...
Nội dung trích xuất từ tài liệu:
RỪNG NGẪU NHIÊN CẢI TIẾN CHO PHÂN LOẠI DỮ LIỆU GIENTạp chí Khoa học 2012:22b 9-17 Trường Đại học Cần Thơ RỪNG NGẪU NHIÊN CẢI TIẾN CHO PHÂN LOẠI DỮ LIỆU GIEN Huỳnh Phụng Toàn, Nguyễn Vũ Lâm, Nguyễn Minh Trung1 và Đỗ Thanh Nghị ABSTRACTOur investigation aims to propose random trees to classify gene data which have verysmall amount of samples in very high dimensions and noise. The random forest algorithmproposed by Breiman is usually suited for classifying very-high-dimensional datasets.However, the classical majority rule of a decision tree degrades the classificationaccuracy of random forests. We have proposed to improve the classification performanceof random forests by using in each leaf of the tree a local class labeling rule instead ofthe majority rule. The numerical test results on gene datasets from datam.i2r.a-star.edu.sg/datasets/krbd/ showed that that our proposal gives good classification resultscompared with classical random forests and support vector machine (SVM) in terms ofPrecision, Recall, F1 and Accuracy.Keywords: Genes expression classification, Decision trees, Random forests, k nearestneighborsTitle: Improved random forests for classifying gene data TÓM TẮTTrong bài viết này, chúng tôi đề xuất giải thuật rừng ngẫu nhiên cải tiến cho phân lớp dữliệu gien thường có rất ít các phần tử dữ liệu nhưng số chiều rất lớn và có nhiễu. Trongthực tế, giải thuật rừng ngẫu nhiên của Breiman thường được sử dụng cho phân lớp kiểudữ liệu như dữ liệu gien. Tuy nhiên, do sử dụng luật bình chọn số đông ở nút lá của câyquyết định làm dự báo của rừng ngẫu nhiên bị giảm. Để cải thiện kết quả dự báo củarừng ngẫu nhiên, chúng tôi đề xuất thay thế luật bình chọn số đông bởi luật gánnhãn cục bộ. Kết quả thử nghiệm trên các tập dữ liệu gien từ site datam.i2r.a-star.edu.sg/datasets/krbd/ cho thấy rằng giải thuật rừng ngẫu nhiên cải tiến do chúng tôiđề xuất cho kết quả phân loại tốt khi so sánh với rừng ngẫu nhiên của cây quyết địnhC4.5 và máy học véctơ hỗ trợ dựa trên các tiêu chí Precision, Recall, F1, Accuracy.Từ khóa: Phân loại dữ liệu gien, giải thuật học cây quyết định, rừng ngẫu nhiên, kláng giềng1 GIỚI THIỆUPhân lớp dữ liệu có số chiều lớn có nhiễu như dữ liệu gien (mỗi chiều cung cấp rấtít thông tin cho tách lớp) được biết là một trong 10 vấn đề khó của cộng đồng khaimỏ dữ liệu (Yang and Wu, 2006). Mô hình học phân lớp thường cho kết quả tốttrong khi huấn luyện lại cho kết quả rất thấp khi dự báo. Vấn đề khó khăn thườnggặp chính là số chiều quá lớn lên đến hàng nghìn chiều thậm chí đến cả triệu và dữliệu thường tách rời nhau trong không gian có số chiều lớn việc tìm mô hình phânlớp tốt có khả năng làm việc với dữ liệu có số chiều lớn là khó khăn do có quá Bộ môn Tin Học Ứng Dụng, khoa Khoa Học Tự Nhiên, Trường Đại học Cần Thơ Trung tâm Tin Học-Công Nghệ Phần Mềm, Trường Cao Đẳng Cộng Đồng Kiên Giang Bộ môn Khoa Học Máy Tính, khoa CNTT&TT, Trường Đại học Cần Thơ 9Tạp chí Khoa học 2012:22b 9-17 Trường Đại học Cần Thơnhiều khả năng lựa chọn mô hình. Việc tìm một mô hình phân lớp hiệu quả (phânlớp dữ liệu tốt trong tập thử) trong không gian giả thiết lớn là vấn đề khó. Đã cóhai lớp giải thuật tiêu biểu là máy học véc tơ hỗ trợ của Vapnik (SVM (Vapnik,1995)) và rừng ngẫu nhiên của (Breiman, 2001) được biết đến như là những giảithuật phân lớp hiệu quả các tập dữ liệu có số chiều lớn như dữ liệu gien.Tiếp cận rừng ngẫu nhiên cho độ chính xác cao khi so sánh với các thuật toán họccó giám sát hiện nay, bao gồm cả AdaBoost (Freund and Schapire, 1995), ArcX4(Breiman, 1998) và SVM (Vapnik, 1995). Khi xử lý dữ liệu có số chiều lớn và sốphần tử ít như dữ liệu gien thì rừng ngẫu nhiên và SVM là hai giải thuật họcnhanh, chịu đựng nhiễu tốt và không bị tình trạng học vẹt, điều này ngược lại vớiAdaBoost, ArcX4 rất dễ bị học vẹt và ảnh hưởng lớn với nhiễu (Grove andSchuurmans, 1998). Tuy nhiên, luật quyết định ở nút lá của các cây trong rừngngẫu nhiên dựa vào luật bình chọn số đông, điều này dẫn đến độ chính xác của giảithuật rừng ngẫu nhiên bị giảm khi phân lớp dữ liệu. Để khắc phục nhược điểmtrên, chúng tôi đề xuất thay thế luật bình chọn số đông ở nút lá bằng luật gán nhãncục bộ dựa trên giải thuật k láng giềng (Fix and Hodges, 1952). Giải thuật rừngngẫu nhiên cải tiến do chúng tôi đề xuất thường cho kết quả phân lớp chính xáchơn so với giải thuật gốc. Kết quả thử nghiệm trên các tập dữ liệu gien (Jinyan andHuiqing, 2002) cho thấy rằng giải thuật rừng ngẫu nhiên cải tiến do chúng tôi đềxuất cho kết quả phân loại tốt khi so sánh với rừng ngẫu nhiên của cây quyết địnhC4.5 và máy học véctơ hỗ trợ dựa trên các tiêu chí Precision, Recall, F1, ...
Nội dung trích xuất từ tài liệu:
RỪNG NGẪU NHIÊN CẢI TIẾN CHO PHÂN LOẠI DỮ LIỆU GIENTạp chí Khoa học 2012:22b 9-17 Trường Đại học Cần Thơ RỪNG NGẪU NHIÊN CẢI TIẾN CHO PHÂN LOẠI DỮ LIỆU GIEN Huỳnh Phụng Toàn, Nguyễn Vũ Lâm, Nguyễn Minh Trung1 và Đỗ Thanh Nghị ABSTRACTOur investigation aims to propose random trees to classify gene data which have verysmall amount of samples in very high dimensions and noise. The random forest algorithmproposed by Breiman is usually suited for classifying very-high-dimensional datasets.However, the classical majority rule of a decision tree degrades the classificationaccuracy of random forests. We have proposed to improve the classification performanceof random forests by using in each leaf of the tree a local class labeling rule instead ofthe majority rule. The numerical test results on gene datasets from datam.i2r.a-star.edu.sg/datasets/krbd/ showed that that our proposal gives good classification resultscompared with classical random forests and support vector machine (SVM) in terms ofPrecision, Recall, F1 and Accuracy.Keywords: Genes expression classification, Decision trees, Random forests, k nearestneighborsTitle: Improved random forests for classifying gene data TÓM TẮTTrong bài viết này, chúng tôi đề xuất giải thuật rừng ngẫu nhiên cải tiến cho phân lớp dữliệu gien thường có rất ít các phần tử dữ liệu nhưng số chiều rất lớn và có nhiễu. Trongthực tế, giải thuật rừng ngẫu nhiên của Breiman thường được sử dụng cho phân lớp kiểudữ liệu như dữ liệu gien. Tuy nhiên, do sử dụng luật bình chọn số đông ở nút lá của câyquyết định làm dự báo của rừng ngẫu nhiên bị giảm. Để cải thiện kết quả dự báo củarừng ngẫu nhiên, chúng tôi đề xuất thay thế luật bình chọn số đông bởi luật gánnhãn cục bộ. Kết quả thử nghiệm trên các tập dữ liệu gien từ site datam.i2r.a-star.edu.sg/datasets/krbd/ cho thấy rằng giải thuật rừng ngẫu nhiên cải tiến do chúng tôiđề xuất cho kết quả phân loại tốt khi so sánh với rừng ngẫu nhiên của cây quyết địnhC4.5 và máy học véctơ hỗ trợ dựa trên các tiêu chí Precision, Recall, F1, Accuracy.Từ khóa: Phân loại dữ liệu gien, giải thuật học cây quyết định, rừng ngẫu nhiên, kláng giềng1 GIỚI THIỆUPhân lớp dữ liệu có số chiều lớn có nhiễu như dữ liệu gien (mỗi chiều cung cấp rấtít thông tin cho tách lớp) được biết là một trong 10 vấn đề khó của cộng đồng khaimỏ dữ liệu (Yang and Wu, 2006). Mô hình học phân lớp thường cho kết quả tốttrong khi huấn luyện lại cho kết quả rất thấp khi dự báo. Vấn đề khó khăn thườnggặp chính là số chiều quá lớn lên đến hàng nghìn chiều thậm chí đến cả triệu và dữliệu thường tách rời nhau trong không gian có số chiều lớn việc tìm mô hình phânlớp tốt có khả năng làm việc với dữ liệu có số chiều lớn là khó khăn do có quá Bộ môn Tin Học Ứng Dụng, khoa Khoa Học Tự Nhiên, Trường Đại học Cần Thơ Trung tâm Tin Học-Công Nghệ Phần Mềm, Trường Cao Đẳng Cộng Đồng Kiên Giang Bộ môn Khoa Học Máy Tính, khoa CNTT&TT, Trường Đại học Cần Thơ 9Tạp chí Khoa học 2012:22b 9-17 Trường Đại học Cần Thơnhiều khả năng lựa chọn mô hình. Việc tìm một mô hình phân lớp hiệu quả (phânlớp dữ liệu tốt trong tập thử) trong không gian giả thiết lớn là vấn đề khó. Đã cóhai lớp giải thuật tiêu biểu là máy học véc tơ hỗ trợ của Vapnik (SVM (Vapnik,1995)) và rừng ngẫu nhiên của (Breiman, 2001) được biết đến như là những giảithuật phân lớp hiệu quả các tập dữ liệu có số chiều lớn như dữ liệu gien.Tiếp cận rừng ngẫu nhiên cho độ chính xác cao khi so sánh với các thuật toán họccó giám sát hiện nay, bao gồm cả AdaBoost (Freund and Schapire, 1995), ArcX4(Breiman, 1998) và SVM (Vapnik, 1995). Khi xử lý dữ liệu có số chiều lớn và sốphần tử ít như dữ liệu gien thì rừng ngẫu nhiên và SVM là hai giải thuật họcnhanh, chịu đựng nhiễu tốt và không bị tình trạng học vẹt, điều này ngược lại vớiAdaBoost, ArcX4 rất dễ bị học vẹt và ảnh hưởng lớn với nhiễu (Grove andSchuurmans, 1998). Tuy nhiên, luật quyết định ở nút lá của các cây trong rừngngẫu nhiên dựa vào luật bình chọn số đông, điều này dẫn đến độ chính xác của giảithuật rừng ngẫu nhiên bị giảm khi phân lớp dữ liệu. Để khắc phục nhược điểmtrên, chúng tôi đề xuất thay thế luật bình chọn số đông ở nút lá bằng luật gán nhãncục bộ dựa trên giải thuật k láng giềng (Fix and Hodges, 1952). Giải thuật rừngngẫu nhiên cải tiến do chúng tôi đề xuất thường cho kết quả phân lớp chính xáchơn so với giải thuật gốc. Kết quả thử nghiệm trên các tập dữ liệu gien (Jinyan andHuiqing, 2002) cho thấy rằng giải thuật rừng ngẫu nhiên cải tiến do chúng tôi đềxuất cho kết quả phân loại tốt khi so sánh với rừng ngẫu nhiên của cây quyết địnhC4.5 và máy học véctơ hỗ trợ dựa trên các tiêu chí Precision, Recall, F1, ...
Tìm kiếm theo từ khóa liên quan:
báo cáo khoa học nghiên cứu sinh học công nghệ sinh học dữ liệu gien giải thuật học cây quyết định RỪNG NGẪU NHIÊNTài liệu có liên quan:
-
63 trang 357 0 0
-
68 trang 290 0 0
-
13 trang 272 0 0
-
Tiểu luận: Trình bày cơ sở khoa học và nội dung của các học thuyết tiến hóa
39 trang 272 0 0 -
Báo cáo khoa học Bước đầu tìm hiểu văn hóa ẩm thực Trà Vinh
61 trang 260 0 0 -
Tóm tắt luận án tiến sỹ Một số vấn đề tối ưu hóa và nâng cao hiệu quả trong xử lý thông tin hình ảnh
28 trang 234 0 0 -
NGHIÊN CỨU CHỌN TẠO CÁC GIỐNG LÚA CHẤT LƯỢNG CAO CHO VÙNG ĐỒNG BẰNG SÔNG CỬU LONG
9 trang 231 0 0 -
Đề tài nghiên cứu khoa học và công nghệ cấp trường: Hệ thống giám sát báo trộm cho xe máy
63 trang 218 0 0 -
8 trang 217 0 0
-
22 trang 199 0 0