Danh mục tài liệu

Báo cáo Tối ưu hóa KPCA bằng GA để chọn các thuộc tính đặc trưng nhằm tăng hiệu quả phân lớp của thuật toán Random Forest

Số trang: 10      Loại file: pdf      Dung lượng: 273.96 KB      Lượt xem: 21      Lượt tải: 0    
Xem trước 2 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Phân tích thành phần chính (PCA) là một phương pháp khá nổi tiếng và hiệu quả trong quá trình làm giảm số thuộc tính của tập dữ liệu đầu vào. Hiện nay phương pháp hàm nhân đã được dùng để tăng khả năng áp dụng PCA khi giải quyết các bài toán phi tuyến. Phương pháp này đã được Scholkhof và đồng nghiệp của ông đưa ra với tên gọi là KPCA. Trong bài báo này chúng tôi sẽ trình bày một cách tiếp cận mới dựa trên hàm nhân để có thể chọn ra những thuộc tính tốt nhất...
Nội dung trích xuất từ tài liệu:
Báo cáo " Tối ưu hóa KPCA bằng GA để chọn các thuộc tính đặc trưng nhằm tăng hiệu quả phân lớp của thuật toán Random Forest " Tạp chí Khoa học ĐHQGHN, Khoa học Tự nhiên và Công nghệ 25 (2009) 84-93 T i ưu hóa KPCA b ng GA ñ ch n các thu c tính ñ c trưng nh m tăng hi u qu phân l p c a thu t toán Random Forest Nguy n Hà Nam* Khoa Công Ngh Thông Tin, Trư ng ðH Công Ngh , ðHQGHN, 144 Xuân Th y, Hà N i, Vi t Nam Nh n ngày 2 tháng 4 năm 2007 Tóm t t. Phân tích thành ph n chính (PCA) là m t ph ương pháp khá n i ti ng và hi u qu trong quá trình làm gi m s thu c tính c a t p d li u ñ u vào. Hi n nay phương pháp hàm nhân ñã ñư c dùng ñ tăng kh năng áp d ng PCA khi gi i quy t các bài toán phi tuy n. Phương pháp này ñã ñư c Scholkhof và ñ n g nghi p c a ông ñưa ra v i tên g i là KPCA. Trong bài báo này chúng tôi s trình bày m t cách ti p c n m i d a trên hàm nhân ñ có th ch n ra nh ng thu c tính t t nh t ñ tăng kh năng phân l p c a thu t toán Random Forest (RF). Chúng tôi ñã s d ng gi i thu t di truy n ñ tìm ra hàm nhân t i ưu cho vi c tìm ra cách chuy n ñ i phi tuy n t t nh t nh m làm tăng kh năng phân l p c a RF. Cách ti p c n c a chúng tôi v cơ b n ñã tăng kh năng phân l p c a gi i thu t RF. Không ch tăng ñư c kh năng phân l p cho thu t toán RF, phương pháp ñ ngh còn cho th y kh năng phân l p t t hơn m t s phương pháp trích ch n ñã ñư c công b . T khóa: PCA, Hàm nhân, KPCA, Random Forest, trích ch n thu c tính. dù r t nhi u k thu t khai phá d li u d a trên 1. Gi i thi u ∗ m t s n n t ng lý thuy t khác nhau ñã ñư c Trong lĩnh v c nghiên c u v khai phá d phát tri n và ng d ng t r t lâu, nhưng th c t li u nói chung cũng như trong nghiên c u v cho th y k t qu ph thu c r t nhi u vào ñ c các thu t toán phân l p nói riêng, v n ñ x lý tính d li u cũng như kh năng x lý d li u d li u l n ngày càng tr thành v n ñ c p thi t thô c a t ng nhóm nghiên c u. M t ñi u hi n và ñóng vai trò ch ñ o trong vi c gi i quy t nhiên là v i m i phương pháp ch có th ñáp các bài toán th c t . Ph n l n các thu t toán ng và x lý t t trên m t vài d li u và ng phân l p ñã phát tri n ch có th gi i quy t d ng c th nào ñó. Trong khai phá d li u thì ñư c v i m t lư ng s li u gi i h n cũng như phương pháp trích ch n ñóng m t vai trò quan v i m t ñ ph c t p d li u bi t trư c. Trong tr ng trong ti n x lý s li u. Hư ng ti p c n khi ñó lư ng d li u mà chúng ta thu th p ñư c này làm tăng hi u năng thu nh n tri th c trong ngày càng tr nên phong phú và ña d ng nh s các ngành như tin sinh, x lý d li u web, x lý phát tri n m nh m c a khoa h c k thu t. M c ti ng nói, hình nh v i ñ c tính là có r t nhi u thu c tích (vài trăm cho ñ n vài trăm ngàn _______ thu c tính) nhưng thư ng ch có m t s lư ng ∗ Tel.: 84-4-37547813. E-mail: namnh@vnu.edu.vn 84 85 N.H. Nam / Tạp chí Khoa học ĐHQGHN, Khoa học Tự Nhiên và Công nghệ 25 (2009) 84-93 tương ñ i nh các m u dùng ñ hu n luy n d ng b các thu c tính là m t công vi c r t (thư ng là vài trăm). Phương pháp trích ch n s quan tr ng trong vi c x lý s li u. Khi xây giúp gi m kích c c a không gian d li u, lo i d ng d li u chúng ta c n ph i ñ m b o không b nh ng thu c tính không liên quan và nh ng ñ m t nhi u thông tin quá cũng như không quá thu c tính nhi u. Phương pháp này có nh t n kém v m t chi phí. Ph n th hai có m c hư ng ngay l p t c ñ n các ng d ng như tăng tiêu tìm ra nh ng thu c tính ñ i di n cho ñ i t c ñ c a thu t toán khai phá d li u, c i thi n tư ng, lo i b nh ng thu c tính th a và gây ch t lư ng d li u và vì v y tăng hi u su t khai nhi u nh m tăng hi u su t c a các thu t toán phá d li u, ki m soát ñư c k t qu c a thu t khai phá d li u. Có r t nhi u p hương pháp toán. Phương pháp này ñã ñư c gi i thi u t cũng như hư ng ti p c n khác nhau bao g m nh ng năm 1970 trong các tài li u v xác su t các phương pháp kinh ñi n [1-3] v i b d li u th ng kê, h c máy và khai phá d li u [1-7]. tương ñ i nh và các hư ng ti p c n hi n ñ i [5-7]. Tuy v y chúng ñ u có m t s các yêu c u Phân tích các thành ph n cơ b n (PCA) [4] chung như sau: là m t phương pháp khá n i ti ng và hi u qu trong quá trình làm gi m s thu c tính c a t p • Gi m d li u c n lưu tr và tăng t c ñ c a thu t toán (tính toán trên d li u ñó) d li u ñ u vào. G n ñây phương pháp hàm nhân ñã ñư c áp d ng ñ có th ng d ng PCA • Gi m b t hu c tính nh m ti t ki m không vào gi i quy t các bài toán phi tuy n tính. gian lưu tr Phương pháp này ñã ñư c Scholkhof và ñ ng • Tăng cư ng hi u qu thu t toán: nh m thu nghi p c a ông ñưa ra v i tên g i là KPCA [9]. ñư c t l d ñoán ñúng cao hơn Trong bài báo này chúng tôi s trình bày m t • Có tri th c v d li u: thu ñư c các tri th c cách ti p c n m i d a trê ...

Tài liệu có liên quan: