Danh mục tài liệu

Phân loại bệnh rung nhĩ dùng XGBoost và học sâu

Số trang: 7      Loại file: pdf      Dung lượng: 367.10 KB      Lượt xem: 26      Lượt tải: 0    
Xem trước 2 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Bài viết này đề xuất một phương pháp phân loại tín hiệu rung nhĩ được đo từ các thiết bị điện tâm đồ (ECG) cầm tay. Phương pháp tiếp cận của chúng tôi sử dụng kết hợp XGBoost và mô hình học sâu (deep learning) trong đó XGBoost được xây dựng trên bộ đặc trưng được tăng cường và tinh chỉnh qua thực nghiệm, thực hiện vai trò sinh dữ liệu cho mô hình học sâu.
Nội dung trích xuất từ tài liệu:
Phân loại bệnh rung nhĩ dùng XGBoost và học sâu Nguyễn Hồng Quang và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 189(13): 85 - 91 PHÂN LOẠI BỆNH RUNG NHĨ DÙNG XGBOOST VÀ HỌC SÂU Nguyễn Hồng Quang1*, Trịnh Văn Loan1, Phạm Ngọc Hưng3, Hà Quang Thái2, Bùi Trung Anh2, Phan Công Mạnh2 1 Trường Đại học Bách Khoa Hà Nội, Công ty TNHH phát triển phần mềm Toshiba (Việt Nam), 3 Trường Đại học Sư phạm Kỹ thuật Hưng Yên 2 TÓM TẮT Bài báo này đề xuất một phương pháp phân loại tín hiệu rung nhĩ được đo từ các thiết bị điện tâm đồ (ECG) cầm tay. Phương pháp tiếp cận của chúng tôi sử dụng kết hợp XGBoost và mô hình học sâu (deep learning) trong đó XGBoost được xây dựng trên bộ đặc trưng được tăng cường và tinh chỉnh qua thực nghiệm, thực hiện vai trò sinh dữ liệu cho mô hình học sâu. Chúng tôi sử dụng các kỹ thuật phân đoạn và sinh nhãn cho các đoạn tín hiệu, giúp tăng cường, tạo sự cân bằng và độ tin cậy cho bộ dữ liệu. Mô hình học sâu với hướng tiếp cận học chuyển đổi (transfer learning) được sử dụng để thực hiện phân loại các đoạn tín hiệu dưới dạng ảnh phổ tần số. Chúng tôi thử nghiệm mô hình trên bộ dữ liệu của cuộc thi PhysioNet/Computing in Cardiology Challenge 2017 (PCCC 2017) để phân loại 4 loại tín hiệu: rung nhĩ, bình thường, các loại bệnh tim khác và nhiễu. Mô hình học sâu thể hiện khả năng dự đoán tốt trên các đoạn dữ liệu ngắn với kết quả F1 = 0.8397. Nghiên cứu của chúng tôi mở ra một hướng phát triển mới cho bài toán phân loại tín hiệu ECG khi thực hiện phân loại trên các đoạn tín hiệu ngắn, đồng thời mang đến một giải pháp ứng dụng các mô hình học sâu khi bài toán gặp những hạn chế về mặt dữ liệu. Từ khóa: Tín hiệu điện tim, Bệnh rung nhĩ, học sâu, XGBoost, mạng nơ ron tích chập, Biến đổi Wavelet rời rạc GIỚI THIỆU* Rung nhĩ (hay rung tâm nhĩ, atrial fibrillation) là một trong những bệnh rối loạn nhịp tim thường gặp. Rung nhĩ có nguy cơ dẫn đến suy tim, đột quỵ, và các biến chứng tim mạch nguy hiểm khác. Người bị bệnh thường phải đến bệnh viện khám định kỳ để theo dõi nhịp tim bằng hệ thống máy đo điện tâm đồ (ECG), tốn kém nhiều thời gian và chi phí. Những năm gần đây các nhà sản xuất đã cho ra đời nhiều loại thiết bị đo ECG cầm tay, giúp việc theo dõi nhịp tim trở nên thuận lợi và nhanh chóng hơn với người bệnh. Sự phát triển của các thiết bị đo này cũng mở ra nhiều cơ hội cho các nhà phát triển tích hợp các hệ thống phần mềm thông minh đi kèm. Tuy nhiên, so với việc sử dụng các hệ thống máy đo ECG 12 kênh (12-lead) thông thường, chất lượng tín hiệu của các thiết bị đo cầm tay sẽ kém hơn do chỉ đo đơn kênh (single-lead) và thường gặp rất nhiều nhiễu do tác động của môi trường, cũng như sai số do việc đo được * Tel: 0978 813688, Email: quangnh@soict.hust.edu.vn thực hiện bởi những người không chuyên. Những điều này đặt ra nhiều thách thức cho việc phát triển các thuật toán phân loại tín hiệu. Nắm bắt được xu hướng phát triển này, PCCC 2017 đã triển khai đề tài phân biệt tín hiệu bệnh rung nhĩ với các tín hiệu nhịp tim thông thường, tín hiệu nhiễu hay các tín hiệu bệnh tim khác. Trong nghiên cứu này, chúng tôi đề xuất một phương pháp giải quyết bài toán phân loại tín hiệu nhịp tim theo hướng tiếp cận sử dụng kết hợp XGBoost và học sâu, trong đó XGBoost đóng vai trò tạo ra dữ liệu, và mô hình học sâu thực hiện phân loại các mẫu tín hiệu. Trước tiên, chúng tôi trích chọn các đặc trưng từ tín hiệu ECG để xây dựng một mô hình XGBoost. Các đặc trưng sẽ được điều chỉnh và cải tiến qua quá trình thực nghiệm. Tiếp theo đó, mô hình XGBoost được sử dụng để sinh dữ liệu cho mô hình học sâu. Chúng tôi áp dụng kỹ thuật học chuyển đổi (transfer learning) trên một mạng CNN (Convolutional Neural Network) được huấn luyện trước (pretrained) là VGG-16 [16], kết hợp với một 85 Nguyễn Hồng Quang và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ kiến trúc Multi-layer Perceptron (MLP) với hai lớp ẩn. Bài báo này đề xuất một phương pháp mới có khả năng phát hiện các mẫu tín hiệu ngắn bất thường xuất hiện trong đoạn tín hiệu dài. Chúng tôi thử nghiệm và đánh giá mô hình này trên dữ liệu của PCCC 2017. Phần tiếp theo sẽ trình bày về các nghiên cứu liên quan. Phần 3 mô tả phương pháp đề xuất. Phần 4 trình bày kết quả thử nghiệm và đánh giá. Phần 5 là kết luận và định hướng nghiên cứu tiếp theo. CÁC NGHIÊN CỨU LIÊN QUAN Bài toán phân loại tín hiệu ECG đã được các nhà nghiên cứu thử nghiệm và tiếp cận theo nhiều hướng khác nhau. Hướng nghiên cứu trích chọn đặc trưng (feature engineering) kết hợp các thuật toán phân lớp trong họ cây quyết định là một hướng tiếp cận phổ biến và hiệu quả. Chẳng hạn như Teijeiro và cộng sự [6] (đạt kết quả tốt nhất của PCCC 2017) đã thử nghiệm trên 79 đặc trưng, bao gồm các đặc trưng hình thái, đặc trưng thống kê và sử dụng XGBoost để tối ưu trên 8-fold crossvalidation. Zabihi và cộng sự [8] cũng sử dụng 491 đặc trưng, bao gồm các đặc trưng về hình thái miền thời gian, các đặc trưng miền tần số, các đặc trưng miền thời gian-tần số; sau đó 150 đặc trưng được lựa chọn và sử dụng bộ phân lớp Random Forest. Bin và cộng sự [7] sử dụng các đặc trưng riêng của bệnh rung nhĩ, hay các đặc trưng liên quan đến khoảng RR (khoảng cách giữa 2 đỉnh R của tín hiệu điện tim), sử dụng tập hợp cây quyết định huấn luyện bằng thuật toán AdaBoost.M2. Trên bộ dữ liệu MIT/BIH gồm 5 loại nhịp tim, Emanet trích chọn các đặc trưng từ tín hiệu ECG sử dụng biến đổi wavelet rời rạc (Discrete Wavelet Transform) kết hợp với bộ phân lớp Random Forest và đạt độ chính xác 99.8% [9]. Bên cạnh hướng trích chọn đặc trưng, không nằm ngoài xu hướng chung, học sâu cũng được thử nghiệm cho bài toán phân loại tín 86 189(13): 85 - 91 hiệu ECG. Các nghiên cứu sử dụng mạng CNNs có thể kể đến Pyakillya và cộng sự [10] sử dụng 7 lớp 1D-CNNs và 3 lớp FC (Fully Connected) với đầu vào là dữ liệu chuỗi thời gian (time series), hay Al Rahhal và cộng sự [11] sử dụng CNNs với hướng tiếp cận transfer learning. Ngoài ra, các kiến trúc RNNs, GRU hay LSTM là một hướng triển vọng khác cho dữ liệu dạng time series nh ...