Danh mục tài liệu

Nâng cao độ chính xác nhận dạng khuôn mặt dựa trên mô hình CNN học sâu kết hợp với đặc trưng HOG và bộ phân lớp SVM

Số trang: 9      Loại file: pdf      Dung lượng: 478.95 KB      Lượt xem: 10      Lượt tải: 0    
Xem trước 2 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Bài viết này đề xuất một giải pháp hiệu quả để nâng cao độ chính xác nhận dạng khuôn mặt từ một ảnh đầu vào bất kỳ hoặc trực tiếp từ camerra. Về cơ bản, việc cải thiện độ chính xác nhận dạng được tiến hành ở cả ba công đoạn chính của quy trình nhận dạng bao gồm phát hiện, trích chọn đặc trưng và phân lớp khuôn mặt.
Nội dung trích xuất từ tài liệu:
Nâng cao độ chính xác nhận dạng khuôn mặt dựa trên mô hình CNN học sâu kết hợp với đặc trưng HOG và bộ phân lớp SVM Công nghệ thông tin & Cơ sở toán học cho tin học NÂNG CAO ĐỘ CHÍNH XÁC NHẬN DẠNG KHUÔN MẶT DỰA TRÊN MÔ HÌNH CNN HỌC SÂU KẾT HỢP VỚI ĐẶC TRƯNG HOG VÀ BỘ PHÂN LỚP SVM Nguyễn Thị Thanh Tân* Tóm tắt: Bài báo này đề xuất một giải pháp hiệu quả để nâng cao độ chính xác nhận dạng khuôn mặt từ một ảnh đầu vào bất kỳ hoặc trực tiếp từ camerra. Về cơ bản, việc cải thiện độ chính xác nhận dạng được tiến hành ở cả ba công đoạn chính của quy trình nhận dạng bao gồm phát hiện, trích chọn đặc trưng và phân lớp khuôn mặt. Trong đó, phương pháp trích chọn đặc trưng HOG và bộ phân lớp tuyến tính SVM được sử dụng trong quá trình phát hiện khuôn mặt người trên ảnh, các lớp mạng học sâu CNN được xây dựng để tự động trích chọn các đặc trưng biểu diễn khuôn mặt và cuối cùng sử dụng các bộ phân lớp SVM để phân lớp (nhận dạng) khuôn mặt. Hiệu quả của phương pháp không chỉ được kiểm nghiệm đồng thời trên cả các tập cơ sở dữ liệu chuẩn như UOF, FEI, JAFFE và LZW và cả trong môi trường thực tế nhận dạng khuôn mặt người trực tiếp từ webcam. Các kết quả thử nghiệm cho thấy hệ thống đạt độ chính xác nhận dạng cao và ổn định trong điều kiện môi trường thực tế. Từ khóa: Khuôn mặt, Khung hình (frame), Phân lớp, Nhận dạng, Mạng nhân chập học sâu (D-CNN), Tiền xử lý, Căn chỉnh khuôn mặt, Phát hiện khuôn mặt, Trích chọn đặc trưng, Dữ liệu mẫu khuôn mặt. 1. ĐẶT VẤN ĐỀ Nhận dạng mặt người là quá trình xác định danh tính tự động cho từng đối tượng người trong video/ảnh dựa vào nội dung. Rất nhiều hướng tiếp cận đã được đề xuất để giải quyết bài toán này [2], [3], [4]. Nhìn chung, quy trình giải quyết bài toán thường bao gồm các công đoạn cơ bản như: (i) Thu nhận hình ảnh; (ii) Tiền xử lý, tăng cường chất lượng hình ảnh; (iii) Phát hiện, căn chỉnh, crop ảnh khuôn mặt; (iv) Nhận dạng (trích chọn đặc trưng và phân lớp) khuôn mặt. Hiệu quả của các mô hình nhận dạng khuôn mặt hiện đã được cải thiện đáng kể dựa trên việc kết hợp sử dụng các mô hình học sâu để tự động phát hiện các đặc trưng trên khuôn mặt và các kỹ thuật phân lớp thống kê. Trong [10], các tác giả đã đề xuất một mô hình nhận dạng phức tạp, nhiều công đoạn dựa trên việc kết hợp đầu ra của một mạng neural tích chập học sâu D-CNN (Deep Convolutional Neural Network) với PCA để giảm chiều dữ liệu và bộ phân lớp SVM. Zhenyao Zhu và cộng sự [10] đã xây dựng một mạng neural học sâu để căn chỉnh các khuôn mặt theo hướng nhìn trực diện sau đó huấn luyện một mạng CNN để phân lớp và xác định danh tính cho mỗi khuôn mặt. Trong kiến trúc mạng DeepFace [11], lớp mạng cuối cùng được loại bỏ và đầu ra của lớp mạng trước đó được sử dụng như một biểu diễn thấp chiều của khuôn mặt. Các kết quả thực nghiệm cho thấy mô hình này đạt độ chính xác trên 97.35% đối với tập dữ liệu LFW. Nhìn chung, các ứng dụng nhận dạng khuôn mặt thường mong muốn tìm được một biểu diễn ít chiều, có khả năng tổng quát hóa tốt đối với những khuôn mặt mới mà mạng chưa được huấn luyện bao giờ. Mục tiêu của DeepFace cũng nhằm giải quyết bài toán đó, tuy nhiên để có được sự biểu diễn này cần phải huấn luyện mạng trên một tập dữ liệu lớn. Đó cũng chính là điểm hạn chế của DeepFace. Trong [1], Florian Schroff và cộng sự đã đề xuất kiến trúc mạng học sâu FaceNet với hàm chi phí bộ ba (triplet 148 Nguyễn Thị Thanh Tân, “Nâng cao độ chính xác nhận dạng … và bộ phân lớp SVM.” Nghiên cứu khoa học công nghệ loss function) được định nghĩa trực tiếp trên các biểu diễn. Các cải tiến quan trọng của FaceNet bao gồm đề xuất hàm chi phí bộ ba, thủ tục lựa chọn các bộ ba trong khi huấn luyện và cho phép học từ các tập dữ liệu khổng lồ để tìm ra kiến trúc mạng thích hợp. Trong bài báo này, chúng tôi đề xuất một giải pháp tổng thể để nâng cao độ chính xác nhận dạng khuôn mặt người trực tiếp từ các thiết bị camera/webcam hoặc từ một ảnh đầu vào bất kỳ, hướng tới mục tiêu ứng dụng xây dựng các hệ thống camera giám sát, kiểm soát vào/ra, phát hiện đột nhập trái phép, phát hiện đối tượng lạ mặt, chấm công tự động, v.v… Trong đó, việc cải thiện chất lượng nhận dạng được tiến hành ở cả ba công đoạn chính của quy trình nhận dạng bao gồm phát hiện, trích chọn đặc trưng và phân lớp khuôn mặt. Giải pháp đề xuất sẽ được mô tả cụ thể trong phần 2. Các kết quả thực nghiệm, đánh giá hiệu quả của mô hình được trình bày trong phần 3. Cuối cùng, phần kết luận sẽ tổng kết lại những kết quả đã đạt được và một số đề xuất cho hướng phát triển tiếp theo. 2. PHƯƠNG PHÁP ĐỀ XUẤT Ý tưởng cơ bản của phương pháp được đề xuất như sau: Từ tín hiệu video đầu vào, bước xử lý đầu tiên sẽ tiến hành phân đoạn video thành các khung hình (frame) riêng biệt. Việc phân đoạn video ở đây được tiến hành theo thời gian (ngưỡng được chọn hiện tại là 24 khung hình trên giây). Mỗi khung hình có thể không chứa, chứa một phần hoặc chứa toàn bộ khuôn mặt. Bước xử lý tiếp theo sẽ tiến hành phát hiện (face detection) và xác định vị trí của các khuôn mặt (nếu có) trên ảnh. Các khuôn mặt phát hiện được sau đó sẽ tiếp tục được tiền xử lý nhằm tăng cường chất lượng hình ảnh (loại nhiễu, khử bóng/mờ), chuẩn hóa kích thước, độ phân giải ảnh và căn chỉnh khuôn mặt về hướng trực diện (nhìn thẳng). Các khuôn mặt sau khi đã tiền xử lý sẽ được sử dụng làm đầu vào cho một mô hình mạng CNN học sâu. Các lớp mạng sẽ tự động học và trích rút ra những đặc trưng quan trọng đại diện cho mỗi khuôn mặt. Cuối cùng, các mô hình SVM sẽ được áp dụng để phân lớp (nhận dạng) khuôn mặt đầu vào dựa trên các đặc trưng đã được trích rút. 2.1. Thuật toán phát hiện khuôn mặt người trên ảnh/khung hình Phương pháp phát hiện khuôn mặt ở đây được đề xuất sử dụng các đặc trưng HOG (Histograms of Oriented Gradients) và bộ phân lớp tuyến tính SVM (Support Vector Machines) [5] hình ...