Ứng dụng trí thông minh nhân tạo cho việc nhận diện khuôn mặt người
Số trang: 12
Loại file: pdf
Dung lượng: 952.86 KB
Lượt xem: 32
Lượt tải: 0
Xem trước 2 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Bài viết Ứng dụng trí thông minh nhân tạo cho việc nhận diện khuôn mặt người đưa ra hướng tiếp cận bài toán nhận dạng khuôn mặt ứng dụng DL một cách cơ bản và dễ dàng nhất. Đầu tiên, nội dung sẽ tập trung trình bày về mô hình nhận diện sử dụng kỹ thuật DL dựa trên kiến trúc mạng Nơ – ron tích chập CNN.
Nội dung trích xuất từ tài liệu:
Ứng dụng trí thông minh nhân tạo cho việc nhận diện khuôn mặt người TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, Trường Đại học Khoa học, ĐH Huế Tập 21, Số 1 (2022) ỨNG DỤNG TRÍ THÔNG MINH NHÂN TẠO CHO VIỆC NHẬN DIỆN KHUÔN MẶT NGƯỜI Nguyễn Thị Út*, Vương Quang Phước Khoa Điện, Điện tử và Công nghệ vật liệu, Trường Đại học Khoa học, Đại học Huế *Email: utplutoa1@gmail.com Ngày nhận bài: 9/5/2022; ngày hoàn thành phản biện: 23/5/2022; ngày duyệt đăng: 4/8/2022 TÓM TẮT Hiện nay, cùng với sự phát triển của kỹ thuật học máy (ML), cụ thể là kỹ thuật học sâu (DL), nhận dạng khuôn mặt trở thành chìa khóa cho nhiều bài toán khác nhau trong đời sống thường nhật. Bài báo đưa ra hướng tiếp cận bài toán nhận dạng khuôn mặt ứng dụng DL một cách cơ bản và dễ dàng nhất. Đầu tiên, nội dung sẽ tập trung trình bày về mô hình nhận diện sử dụng kỹ thuật DL dựa trên kiến trúc mạng Nơ – ron tích chập CNN. Sau đó, ứng dụng CNN để nhận dạng khuôn mặt dựa trên tập dữ liệu có sẵn, và được đánh giá thông qua tỉ lệ nhận dạng chính xác. Bên cạnh đó, các khối/tham số/siêu tham số cũng sẽ được đánh giá, hỗ trợ người đọc hiểu được vai trò và tác động của chúng đến quá trình xử lý và quyết định kết quả phân loại. Cuối cùng, dựa trên các phân tích đã có, thực hiện đề xuất mô hình mới nhằm cải thiện tỉ lệ nhận dạng của mô hình. Từ khóa: CNN, DL, ML, Nhận diện khuôn mặt. 1. MỞ ĐẦU Với xu thế bùng nổ cuộc cách mạng công nghiệp lần thứ 4, trí thông minh nhân tạo xuất hiện và ngày càng trở nên phổ biến ở trong mọi lĩnh vực của đời sống xã hội của con người. Từ lĩnh vực y khoa, giáo dục, các công việc trong gia đình hay thậm chí là trong quân sự [1]. Đặc biệt, một lĩnh vực nghiên cứu lớn của trí thông minh nhân tạo hiện đang được đặc biệt quan tâm đó là công nghệ nhận diện khuôn mặt với vô số các ứng dụng như bảo mật (mở khóa FaceID của IOS, …), hệ thống điểm danh nội bộ (nhân viên công ty, sinh viên trong trường học, …) hay nhận dạng công dân ở một số nước trên thế giới, … Đầu những năm 1960, Woody Bledsoe, Helen Chan Wolf và Bisson đã bắt đầu sử dụng máy tính để nhận diện khuôn mặt con người, với các kỹ thuật đánh dấu đặc điểm khuôn mặt sơ khai hoàn toàn bằng tay. Tiếp tục các quá trình nâng cao về công nghệ, kỹ thuật tối ưu và các dự án mở rộng phạm vi nghiên cứu, công nghệ nhận diện khuôn mặt đã có những bước phát triển vượt bậc [2]. Cụ thể vào 97 Ứng dụng trí thông minh nhân tạo cho việc nhận diện khuôn mặt người năm 2011, Facebook đã bắt đầu triển khai chức năng nhận diện khuôn mặt (auto tag) giúp xác định những người xuất hiện trong ảnh bài đăng Facebook. Ngay sau đó, nó cũng đã được ứng dụng nhiều hơn vào các thiết bị thông minh trong cuộc sống, sử dụng thay cho mở khóa điện thoại (Iphone X – 2017). Từ khóa về nhận diện khuôn mặt cũng được quan tâm và tìm kiếm nhiều hơn, hàng loạt các nghiên cứu nổ ra, những sản phẩm ứng dụng ra đời đều nhận được hưởng ứng tích cực từ cộng đồng người tiêu dùng. Ngày nay, với sự bùng nổ về dữ liệu lớn (big data), sự ra đời của các sản phẩm phần cứng và các phần mềm hỗ trợ như là tiền đề quan trọng cho sự phát triển mạnh mẽ của lĩnh vực nghiên cứu này. Bằng các phương pháp khảo sát đánh giá tác động của các tham số/ siêu tham số tới hoạt động của mô hình, chúng ta có thể xây dựng và tối ưu được khả năng nhận diện mà mô hình có thể thực hiện được. 2. NỀN TẢNG LÝ THUYẾT VÀ XÂY DỰNG MÔ HÌNH 2.1 Cấu trúc chung của mô hình mạng nhận diện khuôn mặt sử dụng mạng Nơ – ron tích chập CNN Trước khi nói về cấu trúc cụ thể của mô hình nhận dạng, nhóm tác giả sẽ trình bày một số thông tin và cấu trúc cơ bản của một mạng kiến trúc CNN ứng dụng kỹ thuật Deep Learning và nêu khái quát về chức năng của từng thành phần trong mạng. Từ đó, đưa ra mô hình cuối cùng và đánh giá hoạt động của nó. Về cơ bản, khác với các mạng Nơ-ron truyền thống (ví dụ MLP), các mạng CNN sử dụng một cấu trúc đặc biệt giúp xử lý tốt các dữ liệu theo phân vùng không gian, ví dụ như dữ liệu hình ảnh, phân bố theo ba chiều: rộng, dài, và độ sâu. Điểm đặc biệt của mô hình này là mỗi nơ- ron ở lớp này sẽ chỉ kết nối với một vùng nhỏ các nơ-ron lớp trước (thay vì toàn bộ). Do đó hệ thống giảm được một số lượng lớn các phép tính toán và giảm được dung lượng bộ nhớ. Nhờ có cấu trúc đặc biệt đó mà CNN rất thích hợp cho quá trình phân loại và nhận dạng ảnh. Sử dụng cấu trúc này giúp quá trình huấn luyện trong mạng được cải thiện về tốc độ, huấn luyện được sâu hơn với các mạng nhiều lớp, hoạt động tốt với tác vụ phân loại ảnh. 98 TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, Trường Đại học Khoa học, ĐH Huế Tập 21, Số 1 (2022) Hình 1. Cấu trúc mô hình nhận diện khuôn mặt. Hình 1 mô tả một cấu trúc CNN đơn giản, ứng dụng cho việc nhận dạng khuôn mặt. Để dễ dàng hình dung cấu trúc và chức năng của từng thành phần của mạng, cụ thể là mô hình nhận diện khuôn mặt tôi sẽ trình bày chi tiết điểm khác biệt của mô hình CNN theo từng nội dung dưới đây. 2.2 Lớp tích chập CNN sử dụng các bộ lọc (Filter) quét toàn bộ hình ảnh (theo thứ tự từ trái qua phải, từ trên xuống dưới), quá trình này giúp hệ thống trích xuất được các đặc điểm của hình ảnh ở các vị trí khác nhau trong ảnh, tạo thành các bản đồ đặc tính (feature map [3]), và sử dụng các đặc điểm này cho việc huấn luyện và nhận dạng hình ảnh. Việc sử dụng lớp tích chập ở CNN cho tác vụ nhận dạng hình ảnh nói chung và phân loại khuôn mặt nói riêng, có 2 ưu điểm lớn so với việc xử lý dữ liệu với MLP, cụ thể: Thứ nhất, tính hiệu quả trong việc xử lý dữ liệu hình ảnh. Trong mạng MLP, các nơ-ron của lớp này được kết nối đến toàn bộ các n ...
Nội dung trích xuất từ tài liệu:
Ứng dụng trí thông minh nhân tạo cho việc nhận diện khuôn mặt người TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, Trường Đại học Khoa học, ĐH Huế Tập 21, Số 1 (2022) ỨNG DỤNG TRÍ THÔNG MINH NHÂN TẠO CHO VIỆC NHẬN DIỆN KHUÔN MẶT NGƯỜI Nguyễn Thị Út*, Vương Quang Phước Khoa Điện, Điện tử và Công nghệ vật liệu, Trường Đại học Khoa học, Đại học Huế *Email: utplutoa1@gmail.com Ngày nhận bài: 9/5/2022; ngày hoàn thành phản biện: 23/5/2022; ngày duyệt đăng: 4/8/2022 TÓM TẮT Hiện nay, cùng với sự phát triển của kỹ thuật học máy (ML), cụ thể là kỹ thuật học sâu (DL), nhận dạng khuôn mặt trở thành chìa khóa cho nhiều bài toán khác nhau trong đời sống thường nhật. Bài báo đưa ra hướng tiếp cận bài toán nhận dạng khuôn mặt ứng dụng DL một cách cơ bản và dễ dàng nhất. Đầu tiên, nội dung sẽ tập trung trình bày về mô hình nhận diện sử dụng kỹ thuật DL dựa trên kiến trúc mạng Nơ – ron tích chập CNN. Sau đó, ứng dụng CNN để nhận dạng khuôn mặt dựa trên tập dữ liệu có sẵn, và được đánh giá thông qua tỉ lệ nhận dạng chính xác. Bên cạnh đó, các khối/tham số/siêu tham số cũng sẽ được đánh giá, hỗ trợ người đọc hiểu được vai trò và tác động của chúng đến quá trình xử lý và quyết định kết quả phân loại. Cuối cùng, dựa trên các phân tích đã có, thực hiện đề xuất mô hình mới nhằm cải thiện tỉ lệ nhận dạng của mô hình. Từ khóa: CNN, DL, ML, Nhận diện khuôn mặt. 1. MỞ ĐẦU Với xu thế bùng nổ cuộc cách mạng công nghiệp lần thứ 4, trí thông minh nhân tạo xuất hiện và ngày càng trở nên phổ biến ở trong mọi lĩnh vực của đời sống xã hội của con người. Từ lĩnh vực y khoa, giáo dục, các công việc trong gia đình hay thậm chí là trong quân sự [1]. Đặc biệt, một lĩnh vực nghiên cứu lớn của trí thông minh nhân tạo hiện đang được đặc biệt quan tâm đó là công nghệ nhận diện khuôn mặt với vô số các ứng dụng như bảo mật (mở khóa FaceID của IOS, …), hệ thống điểm danh nội bộ (nhân viên công ty, sinh viên trong trường học, …) hay nhận dạng công dân ở một số nước trên thế giới, … Đầu những năm 1960, Woody Bledsoe, Helen Chan Wolf và Bisson đã bắt đầu sử dụng máy tính để nhận diện khuôn mặt con người, với các kỹ thuật đánh dấu đặc điểm khuôn mặt sơ khai hoàn toàn bằng tay. Tiếp tục các quá trình nâng cao về công nghệ, kỹ thuật tối ưu và các dự án mở rộng phạm vi nghiên cứu, công nghệ nhận diện khuôn mặt đã có những bước phát triển vượt bậc [2]. Cụ thể vào 97 Ứng dụng trí thông minh nhân tạo cho việc nhận diện khuôn mặt người năm 2011, Facebook đã bắt đầu triển khai chức năng nhận diện khuôn mặt (auto tag) giúp xác định những người xuất hiện trong ảnh bài đăng Facebook. Ngay sau đó, nó cũng đã được ứng dụng nhiều hơn vào các thiết bị thông minh trong cuộc sống, sử dụng thay cho mở khóa điện thoại (Iphone X – 2017). Từ khóa về nhận diện khuôn mặt cũng được quan tâm và tìm kiếm nhiều hơn, hàng loạt các nghiên cứu nổ ra, những sản phẩm ứng dụng ra đời đều nhận được hưởng ứng tích cực từ cộng đồng người tiêu dùng. Ngày nay, với sự bùng nổ về dữ liệu lớn (big data), sự ra đời của các sản phẩm phần cứng và các phần mềm hỗ trợ như là tiền đề quan trọng cho sự phát triển mạnh mẽ của lĩnh vực nghiên cứu này. Bằng các phương pháp khảo sát đánh giá tác động của các tham số/ siêu tham số tới hoạt động của mô hình, chúng ta có thể xây dựng và tối ưu được khả năng nhận diện mà mô hình có thể thực hiện được. 2. NỀN TẢNG LÝ THUYẾT VÀ XÂY DỰNG MÔ HÌNH 2.1 Cấu trúc chung của mô hình mạng nhận diện khuôn mặt sử dụng mạng Nơ – ron tích chập CNN Trước khi nói về cấu trúc cụ thể của mô hình nhận dạng, nhóm tác giả sẽ trình bày một số thông tin và cấu trúc cơ bản của một mạng kiến trúc CNN ứng dụng kỹ thuật Deep Learning và nêu khái quát về chức năng của từng thành phần trong mạng. Từ đó, đưa ra mô hình cuối cùng và đánh giá hoạt động của nó. Về cơ bản, khác với các mạng Nơ-ron truyền thống (ví dụ MLP), các mạng CNN sử dụng một cấu trúc đặc biệt giúp xử lý tốt các dữ liệu theo phân vùng không gian, ví dụ như dữ liệu hình ảnh, phân bố theo ba chiều: rộng, dài, và độ sâu. Điểm đặc biệt của mô hình này là mỗi nơ- ron ở lớp này sẽ chỉ kết nối với một vùng nhỏ các nơ-ron lớp trước (thay vì toàn bộ). Do đó hệ thống giảm được một số lượng lớn các phép tính toán và giảm được dung lượng bộ nhớ. Nhờ có cấu trúc đặc biệt đó mà CNN rất thích hợp cho quá trình phân loại và nhận dạng ảnh. Sử dụng cấu trúc này giúp quá trình huấn luyện trong mạng được cải thiện về tốc độ, huấn luyện được sâu hơn với các mạng nhiều lớp, hoạt động tốt với tác vụ phân loại ảnh. 98 TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, Trường Đại học Khoa học, ĐH Huế Tập 21, Số 1 (2022) Hình 1. Cấu trúc mô hình nhận diện khuôn mặt. Hình 1 mô tả một cấu trúc CNN đơn giản, ứng dụng cho việc nhận dạng khuôn mặt. Để dễ dàng hình dung cấu trúc và chức năng của từng thành phần của mạng, cụ thể là mô hình nhận diện khuôn mặt tôi sẽ trình bày chi tiết điểm khác biệt của mô hình CNN theo từng nội dung dưới đây. 2.2 Lớp tích chập CNN sử dụng các bộ lọc (Filter) quét toàn bộ hình ảnh (theo thứ tự từ trái qua phải, từ trên xuống dưới), quá trình này giúp hệ thống trích xuất được các đặc điểm của hình ảnh ở các vị trí khác nhau trong ảnh, tạo thành các bản đồ đặc tính (feature map [3]), và sử dụng các đặc điểm này cho việc huấn luyện và nhận dạng hình ảnh. Việc sử dụng lớp tích chập ở CNN cho tác vụ nhận dạng hình ảnh nói chung và phân loại khuôn mặt nói riêng, có 2 ưu điểm lớn so với việc xử lý dữ liệu với MLP, cụ thể: Thứ nhất, tính hiệu quả trong việc xử lý dữ liệu hình ảnh. Trong mạng MLP, các nơ-ron của lớp này được kết nối đến toàn bộ các n ...
Tìm kiếm theo từ khóa liên quan:
Nhận diện khuôn mặt Ứng dụng trí thông minh nhân tạo Mạng Nơ – ron tích chập CNN Kỹ thuật học máy Kỹ thuật học sâuTài liệu có liên quan:
-
4 trang 271 0 0
-
Giáo trình Nhận dạng và xử lý ảnh: Phần 2
137 trang 102 0 0 -
cách tắt tính năng nhận diện khuôn mặt trên fac
5 trang 79 0 0 -
Trích xuất thực thể trong an toàn thông tin sử dụng học sâu
8 trang 61 0 0 -
8 trang 52 0 0
-
Ứng dụng kỹ thuật học sâu trong hỗ trợ chẩn đoán bệnh viêm phổi thông qua ảnh chụp X-quang
11 trang 50 0 0 -
Nhận dạng vân tay sử dụng kỹ thuật học sâu
9 trang 46 0 0 -
Một số phương pháp phát hiện tấn công SQL Injection dựa trên kỹ thuật học máy
7 trang 44 0 0 -
Nghiên cứu phương pháp phát hiện va chạm của cánh tay robot cộng tác 6 bậc tự do
7 trang 38 0 0 -
Nhận diện khuôn mặt sử dụng mạng nơron tích chập xếp chồng và mô hình FaceNet
7 trang 38 0 0