Danh mục tài liệu

Nhận dạng cảm xúc trong video sử dụng mạng nơ ron tích chập

Số trang: 6      Loại file: pdf      Dung lượng: 314.43 KB      Lượt xem: 32      Lượt tải: 0    
Xem trước 2 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Bài viết đề xuất một phương pháp trích xuất dữ liệu nhận dạng mới phù hợp với yêu cầu phân lớp và nhận dạng cảm xúc trong video. Đồng thời, chúng tôi cũng đề xuất một mô hình phân lớp dựa trên ứng dụng và cải tiến mô hình học sâu tiên tiến hiện nay là mạng nơ ron tích chập.
Nội dung trích xuất từ tài liệu:
Nhận dạng cảm xúc trong video sử dụng mạng nơ ron tích chập Nguyễn Thị Thu Hiền và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 181(05): 211 - 216 NHẬN DẠNG CẢM XÚC TRONG VIDEO SỬ DỤNG MẠNG NƠ RON TÍCH CHẬP Nguyễn Thị Thu Hiền1*, Nguyễn Thị Phương Nhung2 1 Trường Đại học Sư phạm – ĐH Thái Nguyên, Trường Đại học Kỹ thuật Công nghiệp – ĐH Thái Nguyên 2 TÓM TẮT Phân tích và nhận dạng cảm xúc trong video là dựa trên các đặc trưng hình ảnh trong đoạn video để nhận dạng và phân loại cảm xúc thể hiện trong video đó. Việc phân tích đòi hỏi phải trích xuất được các đặc trưng phù hợp từ dữ liệu hình ảnh. Dữ liệu video thường có kích thước lớn đòi hỏi khả năng xử lý tính toán mạnh cũng như thuật toán phù hợp và hiệu quả, đặc biệt khi yêu cầu đòi hỏi tính toán trong thời gian thực. Trong nghiên cứu này, chúng tôi đề xuất một phương pháp trích xuất dữ liệu nhận dạng mới phù hợp với yêu cầu phân lớp và nhận dạng cảm xúc trong video. Đồng thời, chúng tôi cũng đề xuất một mô hình phân lớp dựa trên ứng dụng và cải tiến mô hình học sâu tiên tiến hiện nay là mạng nơ ron tích chập. Hiệu quả của các đề xuất mới được kiểm nghiệm bằng thực nghiệm và cho thấy kết quả tốt hơn so với các mô hình học máy truyền thống. Từ khóa: nhận dạng cảm xúc; phân loại cảm xúc; trích chọn đặc trưng; mạng nơ ron tích chập; học sâu MỞ ĐẦU* Ngày nay, cùng với sự phát triển vượt bậc của mạng Internet và các mạng xã hội như Facebook, Flicker, YouTube, .v.v, người dùng tải lên rất nhiều dữ liệu hình ảnh như các bức ảnh, các đoạn video. Các dữ liệu này không chỉ chứa đựng các thông tin quan điểm cụ thể của người dùng mà còn thể hiện trạng thái cảm xúc của họ trước các đối tượng cụ thể. Những thông tin cảm xúc này có ý nghĩa rất quan trọng cho những nhà sản xuất, kinh doanh và chính phủ, giúp tối đa hóa lợi ích cho cả hai phía, người dùng và nhà sản xuất. Các nhà sản xuất nội dung, nhà quảng cáo cũng muốn biết hiệu quả tác động đến cảm xúc của người dùng của những đặc trưng hình ảnh trên các bức ảnh, video, qua đó giúp tạo ra những sản phẩm hình ảnh có hiệu quả tác động lớn hơn. Trong vài năm trở lại đây, với sự bùng nổ của lượng dữ liệu cũng như sự phát triển mạnh mẽ của hiệu năng tính toán, việc tích hợp các thông tin hình ảnh trong các nghiên cứu nhận dạng cảm xúc đã trở nên khả thi [1][2]. Một số nghiên cứu đã bắt đầu thực hiện dự đoán trạng thái cảm xúc dựa trên những đặc trưng * Tel: 0982 203129, Email: thuhiensptn@gmail.com hình ảnh của các bức ảnh [2],[3],[4] và video [5]. Phân tích cảm xúc dựa trên hình ảnh gặp phải thách thức lớn hơn so với nhận dạng đối tượng trên hình ảnh. Công việc này đòi hỏi mức độ cao hơn về trừu tượng hóa và khái quát hóa các đặc trưng [6], qua đó giúp mô hình nhận dạng có thể thích nghi với bất kỳ bức ảnh hoặc video nào mà không phụ thuộc vào nội dung của chúng. Bên cạnh đó, những đặc trưng liên quan đến cảm xúc đôi khi là bất định và không rõ ràng do bản chất tự nhiên của cảm xúc. Mạng nơ ron tích chập (Convolutional Neural Network - CNN) là mô hình học sâu được phát triển mạnh gần đây. Mạng CNN đã đạt được những kết quả vượt bậc trong hầu hết các lĩnh vực nhận dạng và phân lớp, đặc biệt là trong xử lý ảnh , xử lý tiếng nói và xử lý ngôn ngữ tự nhiên [7]. Mạng học sâu CNN có khả năng trích xuất những đặc trưng bậc cao từ dữ liệu đầu vào nhờ tính năng khái quát hóa và trừu tượng hóa của các lớp tích chập bên trong mạng. Tuy nhiên, mạng CNN có nhược điểm là đòi hỏi lượng dữ liệu huấn luyện rất lớn để tránh hiện tượng overfitting. Đồng thời CNN cũng đòi hỏi khả năng tính toán lớn của hệ thống tính toán do số lượng rất lớn các tham số của mạng. Một số các 211 Nguyễn Thị Thu Hiền và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 181(05): 211 - 216 nghiên cứu đã áp dụng các mạng CNN cho bài toán nhận dạng cảm xúc trong ảnh [3], [8], [9] cũng như trong video [10], [11]. Các nghiên cứu này đều dựa trên nội dung của các hình ảnh để xác định cảm xúc của chúng. Để nhận dạng được nội dung hình ảnh, các mạng học sâu có cấu trúc rất phức tạp đã được sử dụng. Các mô hình này đều được huấn luyện trước bằng các tập huấn luyện rất lớn sẵn có. Cách tiếp cận này đòi hỏi hệ thống tính toán có hiệu năng cao cũng như thời gian huấn luyện mạng lớn. Thông tin màu sắc và thông tin hình ảnh đều là các yếu tố chính được sử dụng để tạo nên một tensor đầu vào từ một đoạn phim. Một tensor chính là một vector có số chiều lớn hơn 2. Để trích xuất thông tin định hướng chúng tôi sử dụng hàm Gabor [14] được mô tả bởi phương trình (1). Độ lớn đầu ra của các bộ lọc định hướng đa cấp là các tensor đặc trưng theo hướng. Trong nghiên cứu [12], các tác giả đã đề xuất một phương pháp mới sử dụng các đặc trưng về màu sắc và hướng trong video, kết hợp với bộ nhận dạng sử dụng mạng nơ ron thích nghi mờ (ANFIS) cho kết quả nhận dạng tương đối tốt. Không gian màu H*S*I* (viết tắt của Hue, Saturation và Intensity) [15] được chọn cho đặc trưng màu sắc. Để giảm chi phí tính toán chúng tôi áp dụng việc trích mẫu cho cả hai tính năng màu sắc và định hướng. Sau khi thu được ba hình ảnh của không gian màu H, S, I và bốn ma trận về hướng, đối với mỗi khung hình của một đoạn video chúng ta có bảy ma trận. Nghiên cứu [12] áp dụng phương pháp phân cụm mờ (FCM) để trích xuất các đặc trưng phù hợp với bộ phân lớp. Tuy nhiên, trong nghiên cứu này, để phát huy hiệu quả nhất khả năng trích xuất đặc trưng bậc cao của mạng CNN, chúng tôi cải tiến bằng cách áp dụng biến đổi histogram để chuyển các ma trận đầu vào sang miền tần số. Do đó, bằng cách tính biểu đồ histogram của mỗi ma trận, chúng tôi xây dựng bảy vectơ đặc trưng đầu vào cho mỗi khung hình của đoạn video. Chi tiết các tham số của quá trình trích trọn đặc trưng đầu vào sẽ được trình bày trong phần thực nghiệm. Trong nghiên cứu này, chúng tôi đề xuất một cách tiếp cận mới trong nhận dạng cảm xúc dựa trên hình ảnh. Đầu tiên, chúng tôi cải tiến phương pháp trích chọn đặc trưng dựa trên màu sắc và hướng đã áp dụng trong [12], qua đó có thể áp dụng mô hình mạng nơ ron tích chập để ...

Tài liệu có liên quan: