Truy vấn video dựa vào nội dung bằng phương pháp Deep Neural Networks
Số trang: 9
Loại file: pdf
Dung lượng: 1.04 MB
Lượt xem: 23
Lượt tải: 0
Xem trước 2 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Bài viết đề xuất sử dụng DNN biểu diễn các thuộc tính thuộc về nội dung cho các hình ảnh trong video. Những thuộc tính rút trích được sẽ làm tiền đề cho việc lập chỉ mục và tìm kiếm cho các hệ thống truy vấn video.
Nội dung trích xuất từ tài liệu:
Truy vấn video dựa vào nội dung bằng phương pháp Deep Neural Networks Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XIV về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR), TP. HCM, ngày 23-24/12/2021 DOI: 10.15625/vap.2021.0040 TRUY VẤN VIDEO DỰA VÀO NỘI DUNG BẰNG PHƯƠNG PHÁP DEEP NEURAL NETWORKS Phan Anh Cang1, Lê Phương Thảo1, Phan Thượng Cang2 1 Khoa Công nghệ thông tin, Trường Đại học Sư phạm Kỹ thuật Vĩnh Long 2 Khoa Công nghệ Thông tin và Truyền Thông, Trường Đại học Cần Thơ cangpa@vlute.edu.vn, lpthao1187@gmail.com, ptcang@cit.ctu.edu.vn TÓM TẮT: Deep Neural Networks (DNN) - Một thuật toán học máy sử dụng mạng neural nhân tạo nhiều tầng vào các lĩnh vực xử lý ảnh, xử lý âm thanh, xử lý ngôn ngữ tự nhiên… đang nhận được sự quan tâm của các nhà khoa học trên thế giới. Trong bài báo này, chúng tôi đề xuất sử dụng DNN biểu diễn các thuộc tính thuộc về nội dung cho các hình ảnh trong video. Những thuộc tính rút trích được sẽ làm tiền đề cho việc lập chỉ mục và tìm kiếm cho các hệ thống truy vấn video. Để thực hiện công việc này, chúng tôi xây dựng một số mô hình DNN phổ biến hiện nay như Faster R-CNN Inception Resnet v2, SSD Mobile v2, Faster R-CNN Resnet để đánh giá độ chính xác trên tập dữ liệu thu thập được từ kho nội dung của Đài Phát thanh và Truyền hình Vĩnh Long. Kết quả thực nghiệm cho thấy phương pháp có sử dụng DNN đạt độ chính xác cao từ 86% đến 95%. Đây cũng là cơ sở cho những nghiên cứu có liên quan trong việc lựa chọn mô hình phù hợp cho việc trích xuất nội dung từ video nhằm phục vụ cho việc truy vấn video dựa vào nội dung theo hướng tiếp cận dữ liệu lớn. Từ khóa: Truy vấn video, Deep Neural Networks, Faster R-CNN Resnet, SSD Mobilenet. I. GIỚI THIỆU Hiện nay, video đang là một trong những phương thức truyền tải thông tin dễ dàng tiếp cận được nhiều người dùng trên thế giới. Với ưu điểm trực quan, sinh động, hình ảnh của video bao hàm nhiều nội dung mà không cần thể hiện cụ thể bằng ngôn ngữ. Tận dụng những nội dung này phục vụ cho việc lưu trữ và tìm kiếm chính là thách thức đặt ra cho các nhà quản trị kênh truyền thông đa phương tiện. Từ thực tế đó, bài toán đề xuất được đặt ra và mô tả như sau: Đầu vào là nội dung mà người dùng muốn tìm kiếm, đầu ra là danh sách các video có chứa nội dung đó. Khái niệm nội dung ở đây chính là những thông tin được thể hiện bằng hình ảnh mà không cần từ ngữ cụ thể. Bài toán này có tính ứng dụng cao trong các hệ thống phục vụ truy vấn video bởi các công cụ tìm kiếm thông thường chỉ dựa trên tên và một số ít thông tin của video, dễ bỏ qua những tìm kiếm chuyên sâu vào nội dung. Những năm gần đây, nhiều phương pháp truy vấn video dựa vào nội dung đã được đưa ra. Năm 2016, Đỗ Văn Tiến, Lâm Quang Vũ, Phan Lê Sang, Ngô Đức Thành, Lê Đình Duy, Dương Anh Đức đã đề xuất một hệ thống phát hiện cảnh bạo lực trong video dựa vào thuộc tính biểu diễn qua ba mô hình DNN phổ biến như Alex Net, UavNet, VGG để đánh giá độ chính xác trên tập dữ liệu chuẩn VSD 2014 [1]. Kết quả thực nghiệm cho thấy, độ chính xác khi sử dụng DNN là 48,12 % cao hơn so với phương pháp tốt nhất không sử dụng DNN là 13 %. Năm 2018 Mr. Braveen M. đề xuất một phương pháp truy xuất video dựa trên nội dung với các đa thức trực giao [2]. Hệ thống này đề xuất nhận dạng các khung hình chính từ các hình ảnh đầu vào và sử dụng màu sắc, kết cấu, góc cạnh và hình dạng của nội dung trực quan. Sau đó các đặc trưng này sẽ được lập chỉ mục, đối sánh và phục vụ truy xuất. Phương pháp này chỉ được thực nghiệm trên 20 video và chỉ sử dụng đặc trưng từ hình ảnh. Tháng 7/2018 Mrs S. Renukadevi cũng đề xuất một mô hình tìm kiếm video dựa vào kỹ thuật phân cụm trích xuất đặc trưng và mô hình cây quyết định [3]. Hệ thống thực nghiệm trên tập dữ liệu gồm 100 video bằng 3 kỹ thuật phân cụm trích xuất đặc trưng và đạt độ chính xác cao nhất là 37%. Cũng trong năm 2018, Le Wang, Jinliang Zang, Qilin Zhang, Zhenxing Niu, Gang Hua và Nanning Zheng đề xuất CNN có trọng số thời gian theo thời gian (ATW CNN) để nhận dạng hành động trong video [4]. Kết quả thử nghiệm trên bộ dữ liệu UCF-101 và HMDB-51 cho thấy hiệu suất nhận dạng các phân đoạn video có liên quan khi sử dụng mô hình này tăng đáng kể. Và đóng góp của chúng tôi trong nghiên cứu này chính là các tập dữ liệu đã được lập chỉ mục sau khi thực nghiệm; phương pháp rút trích nội dung video dựa vào đặc trưng đối tượng trên hình ảnh; cải tiến các mạng Deep Neural Network trong quá trình nghiên cứu; so sánh, đánh giá về độ chính xác và thời gian của các phương pháp đề xuất để cung cấp thêm cơ sở khoa học cho các nghiên cứu về sau. Trong nội dung bài báo, chúng tôi tập trung chủ yếu vào việc áp dụng ba kiến trúc mô hình Deep Neural Network hiện đại trong phát hiện đối tượng, cụ thể là Faster R-CNN Resnet, Faster R-CNN Inception Resnet v2, Single Shot Detector Mobilenet v2. II. CÔNG VIỆC LIÊN QUAN A. Deep Neural Network Deep Neural Network [5] là hệ thống cấu trúc thần kinh phức tạp gồm nhiều đơn vị neural network mà trong đó, ngoài các lớp nguồn vào (input), nguồn ra (output) thì có nhiều lớp ẩn (hidden layer). Mỗi lớp này sẽ thực hiện một kiểu phân loại và sắp xếp riêng trong một quá trình gọi là “phân cấp tính năng” và mỗi lớp đảm nhiệm một trọng trách riêng, output của lớp này sẽ là input của lớp sau. Deep Neural Network được xây dựng với mục đích mô phỏng hoạt động não bộ phức tạp của con người và được áp dụng vào nhiều lĩnh vực khác nhau, mang lại thành công và những hiệu quả đáng kinh ngạc. Phan Anh Cang, Lê Phương Thảo, Phan Thượng Cang 35 Hìn ...
Nội dung trích xuất từ tài liệu:
Truy vấn video dựa vào nội dung bằng phương pháp Deep Neural Networks Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XIV về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR), TP. HCM, ngày 23-24/12/2021 DOI: 10.15625/vap.2021.0040 TRUY VẤN VIDEO DỰA VÀO NỘI DUNG BẰNG PHƯƠNG PHÁP DEEP NEURAL NETWORKS Phan Anh Cang1, Lê Phương Thảo1, Phan Thượng Cang2 1 Khoa Công nghệ thông tin, Trường Đại học Sư phạm Kỹ thuật Vĩnh Long 2 Khoa Công nghệ Thông tin và Truyền Thông, Trường Đại học Cần Thơ cangpa@vlute.edu.vn, lpthao1187@gmail.com, ptcang@cit.ctu.edu.vn TÓM TẮT: Deep Neural Networks (DNN) - Một thuật toán học máy sử dụng mạng neural nhân tạo nhiều tầng vào các lĩnh vực xử lý ảnh, xử lý âm thanh, xử lý ngôn ngữ tự nhiên… đang nhận được sự quan tâm của các nhà khoa học trên thế giới. Trong bài báo này, chúng tôi đề xuất sử dụng DNN biểu diễn các thuộc tính thuộc về nội dung cho các hình ảnh trong video. Những thuộc tính rút trích được sẽ làm tiền đề cho việc lập chỉ mục và tìm kiếm cho các hệ thống truy vấn video. Để thực hiện công việc này, chúng tôi xây dựng một số mô hình DNN phổ biến hiện nay như Faster R-CNN Inception Resnet v2, SSD Mobile v2, Faster R-CNN Resnet để đánh giá độ chính xác trên tập dữ liệu thu thập được từ kho nội dung của Đài Phát thanh và Truyền hình Vĩnh Long. Kết quả thực nghiệm cho thấy phương pháp có sử dụng DNN đạt độ chính xác cao từ 86% đến 95%. Đây cũng là cơ sở cho những nghiên cứu có liên quan trong việc lựa chọn mô hình phù hợp cho việc trích xuất nội dung từ video nhằm phục vụ cho việc truy vấn video dựa vào nội dung theo hướng tiếp cận dữ liệu lớn. Từ khóa: Truy vấn video, Deep Neural Networks, Faster R-CNN Resnet, SSD Mobilenet. I. GIỚI THIỆU Hiện nay, video đang là một trong những phương thức truyền tải thông tin dễ dàng tiếp cận được nhiều người dùng trên thế giới. Với ưu điểm trực quan, sinh động, hình ảnh của video bao hàm nhiều nội dung mà không cần thể hiện cụ thể bằng ngôn ngữ. Tận dụng những nội dung này phục vụ cho việc lưu trữ và tìm kiếm chính là thách thức đặt ra cho các nhà quản trị kênh truyền thông đa phương tiện. Từ thực tế đó, bài toán đề xuất được đặt ra và mô tả như sau: Đầu vào là nội dung mà người dùng muốn tìm kiếm, đầu ra là danh sách các video có chứa nội dung đó. Khái niệm nội dung ở đây chính là những thông tin được thể hiện bằng hình ảnh mà không cần từ ngữ cụ thể. Bài toán này có tính ứng dụng cao trong các hệ thống phục vụ truy vấn video bởi các công cụ tìm kiếm thông thường chỉ dựa trên tên và một số ít thông tin của video, dễ bỏ qua những tìm kiếm chuyên sâu vào nội dung. Những năm gần đây, nhiều phương pháp truy vấn video dựa vào nội dung đã được đưa ra. Năm 2016, Đỗ Văn Tiến, Lâm Quang Vũ, Phan Lê Sang, Ngô Đức Thành, Lê Đình Duy, Dương Anh Đức đã đề xuất một hệ thống phát hiện cảnh bạo lực trong video dựa vào thuộc tính biểu diễn qua ba mô hình DNN phổ biến như Alex Net, UavNet, VGG để đánh giá độ chính xác trên tập dữ liệu chuẩn VSD 2014 [1]. Kết quả thực nghiệm cho thấy, độ chính xác khi sử dụng DNN là 48,12 % cao hơn so với phương pháp tốt nhất không sử dụng DNN là 13 %. Năm 2018 Mr. Braveen M. đề xuất một phương pháp truy xuất video dựa trên nội dung với các đa thức trực giao [2]. Hệ thống này đề xuất nhận dạng các khung hình chính từ các hình ảnh đầu vào và sử dụng màu sắc, kết cấu, góc cạnh và hình dạng của nội dung trực quan. Sau đó các đặc trưng này sẽ được lập chỉ mục, đối sánh và phục vụ truy xuất. Phương pháp này chỉ được thực nghiệm trên 20 video và chỉ sử dụng đặc trưng từ hình ảnh. Tháng 7/2018 Mrs S. Renukadevi cũng đề xuất một mô hình tìm kiếm video dựa vào kỹ thuật phân cụm trích xuất đặc trưng và mô hình cây quyết định [3]. Hệ thống thực nghiệm trên tập dữ liệu gồm 100 video bằng 3 kỹ thuật phân cụm trích xuất đặc trưng và đạt độ chính xác cao nhất là 37%. Cũng trong năm 2018, Le Wang, Jinliang Zang, Qilin Zhang, Zhenxing Niu, Gang Hua và Nanning Zheng đề xuất CNN có trọng số thời gian theo thời gian (ATW CNN) để nhận dạng hành động trong video [4]. Kết quả thử nghiệm trên bộ dữ liệu UCF-101 và HMDB-51 cho thấy hiệu suất nhận dạng các phân đoạn video có liên quan khi sử dụng mô hình này tăng đáng kể. Và đóng góp của chúng tôi trong nghiên cứu này chính là các tập dữ liệu đã được lập chỉ mục sau khi thực nghiệm; phương pháp rút trích nội dung video dựa vào đặc trưng đối tượng trên hình ảnh; cải tiến các mạng Deep Neural Network trong quá trình nghiên cứu; so sánh, đánh giá về độ chính xác và thời gian của các phương pháp đề xuất để cung cấp thêm cơ sở khoa học cho các nghiên cứu về sau. Trong nội dung bài báo, chúng tôi tập trung chủ yếu vào việc áp dụng ba kiến trúc mô hình Deep Neural Network hiện đại trong phát hiện đối tượng, cụ thể là Faster R-CNN Resnet, Faster R-CNN Inception Resnet v2, Single Shot Detector Mobilenet v2. II. CÔNG VIỆC LIÊN QUAN A. Deep Neural Network Deep Neural Network [5] là hệ thống cấu trúc thần kinh phức tạp gồm nhiều đơn vị neural network mà trong đó, ngoài các lớp nguồn vào (input), nguồn ra (output) thì có nhiều lớp ẩn (hidden layer). Mỗi lớp này sẽ thực hiện một kiểu phân loại và sắp xếp riêng trong một quá trình gọi là “phân cấp tính năng” và mỗi lớp đảm nhiệm một trọng trách riêng, output của lớp này sẽ là input của lớp sau. Deep Neural Network được xây dựng với mục đích mô phỏng hoạt động não bộ phức tạp của con người và được áp dụng vào nhiều lĩnh vực khác nhau, mang lại thành công và những hiệu quả đáng kinh ngạc. Phan Anh Cang, Lê Phương Thảo, Phan Thượng Cang 35 Hìn ...
Tìm kiếm theo từ khóa liên quan:
Truy vấn video Phương pháp Deep Neural Networks Mạng neural nhân tạo Mô hình Faster R-CNN Resnet Mô hình SSD MobilenetTài liệu có liên quan:
-
Điều khiển cánh tay robot học vẽ
7 trang 41 0 0 -
Tiểu luận: Ứng dụng mạng neural trong nhận dạng ký tự quang học
21 trang 28 0 0 -
Ứng dụng mạng Neural trong đánh giá rủi ro kiểm toán xây dựng
7 trang 25 0 0 -
Nhận dạng đối tượng phi tuyến động trên cơ sở mạng neural nhân tạo
15 trang 23 0 0 -
85 trang 22 0 0
-
Nhận dạng ký tự bằng mạng Neural lan truyền ngược
5 trang 20 0 0 -
Giải phương trình đạo hàm riêng sử dụng mạng neural nhân tạo
10 trang 19 0 0 -
Ứng dụng mạng neural nhân tạo bù sai số phi hình học cho tay máy robot
6 trang 17 0 0 -
45 trang 16 0 0
-
Khoá luận tốt nghiệp ngành Công nghệ thông tin: KANTS: Hệ kiến nhân tạo cho phân lớp
57 trang 15 0 0