
Giải pháp phân loại chủ đề tự động cho bản tin thời sự truyền hình bằng kỹ thuật học máy
Thông tin tài liệu:
Nội dung trích xuất từ tài liệu:
Giải pháp phân loại chủ đề tự động cho bản tin thời sự truyền hình bằng kỹ thuật học máy GIẢI PHÁP PHÂN LOẠI CHỦ ĐỀ TỰ ĐỘNG CHO BẢN TIN THỜI SỰ TRUYỀN HÌNH BẰNG KỸ THUẬT HỌC MÁY Nguyễn Tấn Phú, Lâm Thanh Toản, Từ Thái Bảo Trường Đại học Kỹ thuật - Công nghệ Cần thơ Email:ntanphu@ctuet.edu.vnThông tin chung: TÓM TẮTNgày nhận bài: 29.12.2023 Phân loại video bằng học máy trở thành một lĩnh vực tiềmNgày nhận bài sửa: 08.4.2024 năng, giúp tự động nhận dạng và phân loại vào các danh mụcNgày duyệt đăng: 08.4.2024 tương ứng. Quá trình này bắt đầu bằng việc tiền xử lý dữ liệu video để trích xuất và chuyển đổi thông tin thành đặc trưng số Từ khóa: học. Đặc biệt, các thuật toán học máy như KNN, SVM, CNN và PhoBERT được sử dụng để xử lý và phân tích nội dung videoHọc máy, Phân loại video, cũng như thông tin ngôn ngữ trong video. Trong thực nghiệm, dữTrích xuất đặc trưng, Xử lý liệu được thu thập từ hệ thống lưu trữ nội bộ của Đài Phát thanhngôn ngữ tự nhiên và Truyền hình thành phố Cần Thơ, với mỗi video có độ dài trung bình khoảng 3 phút. Các thuật toán đã được triển khai và đánh giá trên tập dữ liệu này để đo lường và so sánh hiệu suất. Kết quả của thuật toán PhoBERT, với độ chính xác đạt tới 98%. Từ kết quả cho thấy khả năng vượt trội của PhoBERT trong việc xử lý và nhận dạng nội dung video, tạo điều kiện thuận lợi cho việc phát triển hệ thống phân loại video tự động. 1. GIỚI THIỆU Trên phạm vi toàn cầu, việc ứng dụng AI để tự động phân loại chủ đề đã thu hút sự quan Trong những năm qua, sự tiến bộ đột phá tâm đặc biệt, mang lại những tiến bộ đột phácủa công nghệ và sự lan tỏa mạnh mẽ của cho ngành truyền thông.mạng xã hội đã biến Internet thành mộtnguồn thông tin đa dạng, từ sách, báo, hình 2. PHƯƠNG PHÁP NGHIÊN CỨUảnh đến video và âm nhạc. Trong đó, video 2.1. Các nghiên cứu có liên quanđóng vai trò ngày càng quan trọng, tác độngsâu rộng vào xã hội. Điều này làm cho việc Nghiên cứu của (Ahmed và cộng sự,phân loại video dựa trên nội dung trở nên cực 2020) đã giới thiệu một phương pháp tiên tiếnkỳ quan trọng, đặc biệt trong lĩnh vực bản tin để phát hiện tin giả thông qua kỹ thuật họcthời sự truyền hình, việc tự động phân loại máy, chủ yếu tập trung vào xử lý ngôn ngữ tựchủ đề đóng vai trò then chốt để cung cấp nhiên. Nghiên cứu này tập trung vào việc phátthông tin chính xác và đáng tin cậy. triển các thuật toán có khả năng phân tích nội Công nghệ trí tuệ nhân tạo (AI) và xử lý dung văn bản để phân biệt giữa thông tin đángngôn ngữ tự nhiên (NLP) đã đạt được sự tin cậy và thông tin không chính xác. Bằngphát triển đáng kể, mở ra khả năng tự động cách kết hợp phương pháp rút trích đặc trưnghóa việc phân loại video. Ở Việt Nam, việcáp dụng AI trong lĩnh vực truyền thông TF-IDF (Term Frequency-Inverse Documentkhông chỉ góp phần thúc đẩy sự tiến bộ của Frequency) với các thuật toán Naïve Bayes,ngành mà còn tối ưu hóa quá trình sản xuất Passive Aggressive và SVM. Kết quả thựcnội dung, nâng cao trải nghiệm người xem.12 TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ CẦN THƠ - SỐ 02 THÁNG 05/2024nghiệm trên nhiều tập dữ liệu cho thấy, mô Dựa trên các công trình nghiên cứu hiệnhình này đạt được độ chính xác lên đến 93%. có, đã có nhiều phương pháp đề xuất để phân loại video dựa trên nội dung và tính chất của Trong lĩnh vực phân loại video, Gao(2021) đã tiến hành nghiên cứu chi tiết bằng video. Mỗi phương pháp đều mang lại những ưu điểm và hạn chế riêng. Trong nghiên cứuviệc áp dụng mô hình kiến trúc ResNet-v2. này, chúng tôi đã sử dụng kỹ thuật học máyTác giả đã đặt nền tảng nghiên cứu trên sự kết và phân tích thống kê, cùng với việc chuẩnhợp và cải tiến của thuật toán Adam cùng hóa dữ liệu. Mục tiêu chính là phát triển mộtthuật toán Gradient Descent, nhằm tối ưu hóahiệu suất học. Kết quả thực nghiệm đã cho phương pháp phân loại video chính xác và hiệu quả hơn dựa trên nội dung và đặc điểmthấy thuật toán Adam cải tiến hiệu quả trongviệc cập nhật trọng số mạng và đạt được sự của video.hội tụ nhanh chóng. Đặc biệt, mô hìnhInception-ResNet-v2 sau khi được cải tiến đã 2.2. Mô hình đề xuất của hệ thốngvượt trội so với các mô hình mạng nơron tích Mô hình đề xuất cho hệ thống tự độngchập (CNN) thông thường, với tỷ lệ chính xác phân loại chủ đề được biểu diễn trong Hìnhphân loại lên tới 91,47% trên tập dữ liệu video 1. Mô hình này được thiết kế với 4 giai đoạn:tin tức. (1) Chuyển đổi và tiền xử lý dữ liệu; (2) Rút Luo (2021) triển khai phương pháp máy ...
Tìm kiếm theo từ khóa liên quan:
Phân loại video bằng học máy Trích xuất đặc trưng Xử lý ngôn ngữ tự nhiên Phương pháp trích đặc trưng dữ liệu TF-IDF Thuật toán PhoBERTTài liệu có liên quan:
-
12 trang 337 0 0
-
Phương pháp tạo ra văn bản tiếng Việt có đề tài xác định
7 trang 284 0 0 -
Giáo trình Lập trình logic trong prolog: Phần 1
114 trang 224 0 0 -
Xây dựng ontology trợ giúp ra quyết định về đào tạo cho các trường Đại học ở Việt Nam
10 trang 180 0 0 -
Tích hợp DSM và ảnh chụp UAV với mô hình nơ-ron tích chập trong phân loại lớp phủ mặt đất
8 trang 167 0 0 -
74 trang 161 0 0
-
Bài giảng Xử lý ngôn ngữ tự nhiên: Phân tích cú pháp xác suất - Lê Thanh Hương
19 trang 156 0 0 -
Trích xuất danh mục khía cạnh sử dụng BERT với hàm mất mát cân bằng
9 trang 142 0 0 -
Xây dựng các cặp câu hỏi - câu trả lời chất lượng cao từ các trang Web hỏi đáp cộng đồng
9 trang 125 0 0 -
Tóm tắt luận án Tiến sĩ Kỹ thuật: Sử dụng ngôn ngữ trục trong dịch đa ngữ
27 trang 101 0 0 -
Triển khai AI trong dạy học và nghiên cứu khoa học của sinh viên theo xu hướng chuyển đổi số
13 trang 76 0 0 -
Trích xuất thực thể trong an toàn thông tin sử dụng học sâu
8 trang 60 0 0 -
Mô hình thống kê học sâu trong nhận dạng khuôn mặt
11 trang 59 0 0 -
Phát hiện trạng thái hệ thống điện bị tấn công an ninh mạng dựa trên máy học
6 trang 56 0 0 -
Mô hình Transformers và ứng dụng trong xử lý ngôn ngữ tự nhiên
11 trang 55 0 0 -
Xây dựng Wordnet tiếng Việt tự động bằng ngữ liệu song ngữ
8 trang 45 0 0 -
Sử dụng mạng nơ-ron đồ thị để phân tích cảm xúc cho bình luận
15 trang 44 0 0 -
Xây dựng bộ ngữ liệu đồng tham chiếu cho tiếng Việt
7 trang 44 0 0 -
Nhận dạng cử chỉ bàn tay dùng mạng nơ-ron chập
4 trang 42 0 0 -
Giáo trình Trí Tuệ Nhân Tạo - chapter 1
43 trang 41 0 0