Danh mục tài liệu

Kỹ thuật làm tăng dữ liệu trong phân tích cảm xúc trên ngôn ngữ tiếng Việt

Số trang: 8      Loại file: pdf      Dung lượng: 657.85 KB      Lượt xem: 11      Lượt tải: 0    
Xem trước 2 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Trong nghiên cứu này đề xuất một mô hình làm tăng dữ liệu văn bản dựa trên các câu bình luận áp dụng cho ngôn ngữ tiếng Việt. Một số kỹ thuật cơ bản được sử dụng nhằm sinh thêm số lượng bình luận như chèn từ, thay thế từ, xóa từ. Kết quả thực nghiệm đã cho thấy hiệu quả của mô hình này.
Nội dung trích xuất từ tài liệu:
Kỹ thuật làm tăng dữ liệu trong phân tích cảm xúc trên ngôn ngữ tiếng Việt 20 Hồ Hướng Thiên. HCMCOUJS-Kỹ thuật và Công nghệ, 17(1), 20-27 Kỹ thuật làm tăng dữ liệu trong phân tích cảm xúc trên ngôn ngữ tiếng Việt Text data augmentation techniques for sentiment analysis based on Vietnamese language Hồ Hướng Thiên1* 1 Trường Đại học Đại học Mở Thành phố Hồ Chí Minh, Việt Nam * Tác giả liên hệ, Email: thien.hh@ou.edu.vn THÔNG TIN TÓM TẮT DOI:10.46223/HCMCOUJS. Những bình luận phản hồi trong các hệ thống trực tuyến là một tech.vi.17.1.2202.2022 nguồn dữ liệu mang nhiều thông tin, cảm xúc của khách hàng về những sản phẩm hoặc dịch vụ. Những thông tin này được khai thác nhằm đem lại những ích lợi trong việc hoạch định chiến lược, quản trị khách hàng. Để đạt được những kết quả tốt đối với mô hình phân Ngày nhận: 04/03/2022 tích cảm xúc, đòi hỏi một lượng lớn dữ liệu được gán nhãn. Chi phí cho việc gán nhãn dữ liệu huấn luyện bởi con người là rất lớn. Ngày nhận lại: 15/04/2022 Trong nghiên cứu này chúng tôi đề xuất một mô hình làm tăng dữ Duyệt đăng: 18/04/2022 liệu văn bản dựa trên các câu bình luận áp dụng cho ngôn ngữ tiếng Việt. Một số kỹ thuật cơ bản được sử dụng nhằm sinh thêm số lượng bình luận như chèn từ, thay thế từ, xóa từ. Kết quả thực nghiệm đã cho thấy hiệu quả của mô hình này. Từ khóa: đánh giá sản phẩm; khai thác ABSTRACT văn bản; kỹ thuật tăng dữ liệu; Comments from online system are used as a data source that phân tích cảm xúc; xử lý ngôn ngữ tự nhiên exist in relevant information about customer sentiment. These include sentiments toward a product or service. This is useful for making a specific decision for customers and management. In order to building a high accuracy prediction model, it requires Keywords: much more labeled data. In this paper, we have investigated a product comments; text mining; simple approach for augmenting text data based on Vietnamese text data augmentation; language comments. Four basic techniques are used to generate sentiment analysis; natural more new sentences such as random insertion, random swap, word language processing replacement, word deletion. The results of experimental shows that the proposed approach is efficient. 1. Giới thiệu Trong thời đại số hóa như hiện nay, ngày càng có nhiều người dùng đưa ra những ý kiến đóng góp trên các website thương mại, mạng xã hội. Những bình luận này rất quan trọng đối với nhiều doanh nghiệp và dịch vụ, bởi những ý kiến đó cung cấp một số lượng lớn thông tin nhằm hỗ trợ doanh nghiệp, giúp họ nâng cao chất lượng sản phẩm và dịch vụ. Do vậy, các quyết định của các công ty đối với khách hàng dựa nhiều vào những đánh giá này (Pang & Lee, 2008). Tuy nhiên, sử dụng các cách thủ công áp dụng cho việc phân tích những bình luận này sẽ mất rất nhiều thời gian và việc tổng quát hóa các kết quả cũng rất khó khăn. Phân tích cảm xúc là một Hồ Hướng Thiên. HCMCOUJS-Kỹ thuật và Công nghệ, 17(1), 20-27 21 chủ đề nghiên cứu dựa trên phương pháp học máy nhằm tìm ra ý kiến của con người thông qua những câu bình luận. Thời gian gần đây, phân tích cảm xúc nhận được sự quan tâm rất lớn và đã được áp dụng rộng rãi vào các lĩnh vực như phân tích thị trường (Chopra & Sharma, 2021), phân tích tỷ lệ đánh giá sản phẩm (Sayyed & Samara, 2020), lĩnh vực chính trị (Costa, Aparicio, & Aparicio, 2021; Matalon, Magdaci, Almozlino, & Yarim, 2021), truyền thông xã hội (Drus & Khalid, 2019). Phân tích cảm xúc có thể được xem là một bài toán trong khai thác văn bản thuộc lĩnh vực xử lý ngôn ngữ tự nhiên. Do phải hiểu được ngữ nghĩa trong bối cảnh nhất định, cho nên việc phân tích trên những đoạn văn bản ngắn khó khăn hơn nhiều so với những đoạn văn bản dài. Dựa trên mục đích của việc phân lớp, cảm xúc của một bình luận có thể được phân ra thành nhiều loại khác nhau như: Tiêu cực, tích cực, trung lập. Như vậy, việc thu thập một số lượng lớn dữ liệu không có nhãn từ các hệ thống mạng xã hội là tương đối đơn giản nhưng việc gán nhãn đầy đủ loại cảm xúc cho các câu bình luận rất tốn chi phí. Kết quả phân lớp dựa rất nhiều vào dữ liệu được gán nhãn, đồng thời yêu cầu s ...