Danh mục

Trích xuất danh mục khía cạnh sử dụng BERT với hàm mất mát cân bằng

Số trang: 9      Loại file: pdf      Dung lượng: 0.00 B      Lượt xem: 141      Lượt tải: 0    
Xem trước 1 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Bài viết Trích xuất danh mục khía cạnh sử dụng BERT với hàm mất mát cân bằng trình bày đề xuất một phương pháp cải tiến sử dụng mô hình học sâu dựa trên BERT để giải quyết và nâng cao hiệu năng cho nhiệm vụ trích xuất danh mục khía cạnh.
Nội dung trích xuất từ tài liệu:
Trích xuất danh mục khía cạnh sử dụng BERT với hàm mất mát cân bằng Nguyễn Thị Thanh Thủy, Nguyễn Ngọc Điệp TRÍCH XUẤT DANH MỤC KHÍA CẠNH SỬ DỤNG BERT VỚI HÀM MẤT MÁT CÂN BẰNG Nguyễn Thị Thanh Thủy, Nguyễn Ngọc Điệp Học viện Công nghệ Bưu chính Viễn thông Tóm tắt: Trích xuất danh mục khía cạnh (aspect gán một nhãn phân cực (tích cực, tiêu cực hoặc trung tính) category extraction) là nhiệm vụ đầu tiên trong bài toán cho mỗi loại khía cạnh đã được xác định. Ví dụ, cho một khai thác quan điểm dựa trên khía cạnh (aspect-based câu văn bản đầu vào là: “Tôi thấy đồ ăn ở đây khá ngon, opinion mining). Đây là một nhiệm vụ khó khăn vì người nhưng lại hơi xa khu trung tâm”, thì đầu ra của một hệ dùng thường sử dụng các từ khóa khác nhau để diễn tả về thống khai thác quan điểm dựa trên khía cạnh sẽ là: 1) Có cùng một khía cạnh hoặc nhiều khi chỉ dùng các từ ngụ ý hai loại danh mục khía cạnh người dùng nhắc đến: đồ ăn và đề cập đến khía cạnh. Các phương pháp học máy có giám vị trí của nhà hàng. 2) Hai nhãn phân loại phân cực cảm sát nói chung được đánh giá là có độ chính xác cao, tuy xúc tương ứng với từng danh mục khía cạnh: tích cực (hài nhiên thường tốn kém nhiều công sức trong việc gán nhãn lòng) với “đồ ăn”, và tiêu cực (không hài lòng) với “vị trí” dữ liệu huấn luyện, đặc biệt là cho các miền lĩnh vực mới. của nhà hàng. Hơn nữa, các phương pháp này thường yêu cầu phải có Thực tế hiện nay, nguồn dữ liệu web được phát triển vô kiến thức chuyên gia giúp trích chọn ra được các đặc trưng cùng phong phú và đa dạng, trong đó ngày càng có nhiều thủ công hữu ích đối với miền lĩnh vực nghiên cứu. Bài hơn những bình luận/đánh giá của người dùng về các sản báo này trình bày đề xuất một phương pháp cải tiến sử phẩm/dịch vụ mà họ đã từng mua/sử dụng với mức độ chi dụng mô hình học sâu dựa trên BERT để giải quyết và tiết đến từng khía cạnh/đặc trưng của sản phẩm/dịch vụ. nâng cao hiệu năng cho nhiệm vụ trích xuất danh mục khía Việc phân tích quan điểm của người dùng đối với các sản cạnh. Mô hình đề xuất tự học các đặc trưng từ chuỗi dữ phẩm/dịch vụ theo khía cạnh/đặc trưng đóng vai trò quan liệu văn bản đầu vào và biểu diễn hiệu quả nhờ BERT. trọng cả với người dùng là khách hàng, người bán hàng và Ngoài ra, để khắc phục vấn đề mất cân bằng dữ liệu giữa nhà sản xuất. Kết quả phân tích sẽ giúp khách hàng lựa chọn các nhãn lớp, chúng tôi đề xuất sử dụng các hàm mất mát được sản phẩm/dịch vụ tốt; giúp người bán hàng và nhà sản cân bằng (balanced loss functions). Kết quả thực nghiệm xuất nắm được thị hiếu của khách hàng, xu hướng thị cho thấy mô hình đề xuất có hiệu năng vượt trội hơn, với trường; cũng từ đó, giúp nhà sản xuất định hướng thiết kế, trung bình độ đo F1 cao nhất đạt 77%. phát triển các dòng sản phẩm/dịch vụ tiếp theo. Từ khóa: trích xuất danh mục khía cạnh, học máy, Có thể nhận thấy, nhiệm vụ trích xuất danh mục khía học sâu, BERT, hàm mất mát cân bằng. cạnh đóng rất vai trò quan trọng trong khai thác quan điểm dựa trên khía cạnh, bởi hai lý do sau. (1) Khi trích xuất được I. GIỚI THIỆU chính xác khía cạnh người dùng muốn nói đến trong văn Trong những năm gần đây, khai thác quan điểm dựa trên bản, thì mới có thể biết được ý kiến/quan điểm của họ về khía cạnh (aspect-based opinion mining) là một chủ đề thuộc tính cụ thể nào của sản phẩm/dịch vụ được đề cập nhận được rất nhiều quan tâm từ cộng đồng nghiên cứu xử đến, thay vì chỉ biết được ý kiến/quan điểm về sản lý ngôn ngữ tự nhiên (natural language processing) và khai phẩm/dịch vụ nói chung. Và (2) độ chính xác của phân loại phá dữ liệu (data mining). Không giống như phân loại cảm cảm xúc phụ thuộc vào độ chính xác của việc trích xuất xúc (sentiment classification), trong đó xác định cảm xúc danh mục khía cạnh trong khai thác quan điểm dựa trên chung cho một văn bản có thể hiện quan điểm/ý kiến, khai khía cạnh. thác quan điểm dựa trên khía cạnh nhằm xác định cảm xúc Trong một nghiên cứu trước của nhóm [4], chúng tôi đã cho từng khía cạnh của sản phẩm/dịch vụ được diễn tả trong giải quyết nhiệm vụ trích xuất danh mục khía cạnh sử dụng văn bản. Cụ thể, khai thác quan điểm dựa trên khía cạnh các phương pháp học máy có giám sát truyền thống, với đề bao gồm hai nhiệm vụ chính là: 1) Trích xuất danh mục xuất sử dụng thêm tài nguyên sẵn có từ các ngôn ngữ gi ...

Tài liệu được xem nhiều:

Tài liệu có liên quan: