![Phân tích tư tưởng của nhân dân qua đoạn thơ: Những người vợ nhớ chồng… Những cuộc đời đã hóa sông núi ta trong Đất nước của Nguyễn Khoa Điềm](https://thuvienso.net/upload/document/136415/phan-tich-tu-tuong-cua-nhan-dan-qua-doan-tho-039-039-nhung-nguoi-vo-nho-chong-nhung-cuoc-doi-da-hoa-song-nui-ta-039-039-trong-dat-nuoc-cua-nguyen-khoa-136415.jpg)
Trích xuất danh mục khía cạnh sử dụng BERT với hàm mất mát cân bằng
Thông tin tài liệu:
Nội dung trích xuất từ tài liệu:
Trích xuất danh mục khía cạnh sử dụng BERT với hàm mất mát cân bằng Nguyễn Thị Thanh Thủy, Nguyễn Ngọc Điệp TRÍCH XUẤT DANH MỤC KHÍA CẠNH SỬ DỤNG BERT VỚI HÀM MẤT MÁT CÂN BẰNG Nguyễn Thị Thanh Thủy, Nguyễn Ngọc Điệp Học viện Công nghệ Bưu chính Viễn thông Tóm tắt: Trích xuất danh mục khía cạnh (aspect gán một nhãn phân cực (tích cực, tiêu cực hoặc trung tính) category extraction) là nhiệm vụ đầu tiên trong bài toán cho mỗi loại khía cạnh đã được xác định. Ví dụ, cho một khai thác quan điểm dựa trên khía cạnh (aspect-based câu văn bản đầu vào là: “Tôi thấy đồ ăn ở đây khá ngon, opinion mining). Đây là một nhiệm vụ khó khăn vì người nhưng lại hơi xa khu trung tâm”, thì đầu ra của một hệ dùng thường sử dụng các từ khóa khác nhau để diễn tả về thống khai thác quan điểm dựa trên khía cạnh sẽ là: 1) Có cùng một khía cạnh hoặc nhiều khi chỉ dùng các từ ngụ ý hai loại danh mục khía cạnh người dùng nhắc đến: đồ ăn và đề cập đến khía cạnh. Các phương pháp học máy có giám vị trí của nhà hàng. 2) Hai nhãn phân loại phân cực cảm sát nói chung được đánh giá là có độ chính xác cao, tuy xúc tương ứng với từng danh mục khía cạnh: tích cực (hài nhiên thường tốn kém nhiều công sức trong việc gán nhãn lòng) với “đồ ăn”, và tiêu cực (không hài lòng) với “vị trí” dữ liệu huấn luyện, đặc biệt là cho các miền lĩnh vực mới. của nhà hàng. Hơn nữa, các phương pháp này thường yêu cầu phải có Thực tế hiện nay, nguồn dữ liệu web được phát triển vô kiến thức chuyên gia giúp trích chọn ra được các đặc trưng cùng phong phú và đa dạng, trong đó ngày càng có nhiều thủ công hữu ích đối với miền lĩnh vực nghiên cứu. Bài hơn những bình luận/đánh giá của người dùng về các sản báo này trình bày đề xuất một phương pháp cải tiến sử phẩm/dịch vụ mà họ đã từng mua/sử dụng với mức độ chi dụng mô hình học sâu dựa trên BERT để giải quyết và tiết đến từng khía cạnh/đặc trưng của sản phẩm/dịch vụ. nâng cao hiệu năng cho nhiệm vụ trích xuất danh mục khía Việc phân tích quan điểm của người dùng đối với các sản cạnh. Mô hình đề xuất tự học các đặc trưng từ chuỗi dữ phẩm/dịch vụ theo khía cạnh/đặc trưng đóng vai trò quan liệu văn bản đầu vào và biểu diễn hiệu quả nhờ BERT. trọng cả với người dùng là khách hàng, người bán hàng và Ngoài ra, để khắc phục vấn đề mất cân bằng dữ liệu giữa nhà sản xuất. Kết quả phân tích sẽ giúp khách hàng lựa chọn các nhãn lớp, chúng tôi đề xuất sử dụng các hàm mất mát được sản phẩm/dịch vụ tốt; giúp người bán hàng và nhà sản cân bằng (balanced loss functions). Kết quả thực nghiệm xuất nắm được thị hiếu của khách hàng, xu hướng thị cho thấy mô hình đề xuất có hiệu năng vượt trội hơn, với trường; cũng từ đó, giúp nhà sản xuất định hướng thiết kế, trung bình độ đo F1 cao nhất đạt 77%. phát triển các dòng sản phẩm/dịch vụ tiếp theo. Từ khóa: trích xuất danh mục khía cạnh, học máy, Có thể nhận thấy, nhiệm vụ trích xuất danh mục khía học sâu, BERT, hàm mất mát cân bằng. cạnh đóng rất vai trò quan trọng trong khai thác quan điểm dựa trên khía cạnh, bởi hai lý do sau. (1) Khi trích xuất được I. GIỚI THIỆU chính xác khía cạnh người dùng muốn nói đến trong văn Trong những năm gần đây, khai thác quan điểm dựa trên bản, thì mới có thể biết được ý kiến/quan điểm của họ về khía cạnh (aspect-based opinion mining) là một chủ đề thuộc tính cụ thể nào của sản phẩm/dịch vụ được đề cập nhận được rất nhiều quan tâm từ cộng đồng nghiên cứu xử đến, thay vì chỉ biết được ý kiến/quan điểm về sản lý ngôn ngữ tự nhiên (natural language processing) và khai phẩm/dịch vụ nói chung. Và (2) độ chính xác của phân loại phá dữ liệu (data mining). Không giống như phân loại cảm cảm xúc phụ thuộc vào độ chính xác của việc trích xuất xúc (sentiment classification), trong đó xác định cảm xúc danh mục khía cạnh trong khai thác quan điểm dựa trên chung cho một văn bản có thể hiện quan điểm/ý kiến, khai khía cạnh. thác quan điểm dựa trên khía cạnh nhằm xác định cảm xúc Trong một nghiên cứu trước của nhóm [4], chúng tôi đã cho từng khía cạnh của sản phẩm/dịch vụ được diễn tả trong giải quyết nhiệm vụ trích xuất danh mục khía cạnh sử dụng văn bản. Cụ thể, khai thác quan điểm dựa trên khía cạnh các phương pháp học máy có giám sát truyền thống, với đề bao gồm hai nhiệm vụ chính là: 1) Trích xuất danh mục xuất sử dụng thêm tài nguyên sẵn có từ các ngôn ngữ gi ...
Tìm kiếm theo từ khóa liên quan:
Trích xuất danh mục khía cạnh Hàm mất mát cân bằng Xử lý ngôn ngữ tự nhiên Mô hình học máy Phương pháp học máyTài liệu có liên quan:
-
12 trang 336 0 0
-
Phương pháp tạo ra văn bản tiếng Việt có đề tài xác định
7 trang 281 0 0 -
Giáo trình Lập trình logic trong prolog: Phần 1
114 trang 223 0 0 -
Xây dựng ontology trợ giúp ra quyết định về đào tạo cho các trường Đại học ở Việt Nam
10 trang 180 0 0 -
Tích hợp DSM và ảnh chụp UAV với mô hình nơ-ron tích chập trong phân loại lớp phủ mặt đất
8 trang 166 0 0 -
74 trang 160 0 0
-
Bài giảng Xử lý ngôn ngữ tự nhiên: Phân tích cú pháp xác suất - Lê Thanh Hương
19 trang 152 0 0 -
158 trang 129 0 0
-
Xây dựng các cặp câu hỏi - câu trả lời chất lượng cao từ các trang Web hỏi đáp cộng đồng
9 trang 125 0 0 -
Áp dụng phương pháp học máy để phát hiện tấn công DDoS trong môi trường thực nghiệm mạng SDN
5 trang 111 0 0 -
Tóm tắt luận án Tiến sĩ Kỹ thuật: Sử dụng ngôn ngữ trục trong dịch đa ngữ
27 trang 100 0 0 -
Triển khai AI trong dạy học và nghiên cứu khoa học của sinh viên theo xu hướng chuyển đổi số
13 trang 76 0 0 -
Nhận dạng tấm pin mặt trời bị lỗi dựa trên dữ liệu ảnh bằng trí tuệ nhân tạo
4 trang 67 0 0 -
Trích xuất thực thể trong an toàn thông tin sử dụng học sâu
8 trang 59 0 0 -
Mô hình thống kê học sâu trong nhận dạng khuôn mặt
11 trang 59 0 0 -
Mô hình Transformers và ứng dụng trong xử lý ngôn ngữ tự nhiên
11 trang 53 0 0 -
Xây dựng Wordnet tiếng Việt tự động bằng ngữ liệu song ngữ
8 trang 43 0 0 -
Xây dựng bộ ngữ liệu đồng tham chiếu cho tiếng Việt
7 trang 41 0 0 -
Nhận dạng cử chỉ bàn tay dùng mạng nơ-ron chập
4 trang 41 0 0 -
Giáo trình Trí Tuệ Nhân Tạo - chapter 1
43 trang 40 0 0