Phân tích quan điểm xã hội đối với Đại học Phan Thiết
Số trang: 8
Loại file: pdf
Dung lượng: 519.05 KB
Lượt xem: 15
Lượt tải: 0
Xem trước 2 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Trong phạm vi bài viết này, tập trung vào hai việc: (1) Xây dựng bộ dữ liệu cảm xúc của xã hội đối với Trường Đại học Phan Thiết bao gồm 3 nhãn: tích cực, trung tính và tiêu cực; (2) Đề xuất sử dụng các mô hình học sâu như CNN, LSTM, BERT và PhoBERT để thử nghiệm cho bài toán phân tích quan điểm của Đại học Phan Thiết.
Nội dung trích xuất từ tài liệu:
Phân tích quan điểm xã hội đối với Đại học Phan ThiếtKỷ yếu Hội nghị KHCN Quốc gia lần thứ XIV về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR), TP. HCM, ngày 23-24/12/2021DOI: 10.15625/vap.2021.0088 PHÂN TÍCH QUAN ĐIỂM XÃ HỘI ĐỐI VỚI ĐẠI HỌC PHAN THIẾT Võ Quốc Tuấn1, Trần Thanh Phước2, Trần Thanh Trâm3 Phòng Quản lý Đào tạo, Trường Đại học Phan Thiết, Tp. Phan Thiết, Bình Thuận 1 Phòng Lab Natural Language Processing and Knowledge Discovery, Khoa Công nghệ thông tin, 2 Trường Đại học Tôn Đức Thắng, Thành phố Hồ Chí Minh 3 Phòng Quản lý khoa học và Đào tạo Sau đại học, Trường Đại học Công nghiệp thực Phẩm, Thành phố Hồ Chí Minh vqtuan@upt.edu.vn, tranthanhphuoc@tdtu.edu.vn, tramtt@hufi.edu.vn TÓM TẮT: Trong giáo dục hiện đại, trường đại học đóng vai trò là nơi cung cấp dịch vụ, học sinh sinh viên và phụ huynhlà khách hàng. Việc nắm bắt được cảm xúc, quan điểm của những đối tượng khách hàng này (gọi chung là xã hội) đối với các dịchvụ mà trường học cung cấp là vô cùng cần thiết. Qua đó, trường học sẽ tiếp nhận những mặt tích cực lẫn tiêu cực để từ đó phát huymặt tích cực và hạn chế mặt tiêu cực. Trong phạm vi bài báo này, chúng tôi tập trung vào hai việc: (1) Xây dựng bộ dữ liệu cảm xúccủa xã hội đối với Trường Đại học Phan Thiết bao gồm 3 nhãn: tích cực, trung tính và tiêu cực; (2) Đề xuất sử dụng các mô hìnhhọc sâu như CNN, LSTM, BERT và PhoBERT để thử nghiệm cho bài toán phân tích quan điểm của Đại học Phan Thiết. Kết quả thửnghiệm cho thấy, PhoBERT cho kết quả cao nhất trên bộ dữ liệu Đại học Phan Thiết với F1-score là 89,68%. Từ khóa: Phân tích quan điểm, khai phá dữ liệu giáo dục, phân loại văn bản, pretrain BERT, PhoBERT. I. GIỚI THIỆU Trường Đại học Phan Thiết (UPT: University of Phan Thiet) được thành lập tháng 03/2009 theo Quyết định số394/2009/QĐ-TTg, ngày 25 tháng 3 năm 2009 của Thủ tướng Chính phủ. Trong quá trình hoạt động đào tạo, hằng nămnhà trường khảo sát, thu thập các ý kiến, đánh giá về chất lượng đào tạo, cơ sở vật chất, chăm sóc sinh viên,… Cáchình thức khảo sát ý kiến sinh viên vào cuối học kỳ trên hệ thống xem kết quả môn học, khảo sát các ý kiến cựu sinhviên, học viên cao học, doanh nghiệp, trang fanpage UPT, fanpage của các khoa, UPT confessions. Việc thu thập thôngtin này đã giúp cho nhà trường rất nhiều trong quá trình hoàn thiện hơn về công tác đào tạo, các hoạt động cộng đồngvà cơ sở vật chất nhằm phục vụ cho việc giảng dạy được tốt hơn. Đánh giá và phân loại những ý kiến từ các khảo sáttrên đã mang lại kết quả tốt hơn cho người học lẫn doanh nghiệp và toàn xã hội. Như vậy, vấn đề làm thế nào để có thể khai thác được những thông tin của tất cả các ý kiến của sinh viên, cựusinh viên, học viên cao học, doanh nghiệp,… đánh giá và phân loại những ý kiến theo từng ngành học trở nên khả thivà mang lại kết quả tốt hơn cho người học lẫn doanh nghiệp và toàn xã hội. Phân tích quan điểm là một dạng của bài toán phân loại văn bản dựa trên văn bản ngôn ngữ tự nhiên nhằm phát hiện rathái độ, màu sắc tình cảm của người dùng thông qua bình luận (comment) trên các trang phim, ca nhạc, facebook, twitter, cáckênh khảo sát trực tuyến nhằm đánh giá về một sản phẩm, hoạt động đào tạo đối với một trường đại học, ví dụ: • Trường có view nhìn ra biển rất đẹp (tích cực). • Phòng 102 âm thanh bị rè không nghe rõ (tiêu cực). • Chúng tôi không có ý kiến (trung tính). Đầu vào của bài toán Phân tích quan điểm là một câu hay một đoạn văn bản ngắn, đầu ra là các giá trị xác suấtcủa nhiều lớp quan điểm mà ta cần xác định. Trong nghiên cứu này tôi chọn loại bài toán phân tích quan điểm thành 3lớp: tích cực (positive), tiêu cực (negative) và trung tính (neutral). Chúng tôi tập trung chủ yếu vào bài toán phân tíchquan điểm trên phạm vi dữ liệu quan trọng đó là giáo dục. Để giải quyết bài toán này, điều đầu tiên chúng ta cần phải có chính là kho ngữ liệu phục vụ cho thực nghiệm.Hiện tại kho ngữ liệu phân tích quan điểm cho UPT là chưa có. Vì vậy, việc đầu tiên cần thực hiện cho công trình nàylà thu thập kho ngữ liệu đủ lớn cho việc thực nghiệm. Chúng tôi sẽ trình bày chi tiết các bước thu thập, tiền xử lý dữliệu,… ở Phần IV.B. Sau đó, chúng tôi sử dụng nhiều mô hình tiên tiến để thực nghiệm trên bộ dữ liệu vừa thu thậpđược, bao gồm các mô hình như: LSTM, CNN, các mô hình BERT, PhoBERT. Kết quả thực nghiệm cho thấyPhoBERT là mô hình cho kết quả tốt nhất trên kho ngữ liệu giáo dục của chúng tôi. Trong khi đó, mô hình LSTM chokết quả thấp nhất. Phần còn lại của bài báo được trình bày theo cấu trúc sau: Phần II và phần III lần lượt trình bày các công trìnhliên quan cũng như một số kiến thức nền tảng của bài báo. Các bước thu thập dữ liệ ...
Nội dung trích xuất từ tài liệu:
Phân tích quan điểm xã hội đối với Đại học Phan ThiếtKỷ yếu Hội nghị KHCN Quốc gia lần thứ XIV về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR), TP. HCM, ngày 23-24/12/2021DOI: 10.15625/vap.2021.0088 PHÂN TÍCH QUAN ĐIỂM XÃ HỘI ĐỐI VỚI ĐẠI HỌC PHAN THIẾT Võ Quốc Tuấn1, Trần Thanh Phước2, Trần Thanh Trâm3 Phòng Quản lý Đào tạo, Trường Đại học Phan Thiết, Tp. Phan Thiết, Bình Thuận 1 Phòng Lab Natural Language Processing and Knowledge Discovery, Khoa Công nghệ thông tin, 2 Trường Đại học Tôn Đức Thắng, Thành phố Hồ Chí Minh 3 Phòng Quản lý khoa học và Đào tạo Sau đại học, Trường Đại học Công nghiệp thực Phẩm, Thành phố Hồ Chí Minh vqtuan@upt.edu.vn, tranthanhphuoc@tdtu.edu.vn, tramtt@hufi.edu.vn TÓM TẮT: Trong giáo dục hiện đại, trường đại học đóng vai trò là nơi cung cấp dịch vụ, học sinh sinh viên và phụ huynhlà khách hàng. Việc nắm bắt được cảm xúc, quan điểm của những đối tượng khách hàng này (gọi chung là xã hội) đối với các dịchvụ mà trường học cung cấp là vô cùng cần thiết. Qua đó, trường học sẽ tiếp nhận những mặt tích cực lẫn tiêu cực để từ đó phát huymặt tích cực và hạn chế mặt tiêu cực. Trong phạm vi bài báo này, chúng tôi tập trung vào hai việc: (1) Xây dựng bộ dữ liệu cảm xúccủa xã hội đối với Trường Đại học Phan Thiết bao gồm 3 nhãn: tích cực, trung tính và tiêu cực; (2) Đề xuất sử dụng các mô hìnhhọc sâu như CNN, LSTM, BERT và PhoBERT để thử nghiệm cho bài toán phân tích quan điểm của Đại học Phan Thiết. Kết quả thửnghiệm cho thấy, PhoBERT cho kết quả cao nhất trên bộ dữ liệu Đại học Phan Thiết với F1-score là 89,68%. Từ khóa: Phân tích quan điểm, khai phá dữ liệu giáo dục, phân loại văn bản, pretrain BERT, PhoBERT. I. GIỚI THIỆU Trường Đại học Phan Thiết (UPT: University of Phan Thiet) được thành lập tháng 03/2009 theo Quyết định số394/2009/QĐ-TTg, ngày 25 tháng 3 năm 2009 của Thủ tướng Chính phủ. Trong quá trình hoạt động đào tạo, hằng nămnhà trường khảo sát, thu thập các ý kiến, đánh giá về chất lượng đào tạo, cơ sở vật chất, chăm sóc sinh viên,… Cáchình thức khảo sát ý kiến sinh viên vào cuối học kỳ trên hệ thống xem kết quả môn học, khảo sát các ý kiến cựu sinhviên, học viên cao học, doanh nghiệp, trang fanpage UPT, fanpage của các khoa, UPT confessions. Việc thu thập thôngtin này đã giúp cho nhà trường rất nhiều trong quá trình hoàn thiện hơn về công tác đào tạo, các hoạt động cộng đồngvà cơ sở vật chất nhằm phục vụ cho việc giảng dạy được tốt hơn. Đánh giá và phân loại những ý kiến từ các khảo sáttrên đã mang lại kết quả tốt hơn cho người học lẫn doanh nghiệp và toàn xã hội. Như vậy, vấn đề làm thế nào để có thể khai thác được những thông tin của tất cả các ý kiến của sinh viên, cựusinh viên, học viên cao học, doanh nghiệp,… đánh giá và phân loại những ý kiến theo từng ngành học trở nên khả thivà mang lại kết quả tốt hơn cho người học lẫn doanh nghiệp và toàn xã hội. Phân tích quan điểm là một dạng của bài toán phân loại văn bản dựa trên văn bản ngôn ngữ tự nhiên nhằm phát hiện rathái độ, màu sắc tình cảm của người dùng thông qua bình luận (comment) trên các trang phim, ca nhạc, facebook, twitter, cáckênh khảo sát trực tuyến nhằm đánh giá về một sản phẩm, hoạt động đào tạo đối với một trường đại học, ví dụ: • Trường có view nhìn ra biển rất đẹp (tích cực). • Phòng 102 âm thanh bị rè không nghe rõ (tiêu cực). • Chúng tôi không có ý kiến (trung tính). Đầu vào của bài toán Phân tích quan điểm là một câu hay một đoạn văn bản ngắn, đầu ra là các giá trị xác suấtcủa nhiều lớp quan điểm mà ta cần xác định. Trong nghiên cứu này tôi chọn loại bài toán phân tích quan điểm thành 3lớp: tích cực (positive), tiêu cực (negative) và trung tính (neutral). Chúng tôi tập trung chủ yếu vào bài toán phân tíchquan điểm trên phạm vi dữ liệu quan trọng đó là giáo dục. Để giải quyết bài toán này, điều đầu tiên chúng ta cần phải có chính là kho ngữ liệu phục vụ cho thực nghiệm.Hiện tại kho ngữ liệu phân tích quan điểm cho UPT là chưa có. Vì vậy, việc đầu tiên cần thực hiện cho công trình nàylà thu thập kho ngữ liệu đủ lớn cho việc thực nghiệm. Chúng tôi sẽ trình bày chi tiết các bước thu thập, tiền xử lý dữliệu,… ở Phần IV.B. Sau đó, chúng tôi sử dụng nhiều mô hình tiên tiến để thực nghiệm trên bộ dữ liệu vừa thu thậpđược, bao gồm các mô hình như: LSTM, CNN, các mô hình BERT, PhoBERT. Kết quả thực nghiệm cho thấyPhoBERT là mô hình cho kết quả tốt nhất trên kho ngữ liệu giáo dục của chúng tôi. Trong khi đó, mô hình LSTM chokết quả thấp nhất. Phần còn lại của bài báo được trình bày theo cấu trúc sau: Phần II và phần III lần lượt trình bày các công trìnhliên quan cũng như một số kiến thức nền tảng của bài báo. Các bước thu thập dữ liệ ...
Tìm kiếm theo từ khóa liên quan:
Khai phá dữ liệu giáo dục Phân loại văn bản Xây dựng bộ dữ liệu cảm xúc Mô hình học sâu Xây dựng bộ dữ liệu UPTTài liệu có liên quan:
-
69 trang 181 0 0
-
7 trang 181 0 0
-
78 trang 47 0 0
-
Phân loại văn bản dựa trên kỹ thuật khai thác đồ thị con phổ biến
5 trang 45 0 0 -
Đề xuất thuật toán phân loại văn bản tiếng Việt sử dụng mạng LSTM và Word2vec
13 trang 39 0 0 -
Bài giảng Xử lý ngôn ngữ tự nhiên (Natural Language Processing): Bài 7.3 - Lê Thanh Hương
4 trang 39 0 0 -
Kỹ thuật xây dựng và ban hành văn bản: Phần 1 - TS. Lưu Kiếm Thanh
172 trang 38 0 0 -
Liveness Detection và ứng dụng trong bài toán nhận diện khuôn mặt
4 trang 36 0 0 -
Sử dụng thuật toán phân lớp FSVM rút trích thông tin văn bản trên internet
12 trang 35 0 0 -
Ứng dụng mô hình BERT cho bài toán phân loại hồ sơ theo thời hạn bảo quản
9 trang 35 0 0