Phát hiện tin giả với python và machine learning

Số trang: 14 Loại file: pdf Dung lượng: 553.98 KB Lượt xem: 46 Lượt tải: 0

tailieu_vip

Báo xấu

Xem trước 2 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Bài viết "Phát hiện tin giả với python và machine learning" tìm hiểu cách thức phát hiện tin giả bằng Python. Sử dụng Python để xây dựng một mô hình có thể phát hiện chính xác một mẩu tin tức là thật hay giả. Chúng tôi sẽ sử dụng TfidfVectorizer và PassiveAggressionClassifier để phân loại tin tức thành “Thật” và “Giả”. Sử dụng tập dữ liệu có kích cỡ 7796 dòng × 4 cột và thực hiện trong Jupyter Lab. Mời các bạn cùng tham khảo!
Nội dung trích xuất từ tài liệu:
Phát hiện tin giả với python và machine learning PHÁT HIỆN TIN GIẢ VỚI PYTHON VÀ MACHINE LEARNING ThS Nguyễn Thanh Trường Trường Đại học Tài chính – Marketing Tóm tắt: Tin giả đã xuất hiện từ rất lâu thời cổ đại với sự kiện vào thế kỷ XIII trước Công nguyên, Rameses Đại đế đã truyền bá những lời nói dối và tuyên truyền miêu tả Trận chiến Kadesh như một chiến thắng tuyệt vời của người Ai Cập; ông mô tả cảnh mình chiến đấu với kẻ thù của mình trong trận chiến trên các bức tường của gần như tất cả các ngôi đền của mình. Tuy nhiên, hiệp ước giữa người Ai Cập và người Hittite cho thấy rằng trận chiến thực sự là một bế tắc (Weir, 2009). Ngày nay, với sự mở rộng ngày càng tăng, khả năng truy cập và sự phổ biến của Internet đã dẫn đến sự phát triển của tin giả. Thông tin và câu chuyện mới được xuất bản liên tục và với tốc độ nhanh hơn bao giờ hết, thường thiếu sự xác minh, có thể được sử dụng bởi bất kỳ ai có kết nối Internet. Trong bài này chúng tôi sẽ tìm hiểu cách thức phát hiện tin giả bằng Python. Chúng tôi sẽ sử dụng Python để xây dựng một mô hình có thể phát hiện chính xác một mẩu tin tức là thật hay giả. Chúng tôi sẽ sử dụng TfidfVectorizer và PassiveAggressionClassifier để phân loại tin tức thành “Thật” và “Giả”. Chúng tôi sẽ sử dụng tập dữ liệu có kích cỡ 7796 dòng × 4 cột và thực hiện trong Jupyter Lab. Từ khóa: fake news, progaming Python, machine learning, tin giả, lập trình Python, máy học 1. Giới thiệu Một số câu hỏi thường đặt ra: • Bạn có tin tưởng tất cả những tin tức bạn nghe được từ mạng xã hội không? • Tất cả các tin tức đều không có thật, phải không? • Làm thế nào bạn sẽ phát hiện ra tin tức giả? Tin giả (tiếng Anh: fake news), còn được gọi là tin rác hoặc tin tức giả mạo giả mạo là thông tin sai lệch hoặc gây hiểu lầm được trình bày dưới dạng tin tức. Nó thường có mục đích làm tổn hại danh tiếng của một cá nhân hoặc tổ chức hoặc kiếm tiền thông qua doanh thu quảng cáo. Tuy nhiên, thuật ngữ này không có định nghĩa cố định và đã được áp dụng rộng rãi hơn để bao gồm bất kỳ loại thông tin sai lệch nào, bao gồm các cơ chế vô ý và vô ý thức, cũng như được các cá nhân nổi tiếng áp dụng cho bất kỳ tin tức nào bất lợi cho quan điểm cá nhân của họ. Một khi đã phổ biến trên báo in, sự phổ biến của tin tức giả đã tăng lên cùng với sự gia tăng của các phương tiện truyền thông xã hội, đặc biệt là Facebook News Feed. Phân - 243 cực chính trị, chính trị hậu sự thật, thiên vị xác nhận, và các thuật toán truyền thông xã hội có liên quan đến việc lan truyền tin tức giả. Điều này đôi khi được tạo ra và tuyên truyền bởi các tác nhân nước ngoài thù địch, đặc biệt là trong các cuộc bầu cử. Việc sử dụng các trang web tin tức giả mạo được lưu trữ ẩn danh đã gây khó khăn cho việc truy tố các nguồn tin tức giả mạo vì tội phỉ báng. Trong một số định nghĩa, tin tức giả mạo bao gồm các bài báo châm biếm bị hiểu sai là thật và các bài báo sử dụng các tiêu đề giật gân hoặc kích động không được hỗ trợ trong văn bản. Tin tức giả mạo có thể làm giảm tác động của tin tức thật bằng cách cạnh tranh với nó; một phân tích trên Buzzfeed cho thấy những tin bài giả mạo hàng đầu về cuộc bầu cử tổng thống Hoa Kỳ năm 2016 nhận được nhiều sự tham gia trên Facebook hơn những tin bài hàng đầu từ các phương tiện truyền thông lớn. Nó cũng có khả năng làm xói mòn lòng tin đối với việc đưa tin nghiêm túc của các phương tiện truyền thông. Thuật ngữ này đôi khi được sử dụng để gây nghi ngờ về những tin tức hợp pháp, và cựu tổng thống Hoa Kỳ Donald Trump đã được cho là phổ biến thuật ngữ này bằng cách sử dụng nó để mô tả bất kỳ thông tin báo chí tiêu cực nào về bản thân ông ấy. Nó ngày càng bị chỉ trích, một phần là do Trump lạm dụng, với việc chính phủ Anh quyết định tránh thuật ngữ này, vì nó “được định nghĩa kém” và “ngụy tạo nhiều loại thông tin sai lệch, từ sai sót thực sự cho đến sự can thiệp của nước ngoài” (Murphy, 2018). Nhiều chiến lược chống lại tin giả hiện đang được nghiên cứu tích cực và cần được điều chỉnh cho phù hợp với từng loại tin giả. Cần có sự tự điều chỉnh hiệu quả và quy định được thực thi hợp pháp của các phương tiện truyền thông xã hội và các công cụ tìm kiếm trên web. Không gian thông tin cần tràn ngập tin tức chính xác để thay thế tin tức giả mạo. Các cá nhân cần chủ động đối mặt với những thông tin sai lệch khi bị phát hiện, cũng như cẩn thận khi chia sẻ thông tin qua mạng xã hội. Tuy nhiên, chỉ riêng lý trí, phương pháp khoa học và kỹ năng tư duy phản biện là không đủ để chống lại phạm vi rộng lớn của những ý tưởng xấu. Bị lạm dụng là sức mạnh của thành kiến xác nhận, lý luận có động cơ và các thành kiến nhận thức khác có thể làm sai lệch nghiêm trọng nhiều khía cạnh của sức khỏe tâm thần miễn dịch. Lý thuyết tiêm chủng cho thấy nhiều hứa hẹn trong việc thiết kế các kỹ thuật để làm cho các cá thể có khả năng chống lại sự dụ dỗ của tin tức giả, giống như cách một loại vắc-xin bảo vệ chống lại các bệnh truyền nhiễm. Phân loại tin để dán nhãn cảnh báo: (Gioithieu, n.d.) • Tin giả: Tin không có thật, tin bịa đặt, vu khống được lan truyền trong xã hội và trên không gian mạng; • Tin sai sự thật: Tin có một phần sự thật nhưng không hoàn toàn chính xác, tin xuyên tạc, bóp méo sự thật; tin không có sở cứ được lan truyền trong xã hội và trên không gian mạng; 244 - • Tin xác thực: Là tin đúng sự thật, được kiểm chứng, kết luận bởi cơ quan chức năng có thẩm quyền. 2. Cơ sở lý thuyết 2.1. Thuật toán Tìm hiểu các thuật ngữ liên quan tfidfvectorizer, PassiveAggression Classifier: TfidfVectorizer là gì? TF-IDF (Term Frequency – Inverse Document Frequency) là một kĩ thuật sử dụng trong khai phá dữ liệu văn bản. Trọng số này được s ...