Danh mục tài liệu

Phát hiện và cảnh báo sự thay đổi của website dựa trên thay đổi nội dung cấu trúc HTML

Số trang: 15      Loại file: pdf      Dung lượng: 1.05 MB      Lượt xem: 13      Lượt tải: 0    
Xem trước 2 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Trong bài báo này chúng tôi trình bày một phương pháp mới cho phép phát hiện sự thay đổi giao diện, nội dung của website. Phương pháp này được phát triển dựa trên thuật toán HTML Diff kết hợp với hàm băm MD5, và nó đã được xây dựng thành một ứng dụng với giao diện hài hòa, dễ sử dụng. Các thay đổi như chèn thêm nội dung mới, xóa hay sửa nội dung cũ, thay đổi các định dạng về màu sắc, kích thước, kiểu chữ của nội dung sẽ được ứng dụng ngay lập tức ghi nhận và thông báo tới người quản trị website.
Nội dung trích xuất từ tài liệu:
Phát hiện và cảnh báo sự thay đổi của website dựa trên thay đổi nội dung cấu trúc HTML TẠP CHÍ KHOA HỌC - ĐẠI HỌC ĐỒNG NAI, SỐ 07 - 2017 ISSN 2354-1482 PHÁT HIỆN VÀ CẢNH BÁO SỰ THAY ĐỔI CỦA WEBSITE DỰA TRÊN THAY ĐỔI NỘI DUNG VÀ CẤU TRÚC HTML Trần Đắc Tốt1 Vũ Văn Vinh1 TÓM TẮT Thực tế cho thấy hậu quả của việc tấn công làm thay đổi giao diện, nội dung website của hacker là đặc biệt nghiêm trọng. Vì vậy cần phải có những phương pháp cho phép kịp thời phát hiện những hình thức tấn công này, nhằm hạn chế tối những thiệt hại mà hacker gây ra. Trong bài báo này chúng tôi trình bày một phương pháp mới cho phép phát hiện sự thay đổi giao diện, nội dung của website. Phương pháp này được phát triển dựa trên thuật toán HTML Diff kết hợp với hàm băm MD5, và nó đã được xây dựng thành một ứng dụng với giao diện hài hòa, dễ sử dụng. Các thay đổi như chèn thêm nội dung mới, xóa hay sửa nội dung cũ, thay đổi các định dạng về màu sắc, kích thước, kiểu chữ của nội dung sẽ được ứng dụng ngay lập tức ghi nhận và thông báo tới người quản trị website. Ứng dụng cũng sẽ làm nổi bật nhưng vị trí đã thay đổi và gửi thư cảnh báo và khuyến nghị cho người quản trị trang web để xử lý. Từ khóa: Giám sát sự thay đổi, tấn công defacement, tính toàn vẹn trang web, phát hiện thay đổi trang web 1. Mở đầu Một trong những kiểu tấn công được biết rộng rãi nhất là tấn công thay đổi nội dung, giao diện của website [1]. Hình thức tấn công này thường sử dụng các mã độc (virus, worm, trojan, và các loại mã độc khác), để xóa bỏ, sửa đổi, hoặc thay thế nội dung các trang web trên host (web server) [2]. Lỗ hổng website là mục tiêu tiềm tàng của việc tấn công (hack) vì các mục đích khác nhau. Các hacker có các công cụ để tìm kiếm các lỗ hổng website một cách sâu rộng và nhanh chóng, tiếp theo là chúng sẽ tiến hành khai thác những điểm yếu đó [3-4]. Những cuộc tấn công thay đổi website đã được thực hiện để xâm phạm tính toàn vẹn của web bằng một trong những hình thức sau [1]: - Thay đổi nội dung của trang web. - Thay đổi bất kỳ phần nào của nội dung trang web. - Thay thế toàn bộ trang web. - Chuyển hướng trang web. - Phá hủy hoặc xóa bỏ trang web. Các hệ thống kiểm soát an ninh mạng như Firewall, VPN (Virtual Private Network), PKI (Public Key Infrastructure)… là những công cụ quan trọng để giữ cho web được an toàn hơn, 1 Trường Đại học Công nghiệp Thực phẩm TP. Hồ Chí Minh Email: tottd@cntp.edu.vn 137 TẠP CHÍ KHOA HỌC - ĐẠI HỌC ĐỒNG NAI, SỐ 07 - 2017 nhưng chúng không đủ để đảm bảo an ninh website, do đó cần những cơ chế an ninh tốt hơn [1]. Có nhiều phương pháp được đề xuất để bảo vệ trang web chống lại các cuộc tấn công như; Integrit [5], Veracity [6], Aide [7], L5 [8], Tripwire [9]. Tuy nhiên các phương pháp này cũng có nhiều nhược điểm cụ thể như sau: - Integrit, Veracity, Aide và L5 không có phương án tự bảo vệ mình khi bản thân bị tấn công. - Tripwire thiếu sự cảnh báo nếu quá trình kiểm tra của nó bị thất bại bởi kẻ tấn công. - Các hệ thống nêu trên đều bị dừng lại và không có giá trị bảo mật nếu bộ phận kiểm tra bị thất bại vì bất kỳ lý do nào. Những hạn chế của các hệ thống nêu trên là động lực thúc đẩy chúng tôi nghiên cứu phương pháp mới kết hợp sử dụng hàm băm và thuật toán HTML Diff để tìm sự thay đổi nội dung dựa trên sự khác biệt giữa hai trang HTML của cùng một trang web tại hai thời điểm khác nhau. Từ đó áp dụng xây dựng hệ thống giám sát website nhằm phát hiện kịp thời các cuộc tấn công để đảm bảo tính toàn vẹn của trang web, đồng thời tạo ra thông điệp cảnh báo có ý nghĩa khi trang web đã bị tấn công. Đặc biệt, hệ thống này đã khắc phục được tối đa những hạn chế đã được đề cập ở trên. ISSN 2354-1482 Phần còn lại của bài báo được tổ chức như sau: phần 2 trình bày các kiến thức cơ sở, phần 3 đề xuất phương pháp phát hiện sự thay đổi trong tập tin HTML, phần 4 trình bày các kết quả thực nghiệm khi triển khai hệ thống. Phần 5 là kết luận và hướng nghiên cứu tiếp theo. 2. Kiến thức cơ sở 2.1. Phân loại sự thay đổi Hiện nay, với sự phát triển mạnh mẽ của công nghệ gần như tất cả các tổ chức, doanh nghiệp, các nhân đều sử dụng Website để quảng bá thông tin, sản phẩm của mình. Tuy nhiên vấn đề an toàn cũng trở nên hết sức cấp thiết “các cuộc tấn công vào website Việt Nam trong ba tháng đầu năm 2017 gồm 2.853 trang bị tấn công Deface (thay đổi giao diện), 3.783 trang bị cài Malware (mã độc) và 1.050 website bị đặt mã Phishing (lừa đảo)” theo VNCERT1. Vì vậy để giám sát và phát hiện các đấu hiệu bất thường trên website để cảnh báo kịp thời thì việc cần làm là tìm ra các dấu hiệu để nhận biết được các thay đổi này theo nhóm tác giả phân tích thì sự thay đổi của một trang web có thể chia làm 4 loại phổ biến như sau: Thay đổi về cấu trúc, thay đổi về nội 1 http://nhipsongso.tuoitre.vn/bao-mat/quy12017-gan-7700-cuoc-tan-cong-mang-vietnam-1284710.htm (Truy cập ngày 8/8/2017). 138 TẠP CHÍ KHOA HỌC - ĐẠI HỌC ĐỒNG NAI, SỐ 07 - 2017 dung, thay đổi về hình thức, định dạng và thay đổi về hành vi. Thay đổi về cấu trúc: Các hành động thêm, xóa, hoặc chỉnh sửa một thẻ trong văn bản HTML chính là đang thay ISSN 2354-1482 đổi cấu trúc của một trang web. Việc phát hiện tự động những thay đổi về cấu trúc này rất quan trọng vì các cấu trúc của trang web khi thay đổi rất khó để có thể phát hiện một cách trực quan. Trang chủ khoa CNTT Trang chủ khoa CNTT …. …. … Hình 1: a) HTML ban đầu Thay đổi về nội dung và ngữ nghĩa: là những thay đổi từ cách nhìn của người sử dụng. Ví dụ, việc thay đổi về giá vàng và ngoại tệ trên các trang sàn giao dịch hay trên các trang của ngân hàng sẽ rất thu hút sự quan tâm b) HTML đã chỉnh sửa dfadsf của những nhà đầu tư và kinh doanh. Một ví dụ khác là sự thay đổi của các trang cập nhật tỷ số bóng đá online như livescore.com, người dùng rất quan tâm tới tỷ số hiện tại và sự thay đổi tỷ số giữa các trận đấu. Livescores.com Livescores.com Doi A 2 Doi A 3 Doi A 2 Doi A 2 Hình 2: a) HTML ...