Danh mục tài liệu

Tránh các lỗi vi phạm cơ chế tìm kiếm của Search Engine

Số trang: 5      Loại file: pdf      Dung lượng: 104.83 KB      Lượt xem: 14      Lượt tải: 0    
Xem trước 2 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Những điều sau đây sẽ làm cho các spider mơ hồ về website của bạn:• URL với 2 tham số động. VD: /category.php?id...4rr&User=%Tom%, tất nhiên với những URL như điều đầu tiên sẽ làm rối người dùng và khó nhớ đến thứ 2 đó là làm cho các spider miễn cưỡng hoặc không crawl. • Page có hơn 100 link duy nhất đến các trang # trên site (điều này rất ít gặp). • Page được click 3 lần mới đến được từ trang chủ(trang bị chôn quá sâu) sẽ thường bị các spider từ chối trừ khi có khá...
Nội dung trích xuất từ tài liệu:
Tránh các lỗi vi phạm cơ chế tìm kiếm của Search EngineTránh các lỗi vi phạm cơchế tìm kiếm của Search EngineNhững điều sau đây sẽ làm cho các spider mơ hồ về websitecủa bạn:• URL với 2 tham số động. VD:/category.php?id...4rr&User=%Tom%, tất nhiên với nhữngURL như điều đầu tiên sẽ làm rối người dùng và khó nhớ đếnthứ 2 đó là làm cho các spider miễn cưỡng hoặc không crawl.• Page có hơn 100 link duy nhất đến các trang # trên site(điều này rất ít gặp).• Page được click 3 lần mới đến được từ trang chủ(trang bịchôn quá sâu) sẽ thường bị các spider từchối trừ khi có khá nhiều external link(link ngoại) liên kếtđến site.• Page cần các “session id” hoặc cookies để được điều hướngmới đến được (spider không phải cácbrowser nên có không thể giữ lại các trang kiểu như vậy).• Page bị chia cắt bới các “frame” sẽ cản trở việc crawling vàlàm lộn xộn đối với việc xếp rank.Những điều sau đây sẽ giết chết các spider:• Pages được điều hướng đến bởi các submit button (coder rấtrõ về điều này).• Pages hiển thị khi được xổ xuống từ các drop menu (spiderkhông thể bypass được các javascript).• Các tài liệu được tìm thấy trong search box• Tài liệu bị khóa có chủ đích (trong trường hợp này là dobạn sử dụng các robots.txt)• Pages cần phải login.• Pages cần phải redirect mới thấy được thông tin.• Pages load chậm, vài giây thì không vấn đề gì cả nhưng mấtđến 20s để load thì là 1 vấn đề lớn.Để chắc chắn rằng trang của chúng ta luôn được các spidercrawl hoàn toàn thì cần cung cấp các direct link HTML đếncác trang mà cần được crawl. Tổng thể, nếu trang không thểvào được từ trang chủ bằng click thì cũng giống như khôngthể vào được bằng các SE.Không nên gian lận:Đây cũng như là một lời nhắc nhở cho những ai có ý định cómột kết quả như ý chỉ sau một thời gian ngắn đối với SEO vàcần chú ý những điều sau:• Cần tránh duplicate content. Nếu chúng ta chỉ có một trangsản phẩm nhưng lại được truy cập bởi nhiều URL cùng mộtlúc, spider sẽ hiểu chúng ta có cùng một nội dung nhưng lạiđược đặt tại nhiều nơi. Khi spider phát hiện nó sẽ bỏ quatrường hợp này. Chúng ta gặp phổ biến nhất vấn đề này đó làconfig domain không rõ ràng giữa www và không www.• Không copy nội dung từ site khác. Google thật sự khôngthích tìm thấy duplicate content trên site chúng ta• Không liên kết với những “hàng xóm xấu”. Nếu chúng taliên kết với những spam site thì google cũng nghĩ chúng ta làđồng phạm…• Không nên ẩn các hình ảnh, vấn đề SEO Image cần đượcquan tâm hơn rất nhiều, và được nhắc đến nhiều lần về sửdụng thuộc tính “ALT”.