Đôi lúc có thể bạn đã chặn Google mà ngay chính bạn cũng không biết được. Nó có nghĩa là Google không thể index tất cả những trang web ở trong website của bạn. Trong bài viết này, bạn sẽ biết được làm thế nào để chặn Google và làm thế nào để đảm bảo rằng bạn không vô tình chặn đi Google. Bài viết dưới đây APPNET sẽ chỉ ra 5 điều mà bạn đã làm Google không Index trang web của bạn.
Lỗi trong file robots.txt của website sẽ làm chặn Google
Câu lệnh “disallow” trong file robots.txt là một cách dễ dàng nhất để loại bỏ một file nào đó hoặc cả một thư mục ra khỏi việc đánh dấu chỉ mục của Google.
Để loại ra được những file riêng rẻ, bạn cần thêm dòng sau vào file robots.txt:
- User-agent: Disallow: /directory/ten-file.html
Để loại ra được toàn bộ thư mục nào đó, bạn sử dụng câu lệnh:
- User-agent: Disallow: /first-directory/ Disallow: /second-directory/
Nếu trang web của bạn có file robots.txt, thì hãy kiểm tra thật kỹ file robots.txt đó để đảm bảo rằng bạn không loại bỏ những thư mục mà bạn muốn nhìn thấy ở trên kết quả tìm kiếm của Google.
Lưu ý rằng những khách truy cập vào trang web của bạn vẫn sẽ nhìn thấy những trang mà bạn đã loại ra trong file robots.txt. Cần kiểm tra trang web của bạn với những Công cụ đánh giá website hoặc các dịch vụ khác như http://www.seoprofiler.com để xét xem có bất cứ vấn đề nào với file robots.txt
Dùng thẻ meta robots noindex
Thẻ meta robots noindex sẽ cho phép bạn nói với robots của bộ máy tìm kiếm tìm một trang riêng rẻ ở trong web không nên được đánh chỉ mục. Để loại trang web ra khỏi kết quả tìm kiếm, thêm đoạn code sau trong phần <head> của trang web:
<meta name=”robots” content=”noindex, nofollow”>
Trong trường hợp này, bộ máy tìm kiếm sẽ không thể đánh chỉ mục trang web và cũng không thể theo dấu những liên kết (links) trong trang này. Nếu bạn muốn bộ máy tìm kiếm theo dấu liên kết trong trang web, sử dụng:
<meta name=”robots” content=”noindex, follow”>
Trang web sẽ không xuất hiện trong kết quả tìm kiếm nhưng những liên kết vẫn được theo dấu. Nếu bạn muốn chắc chắn rằng Google sẽ index tất cả các trang, bỏ thẻ robots này đi.
Thẻ meta robots noindex chỉ tác động đến những robot của bộ máy tìm kiếm. Những khách thông thường của website vẫn có thể nhìn thấy trang web của bạn, công cụ đánh giá website như seoprofiler sẽ giúp bạn tìm ra vấn đề gặp phải nếu có từ thẻ meta robots noindex.
Sai mã trạng thái HTTP (HTTP Status Code) sẽ đưa Google ra đi.
Mã trạng thái từ máy chủ (HTTP Status Code) cho phép bạn đưa những khách hàng thật và robots của công cụ tìm kiếm đến những nơi khác nhau trên website của bạn. Một trang web thường có mã trạng thái “200 OK”. Ví dụ, bạn có thể sử dụng những mã sau đây:
- 301 moved permanently – 301 redirect (điều hướng 301): thẻ điều hướng 301 sẽ gửi request hiện tại và những request tương lai đến một URL mới.
- 403 forbidden: máy chủ sẽ từ chối đáp ứng lại request.
Để tối ưu bộ máy tìm kiếm (SEO), mã điều hướng 301 nên được sử dụng nếu bạn muốn đảm bảo khách hàng của trang web cũ sẽ được chuyển tới trang web mới.
Công cụ đánh giá website sẽ chỉ ra những trang web gặp phải lỗi trạng thái này.
Google sẽ không thể đánh chỉ mục những trang web được bảo vệ bởi password.
Nếu bạn đặt password bảo vệ trang web, chỉ những người khách nào biết được password mới có thể xem nội dung của trang đó.
Robots của bộ máy tìm kiếm sẽ không thể truy cập vào website. Trang web có password bảo vệ có thể gây ra những tác động tiêu cực đến trải nghiệm người dùng vì vậy bạn nên kiểm tra kỹ lưỡng trước khi áp dụng điều này.
Nếu trang web của bạn yêu cầu Cookie hay Javascript, Google có thể không lập chỉ mục được trang web của bạn.
Cookie và Javascript cũng có thể giữ Robots của bộ máy tìm kiếm ra xa khỏi cửa “nhà” bạn. Ví dụ, bạn có thể ẩn nội dung bằng cách chỉ cho phép những User Agents nào chấp nhận cookie truy cập .
Bạn cũng có thể sử dụng những mã Javascript phức tạp để tạo ra nội dung. Hầu hết những robots của bộ máy tìm kiếm không thực thi Javascript phức tạp vì vậy chúng không thể nào đọc được trang web của bạn.
Kết luận
Nhìn chung, bạn muốn Google index những trang trong website. Hãy kiểm tra thật kỹ những mục trên, sử dụng một số công cụng đánh giá website để xem lại có lỗi nào trong website của mình hay không. Từ đó loại bỏ việc Google không để đánh chỉ mục một hay một vài trang web. Hy vọng bài viết trên sẽ là những thông tin hữu ích để bạn có thể tránh được Google không index.