Cùng tìm hiểu file robots.txt – kẻ dẫn đường chỉ lối cho bọ tìm kiếm

Bọ tìm kiếm

Robots.txt không phải là một file HTML, chẳng có tí code HTML nào cả, thực ra nhìn vào đuôi .txt thì bạn đã đủ rõ, nó chỉ là file text rất đơn giản nhưng lại vô cùng quan trọng với một trang web.

Robots.txt là file mà bất kỳ bọ tìm kiếm nào như Google, Bing, Yahoo… phải đọc trước khi lục lọi để lập chỉ mục trang web. Nó giống kiểu bảng nội quy và hướng dẫn trong đó ghi: này mấy bọ tìm kiếm, các chú chỉ được vào những khu vực này của anh, những khu vực kia thì không được vào nhòm ngó. Robots.txt cũng cho phép bạn chặn hẳn một số bọ tìm kiếm mà bạn không thích hoặc thấy không cần thiết.

Đến đây bạn tự hỏi, thế lợi ích của Robots.txt là gì vậy? Và dưới đây là câu trả lời:

  • Có những thư mục, tệp tin bạn không muốn bọ tìm kiếm lập chỉ mục, có thể vì nó là nội dung riêng tư hoặc nội dung đã cũ hoặc trùng lặp…
  • Việc loại bỏ các khu vực không cần lập chỉ mục giúp cho bọ có nhiều sức lực hơn để lập chỉ mục các khu vực quan trọng khác trong trang web.
  • Robots.txt chứa cả sitemap – tức là bản đồ của trang web, giúp bọ biết đường đi lối lại rõ ràng hơn, điều này cũng giúp lập chỉ mục nhanh và đầy đủ.
Robots.txt đưa lên thư mục gốc của trang web, do vậy địa chỉ của nó thường là thế này: ten-mien-cua-ban.com/robots.txt. Thí dụ nhé, đây là file robots.txt của trang mình này: http://www.ducanhplus.com/robots.txt
User-agent: Mediapartners-Google
Disallow: 

User-agent: *
Disallow: /search
Allow: /

Sitemap: http://www.ducanhplus.com/feeds/posts/default?orderby=UPDATED

Dưới đây là giải thích:

  • User-agent: Mediapartners-Google là chỉ đích danh bọ tìm kiếm Google.
  • User-agent: * là chỉ đến tất cả các bọ tìm kiếm.
  • Disallow nghĩa là không cho phép lục lọi ở đây, Allow: / là cho phép.
  • Disallow: /search nghĩa là không được vào khu vực có dạng ten-mien-cau-ban.com/search/
  • Sitemap: chính là bản đồ trang web.

Nếu bạn dùng các hệ quản trị nội dung như WordPress, Joomla, Drupal thì nên tìm kiếm trên mạng một số thông tin về cấu hình robots.txt sao cho tối ưu nhất với trang của bạn. Tuy nhiên cũng hết sức thận trọng khi can thiệp vào robots.txt bởi nếu không cẩn thận có thể bạn sẽ vô tình chặn bot lập chỉ mục các nội dung trang web ở những phần mà bạn không hề muốn chặn.

Để chỉnh sửa robots.txt theo cách thủ công thì đơn giản nhất là dùng Notepad. Ngoài ra trên mạng cũng có nhiều trang tạo tự động nội dung robots.txt, bạn chỉ việc điền thông tin vào rồi nhấn nút tạo là xong. Ví dụ một trang như thế: http://www.mcanerin.com/EN/search-engine/robots-txt.asp

Mình là Nguyễn Đức Anh, sinh năm 1987. Hiện là marketing tự do. Facebook cá nhân: https://www.facebook.com/anhducnguyen87

Trả lời

Thư điện tử của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *