Thuật ngữ

robots.txt

Tệp robots.txt đóng vai trò như một “chỉ dẫn giao thông” dành cho các trình thu thập dữ liệu web, điển hình là bot của các công cụ tìm kiếm. Nó cho phép bạn “dẫn đường” các bot này, xác định URL nào chúng được phép truy cập và URL nào nên bỏ qua. Bên cạnh đó, bạn còn có thể điều chỉnh tốc độ thu thập dữ liệu cho từng bot cụ thể.

Lưu ý:

  • Bot “lành” sẽ tôn trọng quy tắc trong robots.txt. Tuy nhiên, cũng tồn tại những bot “xấu” không đăng ký, thường dùng để sao chép dữ liệu, hoàn toàn phớt lờ tệp này.
  • Mục đích chính của robots.txt là giảm thiểu/tối ưu lưu lượng truy cập của bot, không phải để kiểm soát việc lập chỉ mục các trang web. Dù một URL bị chặn trong robots.txt, nó vẫn có thể được Google lập chỉ mục nếu được tìm thấy qua liên kết bên ngoài.

Cú pháp của tệp robots.txt chứa các trường sau:

user-agent: xác định bot nào áp dụng các quy tắc.
disallow: đường dẫn không được thu thập.
allow: đường dẫn được thu thập (tùy chọn).
sitemap: vị trí của tệp sitemap (tùy chọn).
crawl-delay: điều chỉnh tốc độ thu thập (tùy chọn và không được GoogleBot hỗ trợ).

Tại sao robots.txt quan trọng?

  • Cho phép webmaster kiểm soát hành vi của bot, tối ưu hóa ngân sách thu thập và hạn chế truy cập vào các phần web riêng tư.
  • Giúp chủ web không lập chỉ mục cho các trang nhất định như trang tác giả, trang đăng nhập hoặc trang thành viên nội bộ.
  • Ngăn chặn thu thập và lập chỉ mục các tài nguyên yêu cầu đăng ký email, như PDF hoặc video.