1. Chỉnh sửa hoặc tạo tệp robots.txt
Tệp robots.txt cần phải nằm ở thư mục gốc của trang web của bạn. Nếu tên miền của bạn là example.com thì nó sẽ được tìm thấy:
Trên trang web của bạn:
https://example.com/robots.txt
Trên máy chủ của bạn:
Bạn cũng có thể tạo một tệp mới và gọi nó là robots.txt như một tệp văn bản thuần túy nếu bạn chưa có tệp này.
/home/userna5/public_html/robots.txt
2. Cách ngăn công cụ tìm kiếm thu thập dữ liệu trang web của bạn?
* Cho phép tất cả các công cụ tìm kiếm thu thập dữ liệu trang web:
Theo mặc định, các công cụ tìm kiếm có thể thu thập dữ liệu trang web của bạn, nhưng bạn cũng có thể chỉ định chúng được phép với:
User-agent: *
Disallow:
* Không cho phép bất kỳ công cụ tìm kiếm nào thu thập dữ liệu trang web của bạn bằng các quy tắc sau:
User-agent: *
Disallow: /
* Không cho phép một công cụ tìm kiếm cụ thể thu thập dữ liệu trang web:
Bạn có thể không cho phép chỉ một công cụ tìm kiếm cụ thể thu thập dữ liệu trang web của mình bằng các quy tắc sau:
User-agent: Baiduspider
Disallow: /
* Không cho phép tất cả các công cụ tìm kiếm từ các thư mục cụ thể:
Nếu chúng tôi có một vài thư mục như /cgi-bin/ , /private/ và /tmp/ chúng tôi không muốn bot thu thập dữ liệu thì chúng tôi có thể sử dụng thư mục này:
User-agent: *
Disallow: /cgi-bin/
Disallow: /private/
Disallow: /tmp/
* Không cho phép tất cả các công cụ tìm kiếm từ các tệp cụ thể :
Nếu chúng tôi có các tệp như contactus.htm , index.htm và store.htm thì chúng tôi không muốn bot thu thập dữ liệu, chúng tôi có thể sử dụng tệp này:
User-agent: *
Disallow: /contactus.htm
Disallow: /index.htm
Disallow: /store.htm
* Không cho phép tất cả các công cụ tìm kiếm ngoại trừ một:
Nếu chúng tôi chỉ muốn cho phép Googlebot truy cập vào thư mục /private/ của chúng tôi và không cho phép tất cả các bot khác mà chúng tôi có thể sử dụng:
User-agent: *
Disallow: /private/
User-agent: Googlebot
Disallow: