Cách ngăn công cụ tìm kiếm thu thập dữ liệu trang web của bạn

Với robots.txt chủ sở hữu trang web có thể hướng dẫn các công cụ tìm kiếm cách thu thập dữ liệu trang web bằng cách sử dụng tệp robots.txt.

1. Chỉnh sửa hoặc tạo tệp robots.txt

Tệp robots.txt cần phải nằm ở thư mục gốc của trang web của bạn. Nếu tên miền của bạn là example.com thì nó sẽ được tìm thấy:

Trên trang web của bạn:

 https://example.com/robots.txt

Trên máy chủ của bạn:
Bạn cũng có thể tạo một tệp mới và gọi nó là robots.txt như một tệp văn bản thuần túy nếu bạn chưa có tệp này.

/home/userna5/public_html/robots.txt

2. Cách ngăn công cụ tìm kiếm thu thập dữ liệu trang web của bạn?

* Cho phép tất cả các công cụ tìm kiếm thu thập dữ liệu trang web:

Theo mặc định, các công cụ tìm kiếm có thể thu thập dữ liệu trang web của bạn, nhưng bạn cũng có thể chỉ định chúng được phép với:

User-agent: *
Disallow:

* Không cho phép bất kỳ công cụ tìm kiếm nào thu thập dữ liệu trang web của bạn bằng các quy tắc sau:

User-agent: *
Disallow: /

* Không cho phép một công cụ tìm kiếm cụ thể thu thập dữ liệu trang web:

Bạn có thể không cho phép chỉ một công cụ tìm kiếm cụ thể thu thập dữ liệu trang web của mình bằng các quy tắc sau:

User-agent: Baiduspider
Disallow: /

* Không cho phép tất cả các công cụ tìm kiếm từ các thư mục cụ thể:

Nếu chúng tôi có một vài thư mục như /cgi-bin/ , /private/ và /tmp/ chúng tôi không muốn bot thu thập dữ liệu thì chúng tôi có thể sử dụng thư mục này:

User-agent: *
Disallow: /cgi-bin/
Disallow: /private/
Disallow: /tmp/

* Không cho phép tất cả các công cụ tìm kiếm từ các tệp cụ thể :

Xem thêm:  Cách fix lỗi không gõ được ký tự & * trên Macbook

Nếu chúng tôi có các tệp như contactus.htm , index.htm và store.htm thì chúng tôi không muốn bot thu thập dữ liệu, chúng tôi có thể sử dụng tệp này:

User-agent: *
Disallow: /contactus.htm
Disallow: /index.htm
Disallow: /store.htm

* Không cho phép tất cả các công cụ tìm kiếm ngoại trừ một:

Nếu chúng tôi chỉ muốn cho phép Googlebot truy cập vào thư mục /private/ của chúng tôi và không cho phép tất cả các bot khác mà chúng tôi có thể sử dụng:

User-agent: *
Disallow: /private/
User-agent: Googlebot
Disallow:

0/5 (0 Reviews)