Tất cả những gì bạn cần biết về file robots.txt
File robots.txt chứa các chỉ thị cho các công cụ tìm kiếm. Bạn có thể sử dụng nó để ngăn các công cụ tìm kiếm truy cập vào các phần cụ thể của trang web của bạn và để cung cấp các gợi ý hữu ích cho các công cụ tìm kiếm về cách truy cập tốt nhất vào trang web của bạn. File robots.txt đóng vai trò quan trọng trong SEO.
Khi triển khai robots.txt, hãy lưu ý những điều sau đây:
- Hãy cẩn thận khi thay đổi robots.txt: tệp này có khả năng khiến một phần lớn trang web của bạn trở nên không thể truy cập được cho các công cụ tìm kiếm.
- File robots.txt nên nằm trong thư mục gốc của trang web của bạn (ví dụ: http://www.example.com/robots.txt).
- File robots.txt chỉ có hiệu lực đối với toàn bộ miền mà nó nằm trên, bao gồm cả giao thức (http hoặc https).
- Các công cụ tìm kiếm khác nhau hiểu các chỉ thị khác nhau. Mặc định, chỉ thị phù hợp đầu tiên luôn thắng. Tuy nhiên, với Google và Bing, sự cụ thể sẽ thắng.
- Hạn chế việc sử dụng chỉ thị crawl-delay cho các công cụ tìm kiếm.
File robots.txt là gì?
File robots.txt là một tệp văn bản có thể được lưu trữ trên máy chủ của trang web. Nó cho các công cụ tìm kiếm biết quy tắc tương tác của trang web của bạn. Một phần lớn trong việc thực hiện SEO là về việc gửi các tín hiệu đúng cho các công cụ tìm kiếm, và robots.txt là một trong những cách để truyền đạt sự ưu tiên về việc truy cập của bạn cho các công cụ tìm kiếm.
Trong năm 2019, chúng ta đã thấy khá nhiều phát triển xung quanh tiêu chuẩn robots.txt: Google đã đề xuất một phần mở rộng cho Giao thức Loại trừ Robots và công khai mã nguồn của trình phân tích robots.txt của mình.
Tại sao bạn nên quan tâm đến robots.txt?
Robots.txt đóng vai trò quan trọng từ góc nhìn SEO. Nó cho các công cụ tìm kiếm biết cách truy cập tốt nhất vào trang web của bạn.
Bằng cách sử dụng file robots.txt, bạn có thể ngăn các công cụ tìm kiếm truy cập vào một số phần cụ thể của trang web của bạn, ngăn tránh nội dung trùng lặp và cung cấp các gợi ý hữu ích cho các công cụ tìm kiếm về cách truy cập tốt hơn vào trang web của bạn.
Tuy nhiên, hãy cẩn thận khi thay đổi file robots.txt của bạn: tệp này có khả năng khiến một phần lớn trang web của bạn trở nên không thể truy cập được cho các công cụ tìm kiếm.
File robots.txt trông như thế nào?
Dưới đây là một ví dụ về nội dung của file robots.txt:
User-agent: *
Disallow:
Điều này cho biết tất cả các trình thu thập dữ liệu (crawlers) có thể truy cập vào mọi thứ.
Các lưu ý quan trọng về file robots.txt
- File robots.txt chỉ là một chỉ thị và không phải là một quy định.
- Các trang không thể truy cập được cho các công cụ tìm kiếm do file robots.txt, nhưng lại có liên kết đến chúng, vẫn có thể xuất hiện trong kết quả tìm kiếm nếu chúng được liên kết từ các trang khác được thu thập dữ liệu. Ví dụ:
- Google đã cho biết rằng một file robots.txt được lưu trữ trong bộ nhớ cache trong khoảng thời gian 24 giờ.
- Google hiện hỗ trợ một giới hạn kích thước tệp robots.txt là 500 kibibytes (512 kilobytes). Bất kỳ nội dung nào sau giới hạn tệp tin tối đa này có thể bị bỏ qua.
Tránh sử dụng noindex trong file robots.txt
Trong nhiều năm qua, Google đã khuyến nghị không sử dụng chỉ thị noindex không chính thức. Từ ngày 1 tháng 9 năm 2019, Google đã ngừng hỗ trợ hoàn toàn.
Chỉ thị noindex không chính thức không hoạt động trong Bing, như được xác nhận bởi Frédéric Dubut trong tweet sau:
Cách tốt nhất để cho biết cho các công cụ tìm kiếm biết rằng các trang không nên được lập chỉ mục là sử dụng thẻ meta robots hoặc X-Robots-Tag.
Tìm hiểu thêm về chúng tôi tại: TRANHUNG Digital
Nguồn tham khảo: https://www.conductor.com/academy/robotstxt/