Robots.Txt: Tìm hiểu về Robots.Txt và tại sao nó quan trọng cho SEO

Gì là tập tin robots.txt?

Tập tin robots.txt là một tập hợp các chỉ thị được sử dụng bởi các trang web để cho biết cho các công cụ tìm kiếm biết những trang nào nên và không nên được thu thập. Tập tin robots.txt chỉ dẫn việc truy cập của robot nhưng không được sử dụng để loại bỏ trang khỏi chỉ số của Google.

Tập tin robots.txt có dạng như sau:

Gì là tập tin robots.txt?

Dù tập tin robots.txt có vẻ phức tạp, cú pháp (ngôn ngữ máy tính) rất đơn giản. Chúng ta sẽ tìm hiểu chi tiết sau.

Trong bài viết này, chúng ta sẽ bàn về:

  • Tại sao tập tin robots.txt quan trọng
  • Cách tập tin robots.txt hoạt động
  • Cách tạo tập tin robots.txt
  • Các quy tắc tốt nhất cho tập tin robots.txt
  • Tại sao tập tin robots.txt quan trọng?

    Tập tin robots.txt giúp quản lý hoạt động thu thập thông tin của web crawler để tránh làm quá tải cho trang web của bạn hoặc đánh dấu các trang không được công khai xem.

    Dưới đây là một số lý do để sử dụng tập tin robots.txt:

    1. Tối ưu ngân sách thu thập thông tin

    Ngân sách thu thập thông tin là số lượng trang mà Google sẽ thu thập trên trang web của bạn trong một khoảng thời gian nhất định.

    Số lượng này có thể thay đổi dựa trên kích thước, tính năng và số lượng liên kết trên trang web của bạn.

    Nếu số trang web của bạn vượt quá ngân sách thu thập thông tin của trang web, bạn có thể có những trang không được chỉ mục trên trang web của bạn.

    Các trang không được chỉ mục sẽ không được xếp hạng và cuối cùng, bạn sẽ phí thời gian tạo trang mà người dùng không thể thấy.

    Chặn các trang không cần thiết bằng tập tin robots.txt cho phép Googlebot (công cụ thu thập thông tin của Google) dành nhiều ngân sách thu thập thông tin cho những trang quan trọng.

    Lưu ý: Đa số chủ sở hữu trang web không cần quá lo lắng về ngân sách thu thập thông tin, theo Google. Điều này chủ yếu là một vấn đề đối với các trang web lớn có hàng nghìn URL.

    2. Chặn các trang trùng lặp và không công khai

    Các bot thu thập thông tin không cần tìm kiếm qua mọi trang trên trang web của bạn. Bởi vì không phải tất cả các trang web được tạo ra để phục vụ trong các trang kết quả tìm kiếm của công cụ tìm kiếm (SERPs).

    Ví dụ như trang chuyển tiếp, trang kết quả tìm kiếm nội bộ, các trang trùng lặp hoặc trang đăng nhập.

    Một số hệ thống quản lý nội dung tự động xử lý các trang nội bộ này cho bạn.

    Ví dụ, WordPress tự động không cho phép trang đăng nhập /wp-admin/ cho tất cả các bot thu thập thông tin.

    Tập tin robots.txt cho phép bạn chặn các trang này khỏi các bot thu thập thông tin.

    3. Ẩn các tài nguyên

    Đôi khi bạn muốn loại trừ các tài nguyên như PDF, video và hình ảnh khỏi kết quả tìm kiếm.

    Để giữ cho chúng riêng tư hoặc để Google tập trung vào nội dung quan trọng hơn.

    Trong cả hai trường hợp, tập tin robots.txt ngăn chúng khỏi việc được thu thập thông tin (và do đó được chỉ mục).

    Tập tin robots.txt hoạt động như thế nào?

    Tập tin robots.txt cho biết cho bot công cụ tìm kiếm biết các URL nào họ có thể thu thập thông tin và, quan trọng hơn, những URL nào họ nên bỏ qua.

    Công cụ tìm kiếm phục vụ hai mục đích chính:

  • Thu thập thông tin trên web để khám phá nội dung
  • Chỉ mục và cung cấp nội dung cho người tìm kiếm đang tìm kiếm thông tin
  • Khi thu thập thông tin trên các trang web, bot công cụ tìm kiếm phát hiện và theo dõi liên kết. Quá trình này dẫn chúng từ trang A đến trang B đến trang C qua hàng triệu liên kết, trang web và trang web.

    Nhưng nếu bot tìm thấy tập tin robots.txt, nó sẽ đọc nó trước khi làm bất cứ điều gì khác.

    Cú pháp rất đơn giản.

    Gán các quy tắc bằng cách xác định user-agent (bot công cụ tìm kiếm), theo sau là các chỉ thị (quy tắc).

    Bạn cũng có thể sử dụng ký tự đại diện (*) để gán các chỉ thị cho mọi user-agent, áp dụng quy tắc cho tất cả các bot.

    Ví dụ, hướng dẫn dưới đây cho phép tất cả các bot trừ DuckDuckGo thu thập thông tin trang web của bạn:

    Tập tin robots.txt hoạt động như thế nào?

    Lưu ý: Mặc dù tập tin robots.txt cung cấp các chỉ thị, nhưng nó không thể bắt buộc chúng. Hãy xem nó như một quy tắc ứng xử. Các bot tốt (như bot công cụ tìm kiếm) sẽ tuân theo các quy tắc, nhưng bot xấu (như bot spam) sẽ bỏ qua chúng.

    Tham khảo  Hướng dẫn Local SEO: Đầy đủ và chi tiết

    Bot Semrush thu thập thông tin trên web để thu thập thông tin cho các công cụ tối ưu hóa trang web của chúng tôi, chẳng hạn như Site Audit, Backlink Audit, On Page SEO Checker và nhiều công cụ khác.

    Bot của chúng tôi tôn trọng các quy tắc được đề ra trong tập tin robots.txt của bạn.

    Nếu bạn chặn bot của chúng tôi khỏi việc thu thập thông tin trên trang web của bạn, chúng tôi sẽ không thu thập thông tin.

    Nhưng điều đó cũng có nghĩa là bạn không thể sử dụng một số công cụ của chúng tôi một cách hiệu quả.

    Ví dụ, nếu bạn chặn bot SiteAuditBot của chúng tôi khỏi việc thu thập thông tin trên trang web của bạn, bạn sẽ không thể kiểm tra trang web của bạn bằng công cụ Site Audit của chúng tôi. Để phân tích và sửa các vấn đề kỹ thuật trên trang web của bạn.

    Tập tin robots.txt hoạt động như thế nào?

    Nếu bạn chặn bot SemrushBot-SI của chúng tôi khỏi việc thu thập thông tin trên trang web của bạn, bạn sẽ không thể sử dụng công cụ On Page SEO Checker của chúng tôi một cách hiệu quả.

    Và bạn sẽ mất đi khả năng tạo ra ý tưởng tối ưu hóa để cải thiện thứ hạng trang web của bạn.

    Tập tin robots.txt hoạt động như thế nào?

    Làm thế nào để tìm tập tin robots.txt?

    Tập tin robots.txt được lưu trữ trên máy chủ của bạn, giống như bất kỳ tệp tin nào khác trên trang web của bạn.

    Xem tập tin robots.txt cho bất kỳ trang web cụ thể nào bằng cách gõ đầy đủ URL cho trang chủ và thêm “/robots.txt” vào cuối.

    Ví dụ như: https://semrush.com/robots.txt.

    Làm thế nào để tìm tập tin robots.txt

    Lưu ý: Tập tin robots.txt luôn nằm ở mức thư mục gốc của tên miền. Với www.example.com, tập tin robots.txt nằm ở www.example.com/robots.txt. Đặt ở bất kỳ nơi nào khác, bot thu thập thông tin có thể cho rằng bạn không có tập tin robots.txt.

    Trước khi tìm hiểu cách tạo tập tin robots.txt, hãy xem cú pháp của chúng.

    Cú pháp của tập tin robots.txt

    Một tập tin robots.txt bao gồm:

  • Một hoặc nhiều khối “chỉ thị” (quy tắc)
  • Mỗi khối có một “user-agent” cụ thể (bot công cụ tìm kiếm)
  • Và một chỉ thị “cho phép” hoặc “cấm”
  • Một khối đơn giản có thể trông như thế này:

    User-agent: GooglebotDisallow: /not-for-googleUser-agent: DuckDuckBotDisallow: /not-for-duckduckgoSitemap: https://www.yourwebsite.com/sitemap.xml

    Chỉ thị User-Agent

    Dòng đầu tiên của mỗi khối chỉ thị là user-agent, xác định bot thu thập thông tin.

    Ví dụ, nếu bạn muốn cho biết Googlebot không nên thu thập thông tin trang quản trị WordPress của bạn, chỉ thị của bạn sẽ bắt đầu bằng:

    User-agent: GooglebotDisallow: /wp-admin/

    Lưu ý: Hầu hết các công cụ tìm kiếm có nhiều bot thu thập thông tin. Họ sử dụng các bot thu thập thông tin khác nhau cho việc chỉ mục tiêu chuẩn, hình ảnh, video, v.v.

    Khi có nhiều chỉ thị, bot có thể chọn khối chỉ thị cụ thể nhất.

    Giả sử bạn có ba tập chỉ thị: một cho *, một cho Googlebot và một cho Googlebot-Image.

    Nếu user agent Googlebot-News thu thập thông tin trang web của bạn, nó sẽ tuân thủ chỉ thị của Googlebot.

    Ông nghĩa là user agent Googlebot-Image sẽ tuân theo chỉ thị Googlebot-Image cụ thể hơn.

    Chỉ thị Disallow trong tập tin robots.txt

    Dòng thứ hai của một chỉ thị robots.txt là dòng “Disallow”.

    Bạn có thể có nhiều chỉ thị Disallow xác định phần nào của trang web không thể truy cập bởi các bot thu thập thông tin.

    Một dòng “Disallow” trống có nghĩa là bạn không cấm bất kỳ thứ gì – bot thu thập thông tin có thể truy cập tất cả các phần trang web của bạn.

    Ví dụ, nếu bạn muốn cho phép tất cả các công cụ tìm kiếm thu thập thông tin trên toàn bộ trang web của bạn, khối chỉ thị của bạn sẽ trông như sau:

    User-agent: *Allow: /

    Nếu bạn muốn chặn tất cả các công cụ tìm kiếm thu thập thông tin trên trang web của bạn, khối chỉ thị của bạn sẽ trông như sau:

    User-agent: *Disallow: /

    Lưu ý: Các chỉ thị như “Allow” và “Disallow” không phân biệt chữ hoa chữ thường. Nhưng các giá trị bên trong mỗi chỉ thị là phân biệt chữ hoa chữ thường.

    Ví dụ, /photo/ không giống /Photo/.

    Tuy vậy, bạn thường thấy các chỉ thị “Allow” và “Disallow” viết hoa để làm cho tập tin dễ đọc hơn.

    Chỉ thị Allow

    Chỉ thị “Allow” cho phép công cụ tìm kiếm thu thập thông tin trên một thư mục con hoặc trang cụ thể, ngay cả trong một thư mục gốc bị cấm.

    Ví dụ, nếu bạn muốn ngăn Googlebot truy cập vào tất cả các bài viết trên blog của bạn ngoại trừ một bài viết, chỉ thị của bạn có thể trông như sau:

    User-agent: GooglebotDisallow: /blogAllow: /blog/example-post

    Lưu ý: Không phải tất cả các công cụ tìm kiếm nhận ra chỉ thị này. Nhưng Google và Bing đều hỗ trợ chỉ thị này.

    Chỉ thị Sitemap

    Chỉ thị Sitemap cho biết cho các công cụ tìm kiếm – cụ thể là Bing, Yandex và Google – nơi tìm thấy sitemap XML của bạn.

    Sitemap thường bao gồm các trang bạn muốn các công cụ tìm kiếm thu thập thông tin và chỉ mục.

    Chỉ thị này nằm ở đầu hoặc cuối tập tin robots.txt và trông như sau:

    Chỉ thị Sitemap

    Thêm chỉ thị Sitemap vào tập tin robots.txt là một cách nhanh chóng. Tuy nhiên, bạn cũng có thể (và nên) gửi sitemap XML của bạn đến mỗi công cụ tìm kiếm bằng cách sử dụng các công cụ quản trị webmaster của họ.

    Các công cụ tìm kiếm sẽ thu thập thông tin trang web của bạn sau một thời gian, nhưng việc gửi sitemap giúp tăng tốc quá trình thu thập thông tin.

    Tham khảo  Công cụ SEO tốt nhất và phần mềm (Tháng 1 năm 2024)

    Chỉ thị Crawl-Delay

    Chỉ thị crawl-delay chỉ đạo các bot thu thập thông tin chờ một khoảng thời gian sau mỗi hoạt động thu thập thông tin để tránh quá tải máy chủ (tức là làm chậm trang web của bạn).

    Google không còn hỗ trợ chỉ thị crawl-delay. Nếu bạn muốn đặt tốc độ thu thập thông tin của Googlebot, bạn sẽ phải làm điều đó trong Search Console.

    Hãy tưởng bạn muốn một bot phải chờ 10 giây sau mỗi hoạt động thu thập thông tin. Đặt khoảng cách là 10 như sau:

    User-agent: *Crawl-delay: 10

    Chỉ thị Noindex

    Tập tin robots.txt cho biết cho bot những gì nó có thể hoặc không thể thu thập thông tin, nhưng nó không thể cho công cụ tìm kiếm biết những URL nào không nên được chỉ mục và hiển thị trong kết quả tìm kiếm.

    Trang vẫn sẽ xuất hiện trong kết quả tìm kiếm, nhưng bot không biết những gì nó đang ở trên đó, vì vậy trang của bạn sẽ xuất hiện như sau:

    Chỉ thị Noindex

    Google không bao giờ chính thức hỗ trợ chỉ thị này, nhưng vào ngày 1 tháng 9 năm 2019, Google đã thông báo rằng chỉ thị này không được hỗ trợ.

    Nếu bạn muốn loại trừ một trang hoặc tệp tin khỏi kết quả tìm kiếm một cách đáng tin cậy, hãy tránh chỉ thị này hoàn toàn và sử dụng thẻ meta robots noindex.

    Làm thế nào để tạo tập tin robots.txt?

    Dưới đây là cách:

    1. Tạo tập tin và đặt tên là Robots.txt

    Bắt đầu bằng cách mở một tài liệu .txt trong trình chỉnh sửa văn bản hoặc trình duyệt web.

    Lưu ý: Đừng sử dụng trình xử lý văn bản, vì chúng thường lưu tệp tin dưới dạng định dạng độc quyền có thể thêm các ký tự ngẫu nhiên.

    Tiếp theo, đặt tên cho tài liệu là robots.txt.

    Bây giờ bạn đã sẵn sàng bắt đầu gõ chỉ thị.

    2. Thêm chỉ thị vào tập tin Robots.txt

    Một tập tin robots.txt bao gồm một hoặc nhiều nhóm chỉ thị, và mỗi nhóm bao gồm nhiều dòng chỉ thị.

    Mỗi nhóm bắt đầu bằng một “user-agent” và có các thông tin sau đây:

  • Nhóm áp dụng cho ai (user-agent)
  • Thư mục (trang) hoặc tệp tin mà bot có thể truy cập
  • Thư mục (trang) hoặc tệp tin mà bot không thể truy cập
  • Một sitemap (tùy chọn) để cho các công cụ tìm kiếm biết những trang và tệp tin bạn coi là quan trọng
  • Các bot sẽ bỏ qua các dòng không phù hợp với các chỉ thị này.

    Ví dụ, giả sử bạn không muốn Google thu thập thông tin về thư mục /clients/ của bạn vì nó chỉ dùng cho mục đích nội bộ.

    Nhóm đầu tiên sẽ trông như thế này:

    User-agent: GooglebotDisallow: /clients/

    Các chỉ dịch bổ sung có thể được thêm vào dòng riêng biệt phía dưới, như sau:

    User-agent: GooglebotDisallow: /clients/Disallow: /not-for-google

    Khi bạn hoàn thành với các chỉ thị cụ thể cho Google, nhấn phím Enter hai lần để tạo một nhóm chỉ thị mới.

    Hãy tạo một nhóm chỉ thị khác cho tất cả các công cụ tìm kiếm và ngăn họ thu thập thông tin về thư mục /archive/ và /support/ của bạn vì chúng chỉ dùng cho mục đích nội bộ.

    Nó sẽ trông như sau:

    User-agent: GooglebotDisallow: /clients/Disallow: /not-for-googleUser-agent: *Disallow: /archive/Disallow: /support/

    Khi bạn hoàn thành, hãy thêm sitemap của bạn.

    Tập tin robots.txt của bạn khi hoàn thành sẽ trông như thế này:

    User-agent: GooglebotDisallow: /clients/Disallow: /not-for-googleUser-agent: *Disallow: /archive/Disallow: /support/Sitemap: https://www.yourwebsite.com/sitemap.xml

    Lưu tập tin robots.txt của bạn. Hãy nhớ đặt tên là robots.txt.

    Lưu ý: Các bot đọc từ trên xuống dưới và so khớp với nhóm quy tắc cụ thể nhất. Vì vậy, hãy bắt đầu tập tin robots.txt của bạn với các user agent cụ thể trước, sau đó tiếp tục với ký tự đại diện (*) tổng quát hơn phù hợp với tất cả các công cụ thu thập thông tin.

    3. Tải lên tập tin Robots.txt

    Sau khi bạn đã lưu tập tin robots.txt vào máy tính của bạn, tải lên nó lên trang web của bạn và cho phép các công cụ tìm kiếm thu thập thông tin.

    Rất tiếc, không có công cụ chung nào cho bước này.

    Việc tải lên tập tin robots.txt phụ thuộc vào cấu trúc tệp tin và lưu trữ web của trang web của bạn.

    Tìm kiếm trực tuyến hoặc liên hệ với nhà cung cấp dịch vụ lưu trữ để được trợ giúp về việc tải lên tệp tin robots.txt của bạn.

    Ví dụ, bạn có thể tìm kiếm “tải lên tập tin robots.txt cho WordPress.”

    Dưới đây là một số bài viết giải thích cách tải lên tập tin robots.txt trên những nền tảng phổ biến nhất:

  • Tập tin robots.txt trong WordPress
  • Tập tin robots.txt trong Wix
  • Tập tin robots.txt trong Joomla
  • Tập tin robots.txt trong Shopify
  • Tập tin robots.txt trong BigCommerce
  • Sau khi tải lên, kiểm tra xem ai có thể nhìn thấy nó và nếu Google có thể đọc nó.

    Dưới đây là cách.

    4. Kiểm tra tập tin Robots.txt của bạn

    Đầu tiên, kiểm tra xem tập tin robots.txt của bạn có thể truy cập công khai (tức là nó đã được tải lên đúng cách).

    Mở một cửa sổ riêng tư trong trình duyệt của bạn và tìm kiếm tập tin robots.txt của bạn.

    Ví dụ: https://semrush.com/robots.txt.

    4. Kiểm tra tập tin Robots.txt của bạn

    Nếu bạn thấy tập tin robots.txt của bạn với nội dung bạn đã thêm, bạn đã sẵn sàng kiểm tra đánh đấu (mã HTML).

    Google cung cấp hai tùy chọn để kiểm tra mã đánh đấu robots.txt:

  • Công cụ kiểm tra robots.txt trong Search Console
  • Thư viện robots.txt mã nguồn mở của Google (nâng cao)
  • Vì tùy chọn thứ hai dành cho các nhà phát triển nâng cao, hãy kiểm tra tập tin robots.txt của bạn trong Search Console.

    Tham khảo  Yoast SEO có thể hỗ trợ những gì cho SEO

    Lưu ý: Bạn phải có một tài khoản Search Console đã được thiết lập để kiểm tra tập tin robots.txt của bạn.

    Truy cập Công cụ kiểm tra robots.txt và nhấp vào “Mở công cụ kiểm tra robots.txt.”

    4. Kiểm tra tập tin Robots.txt của bạn

    Nếu bạn chưa liên kết trang web của mình với tài khoản Google Search Console của mình, bạn sẽ cần thêm một tài sản trước.

    4. Kiểm tra tập tin Robots.txt của bạn

    Sau đó, xác minh bạn là chủ sở hữu thực sự của trang web.

    4. Kiểm tra tập tin Robots.txt của bạn

    Lưu ý: Google đang lên kế hoạch đóng cửa trình hướng dẫn cài đặt này. Vì vậy trong tương lai, bạn sẽ phải xác minh trực tiếp tài sản của mình trong Search Console. Đọc hướng dẫn đầy đủ của chúng tôi về Google Search Console để tìm hiểu thêm.

    Nếu bạn đã có các tài sản đã được xác minh, hãy chọn một tài sản từ danh sách thả xuống trên trang chủ của Công cụ kiểm tra.

    4. Kiểm tra tập tin Robots.txt của bạn

    Công cụ kiểm tra sẽ xác định các cảnh báo cú pháp hoặc lỗi logic.

    Và hiển thị tổng số cảnh báo và lỗi dưới trình chỉnh sửa.

    4. Kiểm tra tập tin Robots.txt của bạn

    Bạn có thể chỉnh sửa lỗi hoặc cảnh báo trực tiếp trên trang và kiểm tra lại khi bạn sử dụng.

    Bất kỳ thay đổi nào được thực hiện trên trang sẽ không được lưu vào trang web của bạn. Công cụ không thay đổi tệp thực tế trên trang web của bạn. Nó chỉ kiểm tra so với bản sao được lưu trữ trong công cụ.

    Để thực hiện bất kỳ thay đổi nào, sao chép và dán bản sao chỉnh sửa vào tập tin robots.txt trên trang web của bạn.

    Công cụ Kiểm tra Trang web của Semrush có thể kiểm tra các vấn đề liên quan đến tập tin robots.txt của bạn.

    Đầu tiên, thiết lập một dự án trong công cụ và kiểm tra trang web của bạn.

    Sau khi hoàn thành, điều hướng đến tab “Vấn đề” và tìm kiếm “robots.txt”.

    Nhấp vào liên kết “Tệp tin robots.txt có lỗi định dạng” nếu tệp tin của bạn có lỗi định dạng.

    Bạn sẽ thấy danh sách các dòng không hợp lệ cụ thể.

    Bạn có thể nhấp vào “Tại sao và cách sửa chúng” để nhận hướng dẫn cụ thể về cách sửa lỗi.

    Kiểm tra tệp tin robots.txt của bạn để tìm lỗi là quan trọng, vì ngay cả những lỗi nhỏ cũng có thể ảnh hưởng tiêu cực đến khả năng chỉ mục của trang web của bạn.

    Các quy tắc tốt nhất cho tập tin robots.txt

    Sử dụng dòng mới cho mỗi chỉ thị

    Mỗi chỉ thị nên nằm trên một dòng mới.

    Nếu không, các công cụ tìm kiếm sẽ không thể đọc chúng và chỉ thị của bạn sẽ bị bỏ qua.

    Không chính xác:

    User-agent: * Disallow: /admin/Disallow: /directory/

    Chính xác:

    User-agent: *Disallow: /admin/Disallow: /directory/

    Chỉ sử dụng mỗi User-Agent một lần

    Các bot không phiền nếu bạn nhập cùng một user-agent nhiều lần.

    Nhưng chỉ định nó một lần giúp giữ mọi thứ gọn gàng và đơn giản. Và giảm khả năng mắc lỗi do con người.

    Nhầm lẫn:

    User-agent: GooglebotDisallow: /example-pageUser-agent: GooglebotDisallow: /example-page-2

    Lưu ý cách user agent Googlebot được liệt kê hai lần.

    Rõ ràng:

    User-agent: GooglebotDisallow: /example-pageDisallow: /example-page-2

    Trong ví dụ đầu tiên, Google vẫn tuân theo các chỉ thị và không thu thập thông tin từ bất kỳ trang nào.

    Nhưng việc viết tất cả các chỉ thị dưới cùng một user-agent là sạch sẽ và giúp bạn giữ gìn tổ chức.

    Sử dụng ký tự đại diện để làm rõ chỉ thị

    Bạn có thể sử dụng ký tự đại diện (*) để áp dụng một chỉ thị cho tất cả các user-agent và so khớp với các mẫu URL.

    Ví dụ, để ngăn các công cụ tìm kiếm truy cập vào các URL với tham số, bạn có thể liệt kê chúng một cách riêng biệt.

    Nhưng điều đó không hiệu quả. Bạn có thể đơn giản hóa chỉ thị của bạn với ký tự đại diện.

    Không hiệu quả:

    User-agent: *Disallow: /shoes/vans?Disallow: /shoes/nike?Disallow: /shoes/adidas?

    Hiệu quả:

    User-agent: *Disallow: /shoes/*?

    Ví dụ trên chặn tất cả các bot công cụ tìm kiếm khỏi thu thập thông tin về tất cả các URL trong thư mục con /shoes/ có một dấu chấm hỏi.

    Sử dụng ký tự “$” để chỉ ra cuối của một URL

    Thêm ký tự “$” chỉ ra cuối của URL.

    Ví dụ, nếu bạn muốn chặn các công cụ tìm kiếm truy cập vào tất cả các tệp tin .jpg trên trang web của bạn, bạn có thể liệt kê chúng một cách riêng biệt.

    Nhưng điều đó không hiệu quả.

    Không hiệu quả:

    User-agent: *Disallow: /photo-a.jpgDisallow: /photo-b.jpgDisallow: /photo-c.jpg

    Thay vào đó, hãy thêm ký tự “$”, như sau:

    Hiệu quả:

    User-agent: *Disallow: /*.jpg$

    Lưu ý: Trong ví dụ này, /dog.jpg không thể thu thập thông tin, nhưng /dog.jpg?p=32414 có thể vì nó không kết thúc bằng “.jpg.”

    Biểu thức “$” là một tính năng hữu ích trong những trường hợp cụ thể như trên. Nhưng nó cũng có thể nguy hiểm.

    Bạn có thể dễ dàng mở khóa những thứ bạn không định mở khóa, vì vậy hãy cẩn thận trong việc áp dụng nó.

    Sử dụng dấu thăng (#) để thêm chú thích

    Bot thu thập thông tin bỏ qua tất cả mọi thứ bắt đầu bằng dấu thăng (#).

    Do đó, các nhà phát triển thường sử dụng dấu thăng để thêm chú thích trong tập tin robots.txt. Nó giúp giữ cho tệp tin gọn gàng và dễ đọc.

    Để thêm chú thích, bắt đầu dòng bằng dấu thăng (#).

    Ví dụ:

    User-agent: *#Landing PagesDisallow: /landing/Disallow: /lp/#FilesDisallow: /files/Disallow: /private-files/#WebsitesAllow: /website/*Disallow: /website/search/*

    Thỉnh thoảng, các nhà phát triển bao gồm các thông điệp hài hước trong tập tin robots.txt vì họ biết ít người dùng thường thấy chúng.

    Ví dụ, tập tin robots.txt của YouTube đọc: “Created in the distant future (the year 2000) after the robotic uprising of the mid 90’s which wiped out all humans.”

    Sử dụng dấu thăng (#) để thêm chú thích

    Và tập tin robots.txt của Nike đọc “just crawl it” (một gợi ý đến khẩu hiệu “just do it” của họ) và logo của họ.

    Sử dụng dấu thăng (#) để thêm chú thích

    Sử dụng các tập tin robots.txt riêng biệt cho các subdomain khác nhau

    Tập tin robots.txt chỉ điều khiển hành vi thu thập thông tin trên subdomain mà nó được lưu trữ.

    Để điều khiển thu thập thông tin trên một subdomain khác, bạn sẽ cần một tập tin robots.txt riêng biệt.

    Vì vậy, nếu trang web chính của bạn nằm trên domain.com và blog của bạn nằm trên subdomain blog.domain.com, bạn sẽ cần hai tập tin robots.txt.

    Một cho thư mục gốc của tên miền chính và một cho thư mục gốc của blog của bạn.

    Tiếp tục học tập

    Bây giờ bạn đã hiểu rõ cách tập tin robots.txt hoạt động, đây là một số tài liệu tham khảo bổ sung để tiếp tục học tập:

  • Giải thích thẻ Robots Meta và X-Robots-Tag
  • Cách sửa các vấn đề liên quan đến khả năng thu thập thông tin
  • Hướng dẫn cho người mới bắt đầu về thẻ Canonical
  • Giao thức loại trừ Robots