Hướng dẫn tối ưu ngân sách crawl cuối cùng

Crawl budget là số lượng URL mà Googlebot có thể và muốn thu thập trên một trang web cụ thể. Sử dụng hiệu quả crawl budget là một trong những yếu tố quan trọng giúp cải thiện khả năng hiển thị trên Google của bạn.

Nếu các trang của bạn không được thu thập, chúng sẽ không được lập chỉ mục và hiển thị trong kết quả tìm kiếm.

Tại sao crawl budget tồn tại?

World Wide Web gần như vô tận, nhưng tài nguyên của Google lại có hạn. Thu thập web và lựa chọn những trang có giá trị là một trong những thách thức lớn của Google.

Ngoài ra, một số trang web có máy chủ không thể xử lý việc thu thập rộng lớn.

Điều này có nghĩa là Google sẽ không truy cập vào mọi trang trên trang web của bạn theo mặc định. Googlebot chỉ có thể thu thập các URL mà nó coi là quan trọng đủ.

Tại sao Google không truy cập vào mọi trang trên web?

– Google có tài nguyên hạn chế. Có rất nhiều spam trên web, vì vậy Google cần phát triển các cơ chế giúp tránh việc truy cập vào các trang chất lượng thấp. Google ưu tiên thu thập các trang quan trọng nhất.

– Googlebot được thiết kế để trở thành một công dân tốt trên web. Nó giới hạn việc thu thập để tránh làm sập máy chủ của bạn. Đối với Google, việc bỏ qua hoặc trì hoãn việc truy cập một số URL của bạn còn tốt hơn là làm sập máy chủ trang web của bạn.

Rủi ro của crawl budget

Nếu Googlebot tiêu tốn tài nguyên để thu thập các trang chất lượng thấp trên miền của bạn, bạn đang rủi ro không thu thập đủ các trang giá trị. Để giảm thiểu rủi ro này, bạn có thể tối ưu hóa crawl budget của mình.

Có nguy cơ gì không?

Cách thu thập và lập chỉ mục hoạt động

Để hiểu về crawl budget, chúng ta cần tìm hiểu cách Google thu thập một trang web cụ thể. Quá trình này được xác định bởi ba yếu tố:

– Giới hạn tốc độ thu thập – số lượng URL mà Google CÓ THỂ thu thập.

– Lập lịch – các URL nào nên được thu thập và khi nào.

– Nhu cầu thu thập – số lượng URL mà Google MUỐN thu thập.

Giới hạn tốc độ thu thập

Tốc độ thu thập là số “kết nối song song mà Googlebot có thể sử dụng để thu thập trang web, cũng như thời gian mà nó phải chờ giữa các lần truy xuất.”

Vì Googlebot được thiết kế để trở thành một công dân tốt trên web, nó phải xem xét khả năng của máy chủ của bạn, đảm bảo không quá tải máy chủ khi thu thập trang web của bạn.

Google sẽ điều chỉnh tốc độ thu thập dựa trên phản hồi của máy chủ của bạn. Càng chậm, tốc độ thu thập sẽ càng thấp.

Hạn chế tốc độ thu thập dữ liệu

Lập lịch

Quá trình thu thập phức tạp yêu cầu Googlebot tạo danh sách các địa chỉ mà nó định truy cập. Sau đó, các yêu cầu đến các URL đã được liệt kê được đặt trong hàng đợi. Quá trình này không ngẫu nhiên. Toàn bộ quá trình này được gọi là lập lịch, và để ưu tiên các URL quan trọng, Google sử dụng một cơ chế phức tạp gọi là nhu cầu thu thập.

Theo bằng sáng chế “Phương pháp và thiết bị để quản lý và xử lý các URL chờ” mỗi URL được gán một ưu tiên thu thập.

Nhu cầu thu thập

Yếu tố này xác định các trang (và số lượng trang đó) mà Google muốn truy cập trong một lần thu thập duy nhất. Nếu Googlebot xem một URL cụ thể là đủ quan trọng, nó sẽ đặt ưu tiên cao hơn trong lịch trình.

Tham khảo  Các Khái niệm cơ bản và 10 Phương pháp tối ưu hóa SEO kỹ thuật

Sự quan trọng của một URL cụ thể được quyết định dựa trên:

– Phổ biến – các URL thường được chia sẻ và liên kết trên Internet sẽ được xem là quan trọng hơn và có cơ hội lớn hơn để được Googlebot thu thập. Theo bằng sáng chế “Giảm thiểu sự hiển thị của nội dung đã lỗi thời trong tìm kiếm web bao gồm việc điều chỉnh khoảng thời gian thu thập web của tài liệu”, sự phổ biến của URL là sự kết hợp của hai yếu tố: tốc độ xem và PageRank.

– Mới – Nói chung, nội dung mới có ưu tiên cao hơn so với các trang không thay đổi nhiều trong nhiều năm.

Chúng tôi đã thấy nhiều ví dụ về cách trang mới quan trọng đối với Google và cách thêm chúng có thể ảnh hưởng trực tiếp đến crawl budget. Ví dụ, trang web của một khách hàng gặp sự cố gây tăng đột biến số lượng URL. Số lượng URL tăng từ khoảng 250K lên hơn 4.5 triệu chỉ trong một giây. Sớm sau đó, sự xuất hiện đột ngột của các trang mới này dẫn đến sự gia tăng đáng kể về nhu cầu thu thập.

Tìm kiếm nhu cầu.

Tuy nhiên, đáng lưu ý rằng tác động của nội dung mới đối với crawl budget chỉ là tạm thời. Ngay sau khi tất cả các URL mới đã được truy cập, số lượng trang được thu thập mỗi ngày trở lại trạng thái trước đó, thậm chí nhanh hơn cách nó tăng lên ban đầu.

Có thể xảy ra trong trường hợp cụ thể này là ban đầu, Google nhìn thấy có hàng ngàn URL mới để thu thập, vì vậy nó tăng nhu cầu thu thập. Sau đó, Google nhận ra những trang mới đó là các trang chất lượng thấp và quyết định không truy cập vào chúng.

Tìm kiếm nhu cầu.

Tại sao crawl budget quan trọng đến vậy

Một thời gian trước đây, một cuộc thảo luận sôi nổi đã diễn ra dưới một tweet mà John Mueller từ Google đã tuyên bố: “Cá nhân tôi nghĩ crawl-budget quá được đánh giá cao. Hầu hết các trang web không cần lo lắng về vấn đề này.” Và nếu bạn đã đọc bài đăng trên Webmaster Central Blog mà tôi đã đề cập trước đó, bạn có thể đã gặp phải tuyên bố sau đây:

Tại sao quỹ thời gian thu thập thông tin lại quan trọng đến vậy

Tất nhiên, như một chuyên gia SEO, tôi có thể đồng ý rằng tối ưu hóa tốc độ thu thập chủ yếu có lợi cho các trang web lớn (như các cửa hàng thương mại điện tử lớn). Từ kinh nghiệm của chúng tôi tại Onely, nếu một trang web chứa hơn 100K URL, rất có thể nó sẽ gặp vấn đề thu thập nghiêm trọng, và chúng tôi thường bao gồm tối ưu hóa crawl budget trong dịch vụ SEO kỹ thuật cho các trang web như vậy. Nếu bạn sở hữu một trang web lớn, bạn chắc chắn nên chú ý đến crawl budget của mình.

Nếu bạn có một trang web nhỏ hơn…

Trong nhiều trường hợp, bạn có thể không cần quan tâm đến crawl budget. Vấn đề là, bạn sẽ không nhận ra tình hình trừ khi bạn thực sự bắt đầu điều tra vấn đề này.

Ngay cả khi nhìn thoáng qua trang web có vẻ nhỏ, nó có thể thực tế chứa hàng ngàn URL. Sử dụng điều hướng theo thể loại có thể dễ dàng biến 100 trang thành 10000 URL duy nhất.

Lỗi trong hệ thống quản lý nội dung cũng có thể tạo ra kết quả thú vị. Gần đây, tôi đã gặp một trang web chủ yếu bao gồm trang chào mừng và bản sao của các trang sản phẩm. Tất cả đều bởi vì hệ thống quản lý nội dung được tùy chỉnh không có giải pháp xử lý các URL không tồn tại.

Nếu bạn có một trang web nhỏ hơn...

Xem xét tất cả những điều trên, bạn nhất định nên đánh giá crawl budget của trang web của bạn để đảm bảo không có vấn đề gì.

Tìm hiểu cách các bot thu thập trang web của bạn

Để tối ưu crawl budget của trang web của bạn, bạn cần xác định các vấn đề ảnh hưởng đến nó. Có một số cách bạn có thể có được một số thông tin về điều mà Googlebot đang thu thập trên trang web của bạn.

Tham khảo  Bí quyết tối ưu từ khóa Phantom Keyword: 4 bước đơn giản để thành thạo kỹ thuật Phantom Keyword

Google Search Console

GSC là một công cụ quan trọng cho mỗi chuyên gia SEO. Nó cung cấp cho bạn rất nhiều thông tin hữu ích liên quan đến trạng thái của trang web của bạn trên Google. Và vào năm 2019, phiên bản mới của GSC trình làng. Công cụ được cập nhật cung cấp nhiều chức năng hữu ích đã được mô tả trong bài viết của Tomek Rudzki về GSC mới.

Dưới đây là một số tính năng của GSC có thể cung cấp cho bạn thông tin quý giá về crawl budget của bạn:

Phân tích tệp nhật ký máy chủ

Các tệp nhật ký máy chủ chứa các mục liên quan đến mọi khách truy cập trên trang web của bạn, bao gồm cả Googlebot. Bằng cách phân tích tệp nhật ký máy chủ của bạn, bạn có thể tìm thấy thông tin chính xác về những gì thực sự được Google thu thập (bao gồm tất cả JS, CSS, hình ảnh và các tài nguyên khác). Nếu, thay vì thu thập nội dung giá trị của bạn, Googlebot lang thang một cách lạc quan, phân tích tệp nhật ký sẽ cho bạn biết để bạn có thể phản ứng một cách thích hợp.

Để có một mẫu đại diện, bạn cần trích xuất ít nhất ba tuần dữ liệu nhật ký (nếu có thể nhiều hơn càng tốt). Tệp nhật ký có thể rất lớn, vì vậy bạn nên sử dụng một công cụ phù hợp để xử lý chúng.

May mắn thay, có phần mềm chuyên dụng như:

– SEO Log File Analyser by Screaming Frog

– Một số công cụ thu thập SEO, như Deepcrawl, Botify, JetOctopus có các module dành riêng cho phân tích tệp nhật ký máy chủ.

Một lựa chọn khác là sử dụng Splunk. Nó có giá đắt, nhưng bạn có thể tải phiên bản dùng thử miễn phí mà không bị giới hạn về kích thước tệp hoặc số lượng mục nhập. Phiên bản dùng thử nên đủ cho một dự án SEO duy nhất. Nếu bạn quyết định chọn công cụ này, bạn nên chắc chắn xem bài viết của chúng tôi về cách thực hiện phân tích tệp nhật ký máy chủ trong Splunk và học cách làm như một chuyên gia.

Làm thế nào để xác định user agent chính xác?

Vì các tệp nhật ký chứa các mục của mọi khách truy cập, bạn cần có khả năng trích xuất chỉ dữ liệu liên quan đến Googlebot. Nhưng làm thế nào?

Nếu ý tưởng của bạn là quyết định dựa trên chuỗi user-agent của nó, tôi e rằng đó là câu trả lời sai.

Làm sao để nhận biết user agent đúng?

Vì bất kỳ ai cũng có thể giả vờ là Googlebot (bằng cách đơn giản thay đổi chuỗi UA trong Chrome Developer Tools), cách tiếp cận tốt nhất là lọc Googlebot theo IP. Chúng tôi đã viết một bài viết hoàn chỉnh về việc nhận biết các bot thu thập khác nhau. Nhưng, để giảm khoảng cách, các IP của Googlebot thường bắt đầu bằng: “66.249”.

Gì là cần tìm trong quá trình phân tích tệp nhật ký máy chủ?

Có nhiều khía cạnh bạn nên điều tra khi thực hiện phân tích tệp nhật ký máy chủ:

– Mã trạng thái. Nhật ký lành mạnh nên chủ yếu bao gồm các mã trạng thái 200 và 301 (304 cũng có thể xuất hiện nếu bạn sử dụng chính sách bộ nhớ cache). Nếu có bất kỳ mã trạng thái khác nào xuất hiện với số lượng đáng kể, đó là lúc phải lo lắng. Bạn nên tìm kiếm các trang 404, 401 và 403, cũng như các lỗi 5xx. Số lượng lỗi 5xx lớn là một dấu hiệu rõ ràng cho Google biết máy chủ của bạn không thể xử lý yêu cầu thu thập của Googlebot. Do đó, quá trình thu thập sẽ bị hạn chế và Googlebot có thể không thu thập tất cả các trang trên trang web của bạn.

– Phần lớn được thu thập trên trang web của bạn. Bạn nên kiểm tra thư mục và trang nào nhận được số lượt truy cập lớn nhất. Lý tưởng, bot nên chủ yếu thu thập các phần mà nội dung giá trị nhất của bạn. Ví dụ, nếu bạn có một trang web thương mại điện tử, bạn muốn nó truy cập các trang sản phẩm và danh mục. Thông thường, Googlebot đang truy cập nhiều URL chất lượng thấp không đóng góp nhiều giá trị cho miền của bạn.

Tham khảo  Cách tạo một chiến lược SEO bền vững trong năm 2023

– Tham số URL. Bằng cách điều tra các tệp nhật ký máy chủ, bạn có thể dễ dàng xác định tất cả các tham số URL đang được sử dụng trên trang web của bạn. Điều này cho phép bạn cấu hình hành vi bot trong GSC. Các tham số không thay đổi nội dung của một trang (như sắp xếp theo giá, phổ biến, v.v.) có thể bị chặn khỏi việc thu thập trong Google Search Console.

Cách tối ưu crawl budget

ROBOTS.TXT

Cách đơn giản nhất để tối ưu hóa quỹ thời gian thu thập của bot là loại bỏ các phần của trang web của bạn khỏi việc được thu thập bởi Google bằng cách sử dụng tệp robots.txt. Nếu bạn không chắc chắn về robots.txt là gì, tôi mạnh mẽ khuyên bạn nên kiểm tra tài liệu chính thức của Google về robots.txt. Bạn cũng có thể đọc hướng dẫn tối ưu về chủ đề này.

Ví dụ, trong quá trình phân tích nhật ký của một trong các khách hàng của chúng tôi, chúng tôi đã phát hiện rằng thay vì thu thập dịch vụ cung cấp, bot đã dành thời gian của mình để truy cập các trang lịch không liên quan. “Disallow: /profile-calendar” trong robots.txt đã giải quyết vấn đề.

Nhớ điều này:

– Chỉ thị Disallow trong robots.txt sẽ không ngăn trang được lập chỉ mục. Nó chỉ block truy cập đến trang cụ thể từ các liên kết nội bộ. Tuy nhiên, nếu bot thu thập URL truy cập từ nguồn bên ngoài (trước khi nó kiểm tra chỉ thị robots), trang vẫn có thể được lập chỉ mục. Nếu bạn muốn một trang cụ thể không xuất hiện trong chỉ mục Google, bạn nên sử dụng các thẻ meta robots.

– Bạn không nên chặn path của các tài nguyên (như CSS và JS) quan trọng để trang hiển thị đúng. Bot phải có thể xem toàn bộ nội dung của trang của bạn.

– Sau khi tạo tệp robots.txt, hãy nhớ gửi nó cho Google qua Google Search Console.

– Khi chặn và cho phép các thư mục và đường dẫn cụ thể, bạn dễ dàng gây nhầm lẫn và chặn một URL cần thiết một cách tình cờ. Do đó, bạn nên sử dụng một công cụ chuyên dụng để kiểm tra tập hợp chỉ thị của bạn.

SITEMAP.XML

Theo Gary Illyes từ Google, tệp sitemap XML là cách tốt thứ hai để Google khám phá các trang (cách số một là, hiển nhiên, liên kết). Điều này không phải là một phát hiện lớn, vì chúng ta đều biết rằng tệp sitemap.xml được tạo đúng cách sẽ phục vụ như một phản hồi cho Googlebot. Nó có thể tìm thấy tất cả các trang quan trọng của trang web của bạn ở đó, cũng như nhận ra các thay đổi gần đây. Do đó, rất quan trọng để duy trì tệp sitemap của bạn mới và không có lỗi.

Một tệp sitemap duy nhất không nên chứa nhiều hơn 50000 URL. Nếu số lượng trang duy nhất có thể lập chỉ mục trên trang web của bạn lớn hơn, bạn nên tạo một sitemap index chứa các liên kết tới nhiều tệp sitemap. Như bạn có thể thấy trong ví dụ dưới đây:

– www.iloveonely.com/sitemap_index.xml

– www.iloveonely.com/sitemap_1.xml

– www.iloveonely.com/sitemap_2.xml

– www.iloveonely.com/sitemap_3.xml

Một tệp sitemap đúng sẽ chứa:

– Các URL trả về mã trạng thái HTTP 200;

– Các URL có thẻ meta robots: index, follow; (hoặc các URL có thể lập chỉ mục khác mà, vì một số lý do, không có các thẻ này được chỉ định)

– Trang cơ sở (nói cách khác, KHÔNG được quy định lại cho một trang khác)

Dựa trên các bằng sáng chế của Google, việc sử dụng các tham số bổ sung trong các tệp sitemap của bạn, chẳng hạn như:

– Tần suất thay đổi.

– Ưu tiên.

– Ngày sửa đổi cuối cùng.

Cũng có thể hữu ích. Bạn có thể chỉ định cho Google xem sitemap của bạn bằng cách sử dụng Google Search Console. Cũng được coi là thực hành tốt khi đặt một liên kết đến sitemap của bạn trong tệp robots.txt, như sau: “Sitemap: http://www.iloveonely.com/sitemap_index.xml”

Kết luận

Tìm hiểu thêm về chúng tôi tại: TRANHUNG Digital

Sau một chặng đường dài, chúng ta đã đến cuối cùng. Tôi hy vọng rằng tại thời điểm này, bạn đã hiểu rõ quá trình thu thập. Tất cả thông tin bạn nhận được từ bài viết này có thể được sử dụng trong quá trình làm việc trên trang web của bạn. Nếu bạn tuân thủ các quy tắc tốt nhất, bạn sẽ đảm bảo thu thập hiệu quả, dù có bao nhiêu URL trên trang web của bạn. Và hãy nhớ, càng lớn trang web của bạn, càng quan trọng quỹ thời gian thu thập trở nên.