Hướng dẫn đầy đủ về Google Panda Update: 2011-2021

Tại sao Google tạo ra Panda

Năm 2010, chất lượng kết quả tìm kiếm của Google đang giảm và mô hình kinh doanh “content farm” đang trỗi dậy.

Như Google Amit Singhal đã nói với Wired tại TED, bản cập nhật “Caffeine” vào cuối năm 2009 đã làm tăng tốc độ của Google trong việc lập chỉ mục nội dung một cách nhanh chóng, nhưng cũng đưa “một số nội dung không tốt” vào chỉ mục của họ.

Google Matt Cutts cho biết vấn đề nội dung mới này không phải là vấn đề spam, mà là vấn đề “Tối thiểu tôi có thể làm gì không làm spam?”

ReadWriteWeb đã chỉ ra:

“Vào cuối năm 2009, hai trong số những “content farm” này – Demand Media [của eHow] và Answers.com – đã được xác định mạnh mẽ trong top 20 trang web hàng đầu tại Mỹ theo đo lường của comScore. Demand Media là ví dụ điển hình về “content farm” và là ví dụ lớn nhất, sản xuất 7.000 bài viết mỗi ngày… Công ty hoạt động dựa trên một công thức đơn giản: tạo ra một lượng lớn nội dung chuyên môn, đa phần là nội dung không cảm hứng nhắm vào các công cụ tìm kiếm, sau đó lan truyền qua phần mềm xã hội và kiếm nhiều tiền từ quảng cáo.”

Tháng 1 năm 2011, Business Insider đã đăng một tiêu đề nói tất cả: Thuật toán tìm kiếm của Google đã bị hủy hoại, đến lúc quay trở lại kiểu chọn lọc.

Trong một bài viết khác, họ chỉ ra:

“Demand [Media] đang thực hiện màn ảo thuật lớn bằng cách vận hành một hệ sinh thái lớn với Google. Demand ký hợp đồng với hàng nghìn nhà văn tự do để sản xuất hàng trăm nghìn bài viết chất lượng thấp, các chủ đề được chọn dựa trên giá trị tìm kiếm, phần lớn là do Google thúc đẩy. Vì thuật toán của Google đánh giá cao nội dung nhiều và liên tục hơn nội dung chất lượng, thuật toán của Google đặt nội dung của Demand ở vị trí cao trên trang kết quả tìm kiếm của họ.”

Không thể phủ nhận, những tiêu đề như thế này đã ảnh hưởng đáng kể đến Google, và họ đã phản ứng bằng cách phát triển thuật toán Panda.

Google Panda được ra mắt

Panda được giới thiệu lần đầu vào ngày 23 tháng 2 năm 2011.

Vào ngày 24 tháng 2, Google đã đăng một bài viết trên blog về cập nhật này và cho biết họ “đã tung ra một cải tiến thuật toán khá lớn vào hệ thống xếp hạng của chúng tôi – một thay đổi ảnh hưởng đáng kể đến 11,8% số lượng truy vấn của chúng tôi.”

Mục đích của cập nhật này được diễn đạt như sau:

“Cập nhật này được thiết kế để giảm xếp hạng cho các trang web chất lượng thấp – các trang web không mang lại giá trị cho người dùng, sao chép nội dung từ các trang web khác hoặc các trang web không hữu ích. Đồng thời, nó sẽ mang lại xếp hạng tốt hơn cho các trang web chất lượng cao – các trang web với nội dung ban đầu và thông tin như nghiên cứu, báo cáo sâu, phân tích tỉ mỉ và như vậy.”

Những trang web bị ảnh hưởng nặng nhất bởi cập nhật này là các trang web quen thuộc đối với người làm SEO tại thời điểm đó, ví dụ như wisegeek.com, ezinearticles.com, suite101.com, hubpages.com, buzzle.com, articlebase.com, và nhiều trang web khác.

Đáng chú ý, các “content farm” eHow và wikiHow đã khá hơn sau cập nhật này. Cập nhật sau này cũng gây tổn thương cho các “content farm” chấp nhận được hơn như Demand Media, khi họ mất 6,4 triệu đô la vào quý 4 năm 2012.

Thay đổi rõ ràng nhất trong ngành SEO sau cập nhật này là cách nó ảnh hưởng đến “article marketing”, trong đó các chuyên gia SEO trước đây sử dụng việc xuất bản các bài viết chất lượng thấp trên các trang web như ezinearticles.com như một hình thức xây dựng liên kết.

Cũng rõ ràng rằng các trang web bị ảnh hưởng nặng nề nhất có thiết kế không hấp dẫn, quảng cáo quấy rối, số lượng từ vựng phong phú, tiêu chuẩn biên tập thấp, cách diễn đạt lặp đi lặp lại, nghiên cứu thiếu sót và chung quy không gây ấn tượng làm hữu ích hoặc đáng tin cậy.

Những điều chúng ta biết về thuật toán Panda

Khi Google thảo luận về việc phát triển thuật toán với Wired, Singhal cho biết họ bắt đầu bằng cách gửi tài liệu thử nghiệm cho các chuyên gia đánh giá chất lượng con người, họ được hỏi những câu hỏi như “Bạn có tin tưởng thông tin được trình bày trong bài viết này không?” và “Bạn có thoải mái để con bạn uống thuốc được chỉ định bởi trang web này không?”

Tham khảo  Hướng dẫn tối ưu ngân sách crawl cuối cùng

Cutts nói rằng các kỹ sư đã phát triển “một bộ câu hỏi nghiêm ngặt, từ việc đánh giá trang web này có đáng tin cậy không? Đến việc có thể chấp nhận được nếu nó xuất hiện trên một tạp chí không? Trang web này có quá nhiều quảng cáo không?”

Theo cuộc phỏng vấn, họ đã phát triển thuật toán bằng cách so sánh các tín hiệu xếp hạng khác nhau với các xếp hạng chất lượng con người.

Singhal mô tả nó như việc tìm kiếm một mặt phẳng trong không gian siêu phẳng để phân tách các trang web tốt và xấu.

Sau đó, Singhal đã công bố 23 câu hỏi sau đây là câu hỏi chỉ đạo mà thuật toán được dựa trên:

  • Bạn có tin tưởng thông tin được trình bày trong bài viết này không?
  • Liệu bài viết này được viết bởi một chuyên gia hoặc người đam mê biết rõ về chủ đề, hay nó chỉ cạn kiệt trong nội dung?
  • Trang web có các bài viết trùng lặp, trùng lắp hoặc lặp đi lặp lại về cùng một chủ đề hoặc chủ đề tương tự với các biến thể từ khóa khác nhau không?
  • Bạn có thoải mái để cung cấp thông tin thẻ tín dụng của bạn cho trang web này không?
  • Liệu bài viết này có lỗi chính tả, kiểu viết hoặc lỗi về sự thật không?
  • Các chủ đề có được thúc đẩy bởi sự quan tâm thật sự của người đọc trang web, hay trang web tạo nội dung bằng cách cố gắng đoán xem cái gì có thể xếp hạng tốt trên các công cụ tìm kiếm không?
  • Bài viết có cung cấp nội dung hoặc thông tin ban đầu, thông tin báo cáo ban đầu, nghiên cứu ban đầu hoặc phân tích ban đầu không?
  • Trang web này cung cấp giá trị đáng kể so với các trang web khác trong kết quả tìm kiếm không?
  • Việc kiểm soát chất lượng nội dung được thực hiện như thế nào?
  • Bài viết có miêu tả cả hai mặt của một câu chuyện không?
  • Trang web có được công nhận là một nguồn uy tín về chủ đề của nó không?
  • Nội dung có được sản xuất hàng loạt bởi hoặc được giao cho một số lượng lớn người tạo nội dung, hoặc lan truyền trên một mạng lưới lớn các trang web, để các trang web hoặc trang web cá nhân không nhận được nhiều sự chú ý hoặc quan tâm không?
  • Bài viết đã được chỉnh sửa tốt, hay nó xuất hiện lộn xộn hoặc được sản xuất vội vàng không?
  • Đối với các câu hỏi liên quan đến sức khỏe, bạn có tin tưởng thông tin từ trang web này không?
  • Bạn có nhận ra trang web này là một nguồn uy tín khi được nhắc đến bằng tên không?
  • Bài viết này cung cấp một mô tả đầy đủ hoặc toàn diện về chủ đề không?
  • Bài viết có chứa phân tích thông minh hoặc thông tin thú vị vượt quá những điều hiển nhiên không?
  • Đây có phải là loại trang bạn muốn đánh dấu trang, chia sẻ với bạn bè hoặc đề xuất không?
  • Bài viết này có quá nhiều quảng cáo gây xao lạc hoặc làm gây trở ngại cho nội dung chính không?
  • Bạn mong đợi thấy bài viết này trong một tạp chí in, bách khoa toàn thư hoặc sách không?
  • Các bài viết ngắn, không có nội dung cụ thể hoặc thiếu thông tin hữu ích không?
  • Các trang web được sản xuất với sự chăm sóc và tinh tế hay không?
  • Người dùng có phàn nàn khi xem các trang từ trang web này không?
  • Cũng nên xem xét những gì các đánh giá chất lượng con người của Google đã được yêu cầu xem xét. Trích dẫn về nội dung chất lượng thấp này rất quan trọng:

    Cân nhắc ví dụ này: Hầu hết học sinh phải viết bài cho trường trung học hoặc đại học. Nhiều học sinh lựa chọn cách tắt đèn để tiết kiệm thời gian và công sức bằng cách thực hiện một hoặc nhiều trong các biện pháp sau:

    Vào tháng 3 năm 2011, SEO By The Sea đã xác định Biswanath Panda là kỹ sư có thể đứng sau tên gọi của thuật toán.

    Trong một bài báo, Biswanath đã giúp tác giả trình bày cách các thuật toán học máy có thể được sử dụng để đưa ra các phân loại chính xác về hành vi người dùng trên các trang đích.

    Mặc dù bài báo không liên quan đến thuật toán Panda, tác giả, với sự tham gia của người đặt tên và chủ đề, cho thấy rằng Panda cũng là một thuật toán học máy.

    Hầu hết trong ngành SEO đã kết luận rằng Panda hoạt động bằng cách sử dụng học máy để đưa ra dự đoán chính xác về cách con người sẽ đánh giá chất lượng của nội dung. Không rõ hơn là tín hiệu nào đã được tích hợp vào thuật toán học máy để xác định trang web nào chất lượng thấp và trang web nào không.

    Tham khảo  Tìm hiểu về Copywriting và Tại sao nó quan trọng trong Marketing?

    Panda và Google E-A-T:

    Năm 2014, Google giới thiệu nguyên tắc E-A-T trong hướng dẫn chất lượng tìm kiếm của họ, tập trung vào Chuyên môn, Tính có uy tín và Đáng tin cậy.

    Từ năm 2018, những nguyên tắc này đã trở thành một trọng tâm quan trọng đối với các nhà tiếp thị.

    Panda và Google E-A-T:

    Giống như Panda, các cập nhật tiếp theo và thay đổi thuật toán cốt lõi tập trung vào chất lượng nội dung và trải nghiệm người dùng.

    Và giống như Panda, tránh:

  • Nội dung mỏng và không có thông tin.
  • Thiếu nguồn tin có uy tín.
  • Nội dung không đáng tin cậy và liên kết đáng ngờ.
  • Phục hồi từ Panda

    Con đường để phục hồi từ Panda có thể đơn giản hoặc thách thức.

    Vì Panda tăng hiệu suất của các trang web có nội dung được xếp loại cao, giải pháp là nâng cao chất lượng và tính độc đáo của nội dung của bạn.

    Mặc dù điều này dễ nói hơn làm, đã được chứng minh nhiều lần rằng đây chính xác là những gì cần thiết để phục hồi.

    Alan Bleiweiss đã giúp một trang web phục hồi bằng cách giúp họ viết lại nội dung trên 100 trang.

    WiredSEO đã giúp một trang web phục hồi từ Panda bằng cách thay đổi hướng dẫn về nội dung do người dùng tạo ra để khuyến khích viết tiểu sử cụ thể, duy nhất thay vì sao chép từ các trang web khác. Người dùng trước đây đã sử dụng tiểu sử từ các trang web khác của họ, nhưng WiredSEO khuyến khích họ thay đổi tiểu sử bằng cách đặt câu hỏi cụ thể, kết quả là có tiểu sử duy nhất không trùng lặp.

    Thần thoại về Panda

    Panda không phải về Nội dung trùng lặp

    Thần thoại phổ biến nhất về Panda là nó liên quan đến nội dung trùng lặp. John Mueller của Google đã làm rõ rằng nội dung trùng lặp không phụ thuộc vào Panda. Các nhân viên của Google đã nhấn mạnh rằng Panda khuyến khích nội dung duy nhất, nhưng điều này sâu hơn việc tránh sao chép. Panda đang tìm kiếm thông tin thực sự duy nhất mang lại giá trị xuất sắc cho người dùng.

    Mueller cũng nói với một nhà viết blog rằng việc loại bỏ bản sao kỹ thuật thực tế là một ưu tiên rất thấp và thay vào đó, họ nên “xem xét những gì làm cho trang web của bạn khác biệt so với trang web hàng đầu tuyệt đối của lĩnh vực của bạn.”

    Năm 2021, John Mueller của Google giải thích rằng nội dung trùng lặp không phải là một yếu tố xếp hạng tiêu cực.

    Liệu bạn có nên xóa nội dung để giải quyết vấn đề Panda?

    Năm 2017, Gary Illyes của Google nói trên Twitter: “Chúng tôi không khuyến nghị loại bỏ nội dung nói chung để giải quyết vấn đề Panda, thay vào đó hãy thêm nhiều nội dung chất lượng cao hơn.”

    John Mueller cũng nói như vậy trên YouTube:

    “Nhìn chung, chất lượng của trang web nên được cải thiện đáng kể để chúng tôi có thể tin tưởng nội dung. Đôi khi những gì chúng tôi thấy với một trang web như vậy có rất nhiều nội dung mỏng, có thể có nội dung bạn tổng hợp từ các nguồn khác, có thể có nội dung do người dùng tạo ra nơi mọi người gửi bài viết chất lượng thấp, và đó là những điều bạn có thể muốn xem xét và nghĩ rằng bạn có thể làm gì; một mặt, nếu bạn muốn giữ những bài viết này, có thể ngăn chúng xuất hiện trong kết quả tìm kiếm. Có thể sử dụng thẻ noindex cho những thứ này.”

    Phản ứng của Google luôn là không chỉ noindex hoặc cải thiện nội dung – không bao giờ cắt nó hoàn toàn trừ khi việc đó là một động thái liên quan đến nhãn hiệu.

    Nói chung, việc xóa nội dung nên được xem xét từ quan điểm về danh tiếng tổng thể của trang web của bạn, chứ không phải là một hành động loại bỏ một trừng phạt Panda.

    Panda và Nội dung do người dùng tạo ra

    Panda không chỉ nhắm mục tiêu vào nội dung do người dùng tạo ra. Mặc dù Panda có thể nhắm vào nội dung do người dùng tạo ra, nó thường ảnh hưởng đến các trang web sản xuất nội dung chất lượng thấp – như các bài đăng khách hàng spam hoặc diễn đàn đầy rác.

    Panda và Nội dung do người dùng tạo ra

    Đừng xóa nội dung do người dùng tạo ra, cho dù đó là diễn đàn, bình luận trên blog hoặc đóng góp bài viết, chỉ vì bạn nghe nó là “xấu” hoặc được tiếp thị như một giải pháp “bảo vệ” Panda. Hãy xem xét nó từ một góc độ chất lượng thay vì chỉ xem nó từ góc độ đó.

    Tham khảo  Google Tag Manager: Hướng dẫn và cách hoạt động

    Nhiều trang web xếp hạng cao phụ thuộc vào nội dung do người dùng tạo ra – vì vậy nhiều trang web sẽ mất lượng truy cập và xếp hạng đáng kể chỉ vì đã xóa loại nội dung đó. Thậm chí những bình luận trên một bài viết blog cũng có thể khiến nó xếp hạng và thậm chí có được một đoạn trích nổi bật.

    Số từ không phải là yếu tố

    Số từ là một khía cạnh khác của Panda mà các chuyên gia SEO thường hiểu lầm. Nhiều trang web mắc sai lầm từ chối xuất bản bất kỳ nội dung nào trừ khi nó có số từ trên một mức nhất định, thường được trích dẫn là 250 từ và 350 từ. Thay vào đó, Google khuyến nghị bạn nghĩ về số từ cần thiết để nội dung thành công cho người dùng.

    Ví dụ, có nhiều trang có rất ít nội dung chính, nhưng Google cho rằng trang đó chất lượng đến mức đã đạt được đoạn trích nổi bật cho truy vấn. Trong một trường hợp, nội dung chính chỉ có 63 từ, và nhiều người sẽ gặp khó khăn khi viết về chủ đề một cách không spam và có độ dài từ 350 từ trở lên. Vì vậy, bạn chỉ cần đủ từ để trả lời truy vấn.

    Liên kết liên kết và quảng cáo không nhắm trực tiếp

    Các trang web liên kết liên kết và “made for AdSense” thường bị ảnh hưởng bởi Panda nhiều hơn các trang web khác, nhưng điều này không phải là vì nó nhắm mục tiêu riêng vào chúng. Một người phát ngôn của Google nói với TheSEMPost rằng

    “Một ví dụ cực kỳ là khi chức năng chính của một trang web là hướng người dùng đến các trang web khác thông qua quảng cáo hoặc liên kết liên kết, nội dung có sẵn trên Internet, hoặc nó được sản xuất vội vàng và được xây dựng một cách rõ ràng để thu hút người dùng từ các công cụ tìm kiếm.”

    Mueller nói tương tự:

    “Nhưng đồng thời, chúng tôi cũng thấy rất nhiều liên kết liên kết là những người lười biếng vừa copy và paste các dữ liệu mà họ nhận được và đăng trên các trang web của họ. Và nội dung chất lượng thấp, nội dung mỏng mà loại này thực sự khó để chúng tôi hiển thị trong kết quả tìm kiếm.”

    Nói cách khác, các trang web này bị ảnh hưởng vì cùng một lý do: họ không cung cấp nội dung hấp dẫn, duy nhất và hấp dẫn.

    Timeline

    Có thể khẳng định rằng Panda có lịch sử công khai về các ngày liên quan đến các cập nhật liên quan đến nó. Một phần lý do cho điều này là Panda đã được chạy bên ngoài thuật toán cốt lõi của Google và điểm số nội dung chỉ bị ảnh hưởng vào hoặc gần ngày của các cập nhật mới của Panda.

    Điều này tiếp tục cho đến ngày 11 tháng 6 năm 2013, khi Cutts nói tại SMX Advanced rằng, mặc dù Panda không được tích hợp trực tiếp vào thuật toán cốt lõi của Google, dữ liệu của nó được cập nhật hàng tháng và triển khai chậm rãi trong suốt tháng, kết thúc những ảnh hưởng toàn ngành đột ngột liên quan đến các cập nhật Panda.

    Do đó, các đề cập đến Panda biến mất sau năm 2017.

    Cách đánh số hơi khó hiểu.

    Người ta sẽ mong đợi các cập nhật cốt lõi của thuật toán Panda tương ứng với 1.0, 2.0, 3.0 và 4.0, nhưng không có cập nhật nào được gọi là 3.0 và 3.1 không phải, nhìn lại, là một cập nhật cốt lõi cho Panda.

    Các cập nhật dữ liệu, cập nhật kết quả tìm kiếm nhưng không phải thuật toán Panda chính nó, thường được đánh số như bạn mong đợi đối với các cập nhật phần mềm (3.2, 3.4, 3.5, và cứ thế). Tuy nhiên, có quá nhiều cập nhật dữ liệu cho phiên bản 3 của thuật toán đến mức, một thời gian ngắn, việc đặt tên này đã bị bỏ qua và ngành công nghiệp chỉ đơn giản gọi chúng bằng tổng số cập nhật Panda (bao gồm cả cập nhật dữ liệu và cập nhật cốt lõi).

    Ngay cả sau khi hiểu quy ước đặt tên này, vẫn không hoàn toàn rõ ràng liệu tất cả các cập nhật nhỏ của Panda chỉ là cập nhật dữ liệu hay có một số trong số chúng đã tích hợp vào các tín hiệu mới.

    Panda ngày nay: 2021

     Panda hiện tại: 2021

    Panda hiện đã được tích hợp chặt chẽ vào các thuật toán học máy của Google và do đó, các cập nhật liên quan đến Panda sẽ không được xem như đứng riêng lẻ.

    Với Panda trở thành một phần của thuật toán cốt lõi của Google, chúng ta không còn thấy các cập nhật Panda riêng biệt nữa. Các cập nhật thuật toán cốt lõi – đặc biệt là những cập nhật tập trung vào chất lượng và nội dung – liên quan đến ‘Panda’ trong lý thuyết.

    Tiến tới

    Năm 2021, bạn nên luôn ghi nhớ những khái niệm cốt lõi của Panda.

    Tránh các chiêu trò black hat và liên kết spam và tập trung vào nội dung chất lượng cho người dùng và trải nghiệm của họ. Sử dụng học máy và công nghệ của Google tiếp tục tuân thủ những nguyên tắc này.

    Tên Panda có thể không xuất hiện, nhưng các nguyên tắc Panda vẫn có ý nghĩa trong thời đại hiện tại.

    Đánh giá bài viết
    Contact Me on Zalo