Tại sao Google tạo ra Panda
Năm 2010, chất lượng kết quả tìm kiếm của Google đang giảm và mô hình kinh doanh “content farm” đang trỗi dậy.
Như Google Amit Singhal đã nói với Wired tại TED, bản cập nhật “Caffeine” vào cuối năm 2009 đã làm tăng tốc độ của Google trong việc lập chỉ mục nội dung một cách nhanh chóng, nhưng cũng đưa “một số nội dung không tốt” vào chỉ mục của họ.
Google Matt Cutts cho biết vấn đề nội dung mới này không phải là vấn đề spam, mà là vấn đề “Tối thiểu tôi có thể làm gì không làm spam?”
ReadWriteWeb đã chỉ ra:
“Vào cuối năm 2009, hai trong số những “content farm” này – Demand Media [của eHow] và Answers.com – đã được xác định mạnh mẽ trong top 20 trang web hàng đầu tại Mỹ theo đo lường của comScore. Demand Media là ví dụ điển hình về “content farm” và là ví dụ lớn nhất, sản xuất 7.000 bài viết mỗi ngày… Công ty hoạt động dựa trên một công thức đơn giản: tạo ra một lượng lớn nội dung chuyên môn, đa phần là nội dung không cảm hứng nhắm vào các công cụ tìm kiếm, sau đó lan truyền qua phần mềm xã hội và kiếm nhiều tiền từ quảng cáo.”
Tháng 1 năm 2011, Business Insider đã đăng một tiêu đề nói tất cả: Thuật toán tìm kiếm của Google đã bị hủy hoại, đến lúc quay trở lại kiểu chọn lọc.
Trong một bài viết khác, họ chỉ ra:
“Demand [Media] đang thực hiện màn ảo thuật lớn bằng cách vận hành một hệ sinh thái lớn với Google. Demand ký hợp đồng với hàng nghìn nhà văn tự do để sản xuất hàng trăm nghìn bài viết chất lượng thấp, các chủ đề được chọn dựa trên giá trị tìm kiếm, phần lớn là do Google thúc đẩy. Vì thuật toán của Google đánh giá cao nội dung nhiều và liên tục hơn nội dung chất lượng, thuật toán của Google đặt nội dung của Demand ở vị trí cao trên trang kết quả tìm kiếm của họ.”
Không thể phủ nhận, những tiêu đề như thế này đã ảnh hưởng đáng kể đến Google, và họ đã phản ứng bằng cách phát triển thuật toán Panda.
Google Panda được ra mắt
Panda được giới thiệu lần đầu vào ngày 23 tháng 2 năm 2011.
Vào ngày 24 tháng 2, Google đã đăng một bài viết trên blog về cập nhật này và cho biết họ “đã tung ra một cải tiến thuật toán khá lớn vào hệ thống xếp hạng của chúng tôi – một thay đổi ảnh hưởng đáng kể đến 11,8% số lượng truy vấn của chúng tôi.”
Mục đích của cập nhật này được diễn đạt như sau:
“Cập nhật này được thiết kế để giảm xếp hạng cho các trang web chất lượng thấp – các trang web không mang lại giá trị cho người dùng, sao chép nội dung từ các trang web khác hoặc các trang web không hữu ích. Đồng thời, nó sẽ mang lại xếp hạng tốt hơn cho các trang web chất lượng cao – các trang web với nội dung ban đầu và thông tin như nghiên cứu, báo cáo sâu, phân tích tỉ mỉ và như vậy.”
Những trang web bị ảnh hưởng nặng nhất bởi cập nhật này là các trang web quen thuộc đối với người làm SEO tại thời điểm đó, ví dụ như wisegeek.com, ezinearticles.com, suite101.com, hubpages.com, buzzle.com, articlebase.com, và nhiều trang web khác.
Đáng chú ý, các “content farm” eHow và wikiHow đã khá hơn sau cập nhật này. Cập nhật sau này cũng gây tổn thương cho các “content farm” chấp nhận được hơn như Demand Media, khi họ mất 6,4 triệu đô la vào quý 4 năm 2012.
Thay đổi rõ ràng nhất trong ngành SEO sau cập nhật này là cách nó ảnh hưởng đến “article marketing”, trong đó các chuyên gia SEO trước đây sử dụng việc xuất bản các bài viết chất lượng thấp trên các trang web như ezinearticles.com như một hình thức xây dựng liên kết.
Cũng rõ ràng rằng các trang web bị ảnh hưởng nặng nề nhất có thiết kế không hấp dẫn, quảng cáo quấy rối, số lượng từ vựng phong phú, tiêu chuẩn biên tập thấp, cách diễn đạt lặp đi lặp lại, nghiên cứu thiếu sót và chung quy không gây ấn tượng làm hữu ích hoặc đáng tin cậy.
Những điều chúng ta biết về thuật toán Panda
Khi Google thảo luận về việc phát triển thuật toán với Wired, Singhal cho biết họ bắt đầu bằng cách gửi tài liệu thử nghiệm cho các chuyên gia đánh giá chất lượng con người, họ được hỏi những câu hỏi như “Bạn có tin tưởng thông tin được trình bày trong bài viết này không?” và “Bạn có thoải mái để con bạn uống thuốc được chỉ định bởi trang web này không?”
Cutts nói rằng các kỹ sư đã phát triển “một bộ câu hỏi nghiêm ngặt, từ việc đánh giá trang web này có đáng tin cậy không? Đến việc có thể chấp nhận được nếu nó xuất hiện trên một tạp chí không? Trang web này có quá nhiều quảng cáo không?”
Theo cuộc phỏng vấn, họ đã phát triển thuật toán bằng cách so sánh các tín hiệu xếp hạng khác nhau với các xếp hạng chất lượng con người.
Singhal mô tả nó như việc tìm kiếm một mặt phẳng trong không gian siêu phẳng để phân tách các trang web tốt và xấu.
Sau đó, Singhal đã công bố 23 câu hỏi sau đây là câu hỏi chỉ đạo mà thuật toán được dựa trên:
Cũng nên xem xét những gì các đánh giá chất lượng con người của Google đã được yêu cầu xem xét. Trích dẫn về nội dung chất lượng thấp này rất quan trọng:
Cân nhắc ví dụ này: Hầu hết học sinh phải viết bài cho trường trung học hoặc đại học. Nhiều học sinh lựa chọn cách tắt đèn để tiết kiệm thời gian và công sức bằng cách thực hiện một hoặc nhiều trong các biện pháp sau:
Vào tháng 3 năm 2011, SEO By The Sea đã xác định Biswanath Panda là kỹ sư có thể đứng sau tên gọi của thuật toán.
Trong một bài báo, Biswanath đã giúp tác giả trình bày cách các thuật toán học máy có thể được sử dụng để đưa ra các phân loại chính xác về hành vi người dùng trên các trang đích.
Mặc dù bài báo không liên quan đến thuật toán Panda, tác giả, với sự tham gia của người đặt tên và chủ đề, cho thấy rằng Panda cũng là một thuật toán học máy.
Hầu hết trong ngành SEO đã kết luận rằng Panda hoạt động bằng cách sử dụng học máy để đưa ra dự đoán chính xác về cách con người sẽ đánh giá chất lượng của nội dung. Không rõ hơn là tín hiệu nào đã được tích hợp vào thuật toán học máy để xác định trang web nào chất lượng thấp và trang web nào không.
Panda và Google E-A-T:
Năm 2014, Google giới thiệu nguyên tắc E-A-T trong hướng dẫn chất lượng tìm kiếm của họ, tập trung vào Chuyên môn, Tính có uy tín và Đáng tin cậy.
Từ năm 2018, những nguyên tắc này đã trở thành một trọng tâm quan trọng đối với các nhà tiếp thị.
Giống như Panda, các cập nhật tiếp theo và thay đổi thuật toán cốt lõi tập trung vào chất lượng nội dung và trải nghiệm người dùng.
Và giống như Panda, tránh:
Phục hồi từ Panda
Con đường để phục hồi từ Panda có thể đơn giản hoặc thách thức.
Vì Panda tăng hiệu suất của các trang web có nội dung được xếp loại cao, giải pháp là nâng cao chất lượng và tính độc đáo của nội dung của bạn.
Mặc dù điều này dễ nói hơn làm, đã được chứng minh nhiều lần rằng đây chính xác là những gì cần thiết để phục hồi.
Alan Bleiweiss đã giúp một trang web phục hồi bằng cách giúp họ viết lại nội dung trên 100 trang.
WiredSEO đã giúp một trang web phục hồi từ Panda bằng cách thay đổi hướng dẫn về nội dung do người dùng tạo ra để khuyến khích viết tiểu sử cụ thể, duy nhất thay vì sao chép từ các trang web khác. Người dùng trước đây đã sử dụng tiểu sử từ các trang web khác của họ, nhưng WiredSEO khuyến khích họ thay đổi tiểu sử bằng cách đặt câu hỏi cụ thể, kết quả là có tiểu sử duy nhất không trùng lặp.
Thần thoại về Panda
Panda không phải về Nội dung trùng lặp
Thần thoại phổ biến nhất về Panda là nó liên quan đến nội dung trùng lặp. John Mueller của Google đã làm rõ rằng nội dung trùng lặp không phụ thuộc vào Panda. Các nhân viên của Google đã nhấn mạnh rằng Panda khuyến khích nội dung duy nhất, nhưng điều này sâu hơn việc tránh sao chép. Panda đang tìm kiếm thông tin thực sự duy nhất mang lại giá trị xuất sắc cho người dùng.
Mueller cũng nói với một nhà viết blog rằng việc loại bỏ bản sao kỹ thuật thực tế là một ưu tiên rất thấp và thay vào đó, họ nên “xem xét những gì làm cho trang web của bạn khác biệt so với trang web hàng đầu tuyệt đối của lĩnh vực của bạn.”
Năm 2021, John Mueller của Google giải thích rằng nội dung trùng lặp không phải là một yếu tố xếp hạng tiêu cực.
Liệu bạn có nên xóa nội dung để giải quyết vấn đề Panda?
Năm 2017, Gary Illyes của Google nói trên Twitter: “Chúng tôi không khuyến nghị loại bỏ nội dung nói chung để giải quyết vấn đề Panda, thay vào đó hãy thêm nhiều nội dung chất lượng cao hơn.”
John Mueller cũng nói như vậy trên YouTube:
“Nhìn chung, chất lượng của trang web nên được cải thiện đáng kể để chúng tôi có thể tin tưởng nội dung. Đôi khi những gì chúng tôi thấy với một trang web như vậy có rất nhiều nội dung mỏng, có thể có nội dung bạn tổng hợp từ các nguồn khác, có thể có nội dung do người dùng tạo ra nơi mọi người gửi bài viết chất lượng thấp, và đó là những điều bạn có thể muốn xem xét và nghĩ rằng bạn có thể làm gì; một mặt, nếu bạn muốn giữ những bài viết này, có thể ngăn chúng xuất hiện trong kết quả tìm kiếm. Có thể sử dụng thẻ noindex cho những thứ này.”
Phản ứng của Google luôn là không chỉ noindex hoặc cải thiện nội dung – không bao giờ cắt nó hoàn toàn trừ khi việc đó là một động thái liên quan đến nhãn hiệu.
Nói chung, việc xóa nội dung nên được xem xét từ quan điểm về danh tiếng tổng thể của trang web của bạn, chứ không phải là một hành động loại bỏ một trừng phạt Panda.
Panda và Nội dung do người dùng tạo ra
Panda không chỉ nhắm mục tiêu vào nội dung do người dùng tạo ra. Mặc dù Panda có thể nhắm vào nội dung do người dùng tạo ra, nó thường ảnh hưởng đến các trang web sản xuất nội dung chất lượng thấp – như các bài đăng khách hàng spam hoặc diễn đàn đầy rác.
Đừng xóa nội dung do người dùng tạo ra, cho dù đó là diễn đàn, bình luận trên blog hoặc đóng góp bài viết, chỉ vì bạn nghe nó là “xấu” hoặc được tiếp thị như một giải pháp “bảo vệ” Panda. Hãy xem xét nó từ một góc độ chất lượng thay vì chỉ xem nó từ góc độ đó.
Nhiều trang web xếp hạng cao phụ thuộc vào nội dung do người dùng tạo ra – vì vậy nhiều trang web sẽ mất lượng truy cập và xếp hạng đáng kể chỉ vì đã xóa loại nội dung đó. Thậm chí những bình luận trên một bài viết blog cũng có thể khiến nó xếp hạng và thậm chí có được một đoạn trích nổi bật.
Số từ không phải là yếu tố
Số từ là một khía cạnh khác của Panda mà các chuyên gia SEO thường hiểu lầm. Nhiều trang web mắc sai lầm từ chối xuất bản bất kỳ nội dung nào trừ khi nó có số từ trên một mức nhất định, thường được trích dẫn là 250 từ và 350 từ. Thay vào đó, Google khuyến nghị bạn nghĩ về số từ cần thiết để nội dung thành công cho người dùng.
Ví dụ, có nhiều trang có rất ít nội dung chính, nhưng Google cho rằng trang đó chất lượng đến mức đã đạt được đoạn trích nổi bật cho truy vấn. Trong một trường hợp, nội dung chính chỉ có 63 từ, và nhiều người sẽ gặp khó khăn khi viết về chủ đề một cách không spam và có độ dài từ 350 từ trở lên. Vì vậy, bạn chỉ cần đủ từ để trả lời truy vấn.
Liên kết liên kết và quảng cáo không nhắm trực tiếp
Các trang web liên kết liên kết và “made for AdSense” thường bị ảnh hưởng bởi Panda nhiều hơn các trang web khác, nhưng điều này không phải là vì nó nhắm mục tiêu riêng vào chúng. Một người phát ngôn của Google nói với TheSEMPost rằng
“Một ví dụ cực kỳ là khi chức năng chính của một trang web là hướng người dùng đến các trang web khác thông qua quảng cáo hoặc liên kết liên kết, nội dung có sẵn trên Internet, hoặc nó được sản xuất vội vàng và được xây dựng một cách rõ ràng để thu hút người dùng từ các công cụ tìm kiếm.”
Mueller nói tương tự:
“Nhưng đồng thời, chúng tôi cũng thấy rất nhiều liên kết liên kết là những người lười biếng vừa copy và paste các dữ liệu mà họ nhận được và đăng trên các trang web của họ. Và nội dung chất lượng thấp, nội dung mỏng mà loại này thực sự khó để chúng tôi hiển thị trong kết quả tìm kiếm.”
Nói cách khác, các trang web này bị ảnh hưởng vì cùng một lý do: họ không cung cấp nội dung hấp dẫn, duy nhất và hấp dẫn.
Timeline
Có thể khẳng định rằng Panda có lịch sử công khai về các ngày liên quan đến các cập nhật liên quan đến nó. Một phần lý do cho điều này là Panda đã được chạy bên ngoài thuật toán cốt lõi của Google và điểm số nội dung chỉ bị ảnh hưởng vào hoặc gần ngày của các cập nhật mới của Panda.
Điều này tiếp tục cho đến ngày 11 tháng 6 năm 2013, khi Cutts nói tại SMX Advanced rằng, mặc dù Panda không được tích hợp trực tiếp vào thuật toán cốt lõi của Google, dữ liệu của nó được cập nhật hàng tháng và triển khai chậm rãi trong suốt tháng, kết thúc những ảnh hưởng toàn ngành đột ngột liên quan đến các cập nhật Panda.
Do đó, các đề cập đến Panda biến mất sau năm 2017.
Cách đánh số hơi khó hiểu.
Người ta sẽ mong đợi các cập nhật cốt lõi của thuật toán Panda tương ứng với 1.0, 2.0, 3.0 và 4.0, nhưng không có cập nhật nào được gọi là 3.0 và 3.1 không phải, nhìn lại, là một cập nhật cốt lõi cho Panda.
Các cập nhật dữ liệu, cập nhật kết quả tìm kiếm nhưng không phải thuật toán Panda chính nó, thường được đánh số như bạn mong đợi đối với các cập nhật phần mềm (3.2, 3.4, 3.5, và cứ thế). Tuy nhiên, có quá nhiều cập nhật dữ liệu cho phiên bản 3 của thuật toán đến mức, một thời gian ngắn, việc đặt tên này đã bị bỏ qua và ngành công nghiệp chỉ đơn giản gọi chúng bằng tổng số cập nhật Panda (bao gồm cả cập nhật dữ liệu và cập nhật cốt lõi).
Ngay cả sau khi hiểu quy ước đặt tên này, vẫn không hoàn toàn rõ ràng liệu tất cả các cập nhật nhỏ của Panda chỉ là cập nhật dữ liệu hay có một số trong số chúng đã tích hợp vào các tín hiệu mới.
Panda ngày nay: 2021
Panda hiện đã được tích hợp chặt chẽ vào các thuật toán học máy của Google và do đó, các cập nhật liên quan đến Panda sẽ không được xem như đứng riêng lẻ.
Với Panda trở thành một phần của thuật toán cốt lõi của Google, chúng ta không còn thấy các cập nhật Panda riêng biệt nữa. Các cập nhật thuật toán cốt lõi – đặc biệt là những cập nhật tập trung vào chất lượng và nội dung – liên quan đến ‘Panda’ trong lý thuyết.
Tiến tới
Năm 2021, bạn nên luôn ghi nhớ những khái niệm cốt lõi của Panda.
Tránh các chiêu trò black hat và liên kết spam và tập trung vào nội dung chất lượng cho người dùng và trải nghiệm của họ. Sử dụng học máy và công nghệ của Google tiếp tục tuân thủ những nguyên tắc này.
Tên Panda có thể không xuất hiện, nhưng các nguyên tắc Panda vẫn có ý nghĩa trong thời đại hiện tại.
Nguồn tham khảo: https://www.searchenginejournal.com/google-algorithm-history/panda-update/