Canonicalization: Giải quyết nội dung trùng lặp chi tiết |

Nội dung trùng lặp và cách giải quyết

Nội dung trùng lặp là khi nội dung giống hoặc rất giống nhau có thể truy cập thông qua nhiều URL khác nhau. Những trang trùng lặp này thường được tạo ra một cách không cố ý theo nhiều cách khác nhau – ví dụ: có cả phiên bản HTTP và HTTPS của trang; phiên bản www và phiên bản không có www; các tham số UTM; chuỗi phân trang; và nhiều hơn nữa.

Trang trùng lặp có thể gây ra vấn đề vì các công cụ tìm kiếm thường gặp khó khăn trong việc xác định phiên bản nào của trang nên được lập chỉ mục và hiển thị cho người dùng trong kết quả tìm kiếm.

Làm thế nào chúng ta có thể đối phó với những thách thức này và cho biết cho công cụ tìm kiếm biết trang nào cần ưu tiên?

Một kỹ thuật mà chúng ta đã tin cậy trong nhiều năm qua để làm điều này là canonicalization.

Hình ảnh nội dung trùng lặp về chó

Những nguyên nhân gây ra nội dung trùng lặp

Nội dung trùng lặp là khi nội dung giống (hoặc rất giống) có thể truy cập thông qua nhiều URL có thể lập chỉ mục. Dưới đây là danh sách các vấn đề phổ biến gây ra các trang trùng lặp:

  1. Phiên bản thay thế của một trang web:
    • Trang web có thể truy cập thông qua HTTP và HTTPS, ví dụ: http://www.example.com/ và https://www.example.com/
    • Trang web có thể truy cập thông qua www và phiên bản không có www, ví dụ: https://www.example.com/ và https://example.com/
    • Trang web có thể truy cập thông qua dấu gạch chéo cuối và phiên bản không có dấu gạch chéo cuối, ví dụ: https://www.example.com/ và https://www.example.com
    • Phiên bản di động và phiên bản máy tính để bàn, ví dụ: m.example.com và example.com
  2. Cùng nội dung có thể truy cập thông qua nhiều URL:
    • Thường xảy ra khi lọc và sắp xếp trên các trang web thương mại điện tử. Ví dụ: khi https://www.example.com/dog-products/red-harness/ và https://www.example.com/category-dog/red-harness/ hiển thị cùng nội dung.
  3. URL UTM:
    • Là các URL có mã theo dõi hoặc ID phiên được thêm vào. Ví dụ: https://www.example.com/pages/?KW=ragnar&PK
  4. Phân trang:
    • Là các trang có nội dung giống hoặc rất giống nhau trong chuỗi phân trang. Ví dụ: https://www.example.com/ và https://www.example.com/?page=2
  5. Trang quốc tế:
    • Là các URL được tạo ra để nhắm mục tiêu các địa điểm khác nhau. Ví dụ: https://en-us.example.com/ và https://en-gb.example.com
  6. Nội dung được phân phối:
    • Việc xuất bản nội dung trên các trang web khác có thể dẫn đến sự trùng lặp nếu không quản lý đúng cách.

Canonicalization là gì?

Trên nhiều trang web, có thể tồn tại nhiều phiên bản trùng lặp của một trang web duy nhất và có thể lập chỉ mục. Trong ngữ cảnh SEO, canonicalization là quá trình cho biết phiên bản ưu tiên của trang – tức là phiên bản mà bạn muốn công cụ tìm kiếm hiển thị cho người dùng.

Nếu bạn thấy các phiên bản trang khác nhau xếp hạng tốt hơn phiên bản mong muốn của bạn, triển khai yếu tố liên kết canh chỉnh (canonical link element) sẽ giúp giải quyết tình huống này.

Yếu tố liên kết canh chỉnh, hoặc thẻ canh chỉnh, là một đoạn mã được đặt trong phần tiêu đề (head) của một trang html để chỉ cho googlebot biết phiên bản ưu tiên của trang của bạn.

Dưới đây là mã mẫu trên một trang web:

<link rel="canonical" href="https://example.com/dog-products/red-harness" />

Canonicalization giúp đỡ như thế nào?

Công cụ tìm kiếm có khả năng phát hiện và bỏ qua các trang trùng lặp, vậy tại sao chúng ta lại cần phải quan tâm đến điều này? Thực tế là, câu trả lời đơn giản ở đây là sự kiểm soát: đôi khi công cụ tìm kiếm làm đúng điều này, nhưng thường thì không!

Tham khảo  HTML structure và SEO: Tầm quan trọng hiện nay

Hãy tưởng tượng bạn làm việc trên một trang web thương mại điện tử bán các bộ đai hình chó có nhiều màu sắc khác nhau. Các trang riêng lẻ đã được tạo ra cho mỗi biến thể màu sắc, dẫn đến 10 URL khác nhau cho các bộ đai của chó. Vấn đề là, khi ai đó tìm kiếm “đai cho chó” hoặc các truy vấn liên quan, cả 10 URL đều cạnh tranh để xuất hiện trong kết quả tìm kiếm.

Tôi thích so sánh khái niệm canh chỉnh với một tình huống mà bạn mang một cái bánh lớn đến trường với một nhóm trẻ em háo hức đang chờ đợi nó. Ngay khi họ thấy bạn, tất cả đều chạy về phía cái bánh, cố gắng lấy một miếng. Trong hỗn loạn đó, một số phần bánh rơi rớt, một số trẻ em kết thúc với nhiều bánh hơn, và không may, một số trẻ em không có được bánh nào.

Bây giờ, hãy tưởng tượng bạn đã chỉ định một người để phân phát bánh. Người này nhận bánh thay mặt nhóm và đảm bảo từng đứa trẻ nhận được một phần bánh công bằng và bình đẳng. Bằng cách tổ chức và phân phát bánh một cách kiểm soát, sự hỗn loạn và sự bất công có thể được tránh.

Trong ngữ cảnh của trang web của bạn, canh chỉnh đóng vai trò tương tự. Khi bạn có các trang trùng lặp, nó có thể gây nhầm lẫn cho các công cụ tìm kiếm: một số trang có thể bị bỏ qua, một số trang có thể được ưu tiên hơn, và một số trang có thể không xuất hiện trong kết quả tìm kiếm.

Canh chỉnh can thiệp để đưa ra lời giải cho tình huống này. Nó đảm bảo rằng bất kỳ trang trùng lặp nào đều được xác định đúng cách và hướng dẫn các công cụ tìm kiếm nhận ra và hiển thị một trang ưu tiên duy nhất trong kết quả tìm kiếm. Bằng cách chỉ định trang ưu tiên thông qua thẻ canh chỉnh, bạn thiết lập sự rõ ràng và cung cấp hướng dẫn rõ ràng cho công cụ tìm kiếm về phiên bản nào của nội dung cần được ưu tiên.

Làm thế nào Google xác định phiên bản canh chỉnh của một trang

Khi Google gặp nhiều trang dường như giống nhau trong quá trình lập chỉ mục, nó chọn một trang làm phiên bản canh chỉnh. Nhưng Google xác định điều này như thế nào? Theo tài liệu của Google, dưới đây là một số yếu tố mà họ xem xét:

  • Di động hơn máy tính để bàn: Với phương pháp lập chỉ mục trên di động trước, Google sẽ ưu tiên phiên bản di động của một trang trong kết quả tìm kiếm hơn phiên bản máy tính để bàn, vì có nhiều người dùng truy cập web bằng thiết bị di động và Google nhằm cung cấp trải nghiệm người dùng tốt nhất trên di động.
  • HTTPS hơn HTTP: Google ưu tiên phục vụ các trang an toàn (HTTPS) hơn các trang không an toàn (HTTP), mặc dù có một số ngoại lệ mà bạn có thể đọc ở đây.
  • URL “sạch” hơn URL chứa tham số: Google ưa thích URL ngắn gọn, “sạch” hơn vì nó coi chúng dễ sử dụng hơn đối với người dùng. Ví dụ: https://www.womenintechseo.com/mentorship/ sẽ được ưu tiên hơn https://www.womenintechseo.com/blog/mentorship?2023=july/
  • Trang web hơn các tệp PDF và các định dạng tệp khác: Google thường chọn trang web là phiên bản canh chỉnh vì nó dễ truy cập hơn cho người dùng so với các tệp PDF hoặc các định dạng tệp khác.
  • Ngôn ngữ: Nếu bạn đã tạo ra các trang để nhắm mục tiêu nhiều ngôn ngữ và địa điểm, Google có thể xem ngôn ngữ truy vấn là phiên bản canh chỉnh. Điều này có nghĩa là nếu một người dùng thực hiện tìm kiếm bằng tiếng Pháp, Google sẽ chọn trang tiếng Pháp của bạn là phiên bản canh chỉnh.
  • Tín hiệu tổng thể của trang: Google đánh giá các tín hiệu tổng thể của trang, bao gồm trải nghiệm người dùng, chuyên môn, uy tín và đáng tin cậy (EEAT) và sự liên quan về ngôn ngữ. Các trang cho thấy tín hiệu mạnh trong những lĩnh vực này có khả năng cao sẽ được chọn là phiên bản canh chỉnh.
Tham khảo  Tìm hiểu về Google Knowledge Graph và cách nó hoạt động

Tối ưu hóa các trang ưu tiên của chúng ta để phù hợp với sở thích của Google sẽ tăng khả năng các trang canh chỉnh mà chúng ta mong muốn được chọn.

Các yếu tố kỹ thuật giúp gửi tín hiệu canh chỉnh mạnh hơn

Yếu tố canh chỉnh là cách đơn giản nhất để cho Google biết rằng có một phiên bản của trang này mà bạn muốn được lập chỉ mục. Bao gồm <link rel=”canonical” href=https://www.example.com/> trong phần tiêu đề HTML của một trang hoạt động như một tín hiệu, nhưng vì thẻ canh chỉnh chỉ là một gợi ý, không phải là một chỉ thị, đôi khi, như được minh họa trong ảnh chụp màn hình dưới đây, nó bị bỏ qua:

Ảnh chụp màn hình GSC, báo cáo canh chỉnh, tháng 6 năm 2023

Làm thế nào để giải quyết các vấn đề như vậy? Làm theo các bước dưới đây để gửi một tín hiệu mạnh hơn cho Google:

  • HTTPS:
  • Cấu trúc URL “sạch”:
  • Liên kết nội bộ:
  • Chú thích hreflang:
  • Bản đồ trang:
  • Liên kết ngoài:
  • Chuyển hướng 301:

Tất cả những yếu tố canh chỉnh này kết hợp lại để cho biết cho Google URL nào bạn ưu tiên và giúp chứng minh rằng các phần tử liên kết canh chỉnh trên các trang của bạn là có chủ ý và nên được tuân thủ.

Kiểm tra trang web của bạn để phát hiện lỗi và cơ hội canh chỉnh

Làm thế nào để biết trang web của bạn có vấn đề canh chỉnh? Làm theo các bước dưới đây:

  • Kiểm tra trạng thái canh chỉnh:
  • Khám phá dữ liệu:
  • Xuất và kiểm tra các trang:
  • Kiểm tra khả năng thu thập thông tin và lập chỉ mục:
  • Kiểm tra Google Search Console:
  • Kiểm tra các không nhất quán:

Ảnh chụp màn hình báo cáo canh chỉnh của Screaming Frog, tháng 6 năm 2022
Ảnh chụp màn hình dữ liệu canh chỉnh trên Google Sheet, tháng 6 năm 2022
Ảnh chụp màn hình dữ liệu canh chỉnh trên Google Sheet, tháng 6 năm 2022

Triển khai canh chỉnh:

Bạn có thể triển khai rel=”canonical” trên trang web của mình bằng một trong hai phương pháp sau:

Thẻ canh chỉnh trong HTML

Bao gồm một thẻ liên kết canh chỉnh trên phần tiêu đề của các trang HTML trùng lặp của bạn với URL trỏ tới phiên bản ưu tiên. Dưới đây là một ví dụ:

<html>

<head>

<title>Bộ đai đỏ cho chó</title>

<link rel="canonical" href="https://example.com/dog-products/red-harness" />

<!-- các phần tử khác -->

</head>

<!-- phần còn lại của HTML →

Sử dụng đường dẫn tuyệt đối khi triển khai thẻ canh chỉnh, thay vì sử dụng đường dẫn tương đối. Ví dụ: sử dụng https://www.dogstore/dog-harness/red-harness/ thay vì dogstore/dog-harness/red-harness/.

Liên kết canh chỉnh trong tiêu đề HTTP

Đối với các tài liệu như tệp PDF, tệp XLX, tài liệu Word, hình ảnh hoặc video, bạn cần triển khai thẻ canh chỉnh hoặc thẻ X-robot trong tiêu đề HTTP thay vì trên trang HTML của bạn. Phương pháp này yêu cầu truy cập vào tệp cấu hình máy chủ của bạn. Dưới đây là một ví dụ:

HTTP/1.1 200 OK

Content-Length: 19

...

Link: <https://www.example.com/downloads/dog-names.pdf>; rel="canonical"

Những lỗi canh chỉnh phổ biến cần tránh

Chuỗi canh chỉnh

Khi một thẻ canh chỉnh trỏ đến một URL có một thẻ canh chỉnh hoặc chuyển hướng khác, nó tạo ra một chuỗi canh chỉnh. Ví dụ, nếu trang “dog-harness” được đặt làm canh chỉnh cho trang “red-harness”, nhưng trang “dog-harness” đã được chuyển hướng hoặc có chính nó canh chỉnh trỏ đến trang “dog-products”, điều này tạo ra một tín hiệu mâu thuẫn và Google có thể bỏ qua gợi ý hoàn toàn. Vấn đề này có thể xảy ra do việc chèn canh chỉnh không đúng cách bằng JS hoặc lỗi trong các plugin CMS. Kiểm tra canh chỉnh định kỳ có thể giúp bạn phát hiện và sửa các vấn đề như vậy.

Đặt thẻ canh chỉnh trong phần thân nội dung

Thông tin về trang của bạn, bao gồm cả thẻ canh chỉnh, nên được thêm vào phần tiêu đề. Thẻ canh chỉnh trong phần thân nội dung sẽ bị bỏ qua bởi Google. Kiểm tra xem các thẻ canh chỉnh của bạn xuất hiện ở đâu sẽ giúp bạn xác định nếu có bất kỳ phần tử nào như iframes hoặc các thẻ không được đóng kín đã đẩy thẻ liên kết canh chỉnh vào phần thân của các trang của bạn.

Canh chỉnh các trang phân trang

Nhiều người chọn canh chỉnh các trang phân trang để tránh cạnh tranh, vì chúng thường có nội dung tương tự. Tuy nhiên, làm như vậy có thể làm giảm khả năng phát hiện và lập chỉ mục của các trang riêng lẻ được liên kết từ chuỗi phân trang. Nếu điều này là một vấn đề, nên triển khai các thẻ canh chỉnh trỏ về chính trang phân trang.

Gửi tín hiệu canh chỉnh mâu thuẫn

Nếu bạn đặt một thẻ canh chỉnh cho một trang cụ thể, nhưng sau đó bao gồm một biến thể khác của trang đó trong sitemap hoặc liên kết nội bộ đến biến thể này, nó gửi một tín hiệu mâu thuẫn và có thể khiến các công cụ tìm kiếm nghĩ: “Ồ, họ chắc chắn bị nhầm lẫn, tôi sẽ bỏ qua thẻ canh chỉnh và chọn phiên bản canh chỉnh mà mình chọn”. Giữ tính nhất quán sẽ làm nổi bật ý định của bạn đối với các công cụ tìm kiếm.

Canh chỉnh nội dung qua nhiều miền hoặc nội dung được phân phối

Các câu hỏi về canh chỉnh của bạn đã được trả lời:

Có thể sử dụng chuyển hướng 301 thay cho thẻ canh chỉnh không?

Mặc dù chuyển hướng và thẻ canh chỉnh đều là tín hiệu canh chỉnh, nhưng chúng phục vụ mục đích khác nhau và không nên sử dụng thay thế cho nhau. Khi bạn muốn hợp nhất hai trang thành một và làm cho chúng có thể truy cập thông qua một URL duy nhất vĩnh viễn, chuyển hướng 301 là lựa chọn thích hợp. Tuy nhiên, nếu bạn muốn kết hợp các trang tương tự nhưng vẫn giữ cho chúng có thể truy cập riêng lẻ trong khi chỉ định một phiên bản ưu tiên cho kết quả tìm kiếm, việc sử dụng thẻ canh chỉnh rel=”canonical” được khuyến nghị. Cuối cùng, nếu việc có nội dung tương tự trên nhiều URL không có ý nghĩa gì, nên sử dụng chuyển hướng 301. Phân tích và triển khai những gì tốt nhất cho người dùng trong từng trường hợp.

Các trang canh chỉnh có bị xóa khỏi chỉ mục không?

Nếu Google tuân thủ gợi ý canh chỉnh, nó sẽ hợp nhất các trang bao gồm cả yếu tố liên kết và lập chỉ mục trang canh chỉnh xác định. Tuy nhiên, điều này không có nghĩa là trang có thể canh chỉnh không thể lập chỉ mục. Cách duy nhất để đảm bảo một trang không xuất hiện trong kết quả tìm kiếm là triển khai thẻ không lập chỉ mục.

Lợi ích của việc sử dụng thẻ canh chỉnh với chú thích hreflang là gì?

Chú thích hreflang giúp tín hiệu cho các công cụ tìm kiếm biết bạn muốn hiển thị phiên bản nào cho người dùng ở các địa điểm khác nhau hoặc khi tìm kiếm bằng các ngôn ngữ khác nhau. Tưởng tượng rằng bạn có một trang “en-us” dành cho người nói tiếng Anh tìm kiếm các sản phẩm cho chó tại Hoa Kỳ và một trang “en-gb” dành cho người nói tiếng Anh tại Vương quốc Anh. Ở đây, chú thích hreflang giúp các công cụ tìm kiếm xác định phiên bản nào phù hợp với người dùng, trong khi thẻ canh chỉnh cho biết phiên bản nào nên xếp hạng bất kể ngôn ngữ và địa điểm nào.

Tôi có thể sử dụng thẻ canh chỉnh và thẻ meta robots cùng nhau không?

Trong một cuộc trò chuyện về canh chỉnh so với không lập chỉ mục trong văn phòng làm việc SEO của Google, John Muller của Google nói rằng:

“… bạn cũng có thể thực hiện cả hai. [Và đó là điều gì…] nếu các liên kết bên ngoài, ví dụ, đang trỏ vào trang này, thì việc có cả hai trong đó giúp chúng tôi xác định rằng, bạn không muốn lập chỉ mục trang này nhưng bạn cũng chỉ định một trang khác. Vì vậy, có thể chúng tôi chỉ tiếp tục chuyển tiếp một số tín hiệu.” Tuy nhiên, có thể ưu tiên không liên kết các tín hiệu mâu thuẫn cho Google. Bạn có thể xem video đầy đủ về câu trả lời của John Muller tại đây.

Nếu Google bỏ qua phiên bản canh chỉnh ưu tiên của tôi, tôi phải làm gì?

Kiểm tra trang như đã được mô tả ở phần trước của bài viết này để xác định bất kỳ lỗi nào có thể làm cho Google bỏ qua gợi ý và xem xét triển khai một hoặc nhiều gợi ý trên để gửi một tín hiệu mạnh hơn.

Ebere Jonathan – Chuyên gia SEO kỹ thuật làm việc tự do

Ebere là một chuyên gia SEO kỹ thuật làm việc tự do thích dành thời gian tìm kiếm cơ hội kỹ thuật để cải thiện thứ hạng và lưu lượng trang web. Cô đã làm việc cho các công ty quảng cáo và kiểm tra trang web trong nhiều ngành khác nhau bao gồm thương mại điện tử, chăm sóc sức khỏe và du lịch.

Tranxuanhung

Tìm hiểu thêm về chúng tôi tại: TRANHUNG Digital

Đánh giá bài viết
Contact Me on Zalo