Bài viết này được đồng tác giả bởi Andrew Ansley.
Điều, không chỉ là những chuỗi ký tự. Nếu bạn chưa nghe qua điều này trước đây, nó xuất phát từ một bài viết nổi tiếng trên blog của Google thông báo về Knowledge Graph.
Ngày kỷ niệm 11 năm của thông báo này chỉ còn một tháng nữa, nhưng nhiều người vẫn gặp khó khăn trong việc hiểu rõ ý nghĩa của “điều, không chỉ là những chuỗi ký tự” đối với SEO.
Câu trích dẫn này cố gắng truyền đạt rằng Google hiểu về các đối tượng và không còn chỉ là một thuật toán phát hiện từ khóa đơn giản nữa.
Vào tháng 5 năm 2012, có thể nói rằng SEO về thực thể đã ra đời. Học máy của Google, được hỗ trợ bởi cơ sở tri thức bán cấu trúc và cấu trúc, có thể hiểu được ý nghĩa đằng sau một từ khóa.
Tính mơ hồ của ngôn ngữ cuối cùng đã có một giải pháp dài hạn.
Vậy nếu các đối tượng đã quan trọng đối với Google suốt hơn một thập kỷ, tại sao các chuyên gia SEO vẫn bối rối về các đối tượng?
Điều này là câu hỏi hay. Tôi nhìn thấy bốn lý do:
- Thuật ngữ SEO về thực thể chưa được sử dụng rộng rãi đủ để các chuyên gia SEO cảm thấy thoải mái với định nghĩa của nó và áp dụng vào từ vựng của họ.
- Tối ưu hóa cho các đối tượng chồng chéo rất nhiều với các phương pháp tối ưu hóa tập trung vào từ khóa cũ. Kết quả là các đối tượng bị nhầm lẫn với từ khóa. Ngoài ra, không rõ các đối tượng có vai trò gì trong SEO và từ “đối tượng” đôi khi có thể thay thế bằng từ “chủ đề” khi Google nói về chủ đề này.
- Hiểu về các đối tượng là một nhiệm vụ nhàm chán. Nếu bạn muốn hiểu sâu về các đối tượng, bạn cần đọc một số bằng sáng chế của Google và nắm vững những kiến thức cơ bản về học máy. SEO dựa trên các đối tượng là một phương pháp khoa học hơn về SEO – và khoa học không phải dành cho tất cả mọi người.
- Mặc dù YouTube đã ảnh hưởng lớn đến việc phân phối kiến thức, nhưng nó đã làm phẳng trải nghiệm học tập cho nhiều chủ đề. Các nhà sáng tạo nổi tiếng trên nền tảng này thông thường đã chọn con đường dễ dàng để giảng dạy cho khán giả của họ. Kết quả là, các nhà tạo nội dung chưa dành nhiều thời gian cho các đối tượng cho đến gần đây. Vì vậy, bạn cần học về các đối tượng từ các nhà nghiên cứu NLP, sau đó bạn cần áp dụng kiến thức vào SEO. Bằng sáng chế và các bài báo nghiên cứu là quan trọng. Một lần nữa, điều này làm tăng cường điểm đầu tiên ở trên.
Bài viết này là một giải pháp cho cả bốn vấn đề đã ngăn chặn các chuyên gia SEO khỏi việc hoàn toàn nắm vững phương pháp SEO dựa trên thực thể.
Bằng cách đọc bài viết này, bạn sẽ hiểu:
- Đối tượng là gì và tại sao nó quan trọng.
- Lịch sử của tìm kiếm ngữ nghĩa.
- Cách nhận diện và sử dụng các đối tượng trong kết quả trang SERP.
- Cách sử dụng các đối tượng để xếp hạng nội dung web.
Entity là gì?
Entity là một đối tượng hoặc vật được xác định duy nhất bằng tên, loại, thuộc tính và mối quan hệ với các entity khác. Một entity chỉ được coi là tồn tại khi nó tồn tại trong một danh mục entity.
Danh mục entity gán một ID duy nhất cho mỗi entity. Cơ quan của tôi có các giải pháp được lập trình sử dụng ID duy nhất liên kết với mỗi entity (bao gồm dịch vụ, sản phẩm và thương hiệu).
Nếu một từ hoặc cụm từ không có trong danh mục hiện có, điều đó không có nghĩa là từ hoặc cụm từ đó không phải là entity, nhưng thông thường bạn có thể biết rằng một thứ gì đó là entity thông qua sự tồn tại của nó trong danh mục.
Quan trọng để lưu ý rằng Wikipedia không phải là yếu tố quyết định có phải một thứ gì đó là entity, nhưng công ty được biết đến nhiều nhất với cơ sở dữ liệu về entity.
Bất kỳ danh mục nào cũng có thể được sử dụng khi nói về entity. Thông thường, entity là một người, địa điểm hoặc vật, nhưng ý tưởng và khái niệm cũng có thể được bao gồm.
Một số ví dụ về danh mục entity bao gồm:
- Wikipedia
- Wikidata
- DBpedia
- Freebase
- Yago
Entity giúp cầu nối khoảng cách giữa thế giới dữ liệu không cấu trúc và dữ liệu có cấu trúc.
Chúng có thể được sử dụng để làm giàu ngữ nghĩa cho văn bản không cấu trúc, trong khi các nguồn văn bản có thể được sử dụng để điền vào cơ sở kiến thức có cấu trúc.
Nhận dạng đề cập đến các entity trong văn bản và liên kết các đề cập này với các mục tương ứng trong cơ sở kiến thức được gọi là nhiệm vụ liên kết entity.
Entity cho phép hiểu rõ hơn về ý nghĩa của văn bản, cả đối với con người và máy móc. Trong khi con người có thể dễ dàng giải quyết sự mơ hồ của entity dựa trên ngữ cảnh mà chúng được đề cập, điều này đặt ra nhiều khó khăn và thách thức cho máy móc.
Mục nhập cơ sở kiến thức của một entity tóm tắt những gì chúng ta biết về entity đó.
Do thế giới liên tục thay đổi, nhiều thông tin mới nổi lên. Việc theo kịp những thay đổi này đòi hỏi sự nỗ lực liên tục từ các biên tập viên và quản lý nội dung. Đây là một nhiệm vụ đòi hỏi sự cố gắng liên tục.
Bằng cách phân tích nội dung của các tài liệu mà entity được đề cập, quá trình tìm kiếm thông tin mới hoặc thông tin cần cập nhật có thể được hỗ trợ hoặc thậm chí tự động hoàn toàn.
Các nhà khoa học gọi điều này là vấn đề về việc xây dựng cơ sở kiến thức, đó là lý do tại sao việc liên kết entity quan trọng.
Entity tạo điều kiện cho việc hiểu ngữ nghĩa của nhu cầu thông tin của người dùng, được biểu đạt qua truy vấn từ khóa, và nội dung của tài liệu. Do đó, entity có thể được sử dụng để cải thiện biểu diễn truy vấn và/hoặc tài liệu.
Trong bài báo nghiên cứu về extended named entity, tác giả xác định khoảng 160 loại entity. Dưới đây là hai trong số bảy ảnh chụp màn hình từ danh sách đó.
Các danh mục cụ thể của entity được xác định dễ hơn, nhưng quan trọng là nhớ rằng các khái niệm và ý tưởng cũng là entity. Hai loại này rất khó khăn đối với Google tự mình mở rộng.
Bạn không thể dạy Google chỉ bằng một trang duy nhất khi làm việc với các khái niệm mơ hồ. Việc hiểu entity yêu cầu nhiều bài viết và nhiều nguồn tham khảo duy trì trong thời gian dài.
Tại sao các thực thể quan trọng?
SEO thực thể là tương lai của các công cụ tìm kiếm khi lựa chọn nội dung để xếp hạng và xác định ý nghĩa của nó.
Kết hợp điều này với niềm tin dựa trên kiến thức, tôi tin rằng SEO thực thể sẽ là tương lai của cách thực hiện SEO trong hai năm tới.
Các ví dụ về thực thể
Vậy làm sao để nhận biết một thực thể?
SERP có một số ví dụ về các thực thể mà bạn có thể đã thấy.
Các loại thực thể phổ biến nhất liên quan đến địa điểm, người hoặc doanh nghiệp.
Có lẽ ví dụ tốt nhất về thực thể trên SERP là các nhóm ý định. Càng hiểu rõ một chủ đề, càng xuất hiện nhiều tính năng tìm kiếm này.
Thú vị thay, một chiến dịch SEO đơn lẻ có thể thay đổi diện mạo của SERP khi bạn biết cách thực hiện các chiến dịch SEO tập trung vào thực thể.
Các bài viết trên Wikipedia là một ví dụ khác về các thực thể. Wikipedia cung cấp một ví dụ tuyệt vời về thông tin liên quan đến các thực thể.
Nhìn vào phần trên bên trái, thực thể có mọi loại thuộc tính liên quan đến “cá”, từ giải phẫu đến tầm quan trọng của nó đối với con người.
Mặc dù Wikipedia chứa nhiều điểm dữ liệu về một chủ đề, nhưng nó không phải là toàn diện.
Lịch sử của Google với thực thể
Vào ngày 16 tháng 7 năm 2010, Google mua lại Freebase. Việc mua này là bước tiến lớn đầu tiên dẫn đến hệ thống tìm kiếm thực thể hiện tại.
Sau khi đầu tư vào Freebase, Google nhận ra rằng Wikidata có một giải pháp tốt hơn. Google đã làm việc để hợp nhất Freebase vào Wikidata, một nhiệm vụ khó khăn hơn dự đoán.
Năm nhà khoa học của Google đã viết một bài báo có tựa đề “Từ Freebase đến Wikidata: Cuộc di cư lớn.” Những điểm chính bao gồm:
“Freebase được xây dựng dựa trên khái niệm về đối tượng, sự thật, loại và thuộc tính. Mỗi đối tượng Freebase có một định danh ổn định được gọi là “mid” (cho Máy ID).”
“Mô hình dữ liệu của Wikidata dựa trên khái niệm về mục và tuyên bố. Một mục đại diện cho một thực thể, có một định danh ổn định được gọi là “qid” và có thể có nhãn, mô tả và bí danh bằng nhiều ngôn ngữ; các tuyên bố và liên kết đến các trang về thực thể trong các dự án Wikimedia khác – đặc biệt là Wikipedia. Khác với Freebase, các tuyên bố của Wikidata không nhằm mã hóa các sự thật chính xác, mà là các khẳng định từ các nguồn khác nhau, có thể trái ngược nhau…”
Các thực thể được xác định trong các cơ sở dữ liệu kiến thức này, nhưng Google vẫn phải xây dựng kiến thức về thực thể của riêng mình cho dữ liệu không có cấu trúc (ví dụ: blog).
Google đã hợp tác với Bing và Yahoo và tạo ra Schema.org để hoàn thành công việc này.
Google cung cấp hướng dẫn schema để quản lý trang web có các công cụ giúp Google hiểu nội dung. Hãy nhớ rằng Google muốn tập trung vào vấn đề, không phải chuỗi.
Theo lời của Google:
“Bạn có thể giúp chúng tôi bằng cách cung cấp những gợi ý rõ ràng về ý nghĩa của một trang cho Google bằng cách bao gồm dữ liệu có cấu trúc trên trang. Dữ liệu có cấu trúc là một định dạng tiêu chuẩn để cung cấp thông tin về một trang và phân loại nội dung trang; ví dụ, trên một trang công thức, có thành phần nào, thời gian và nhiệt độ nấu, số calo, và cetera.”
Google tiếp tục bằng cách nói:
“Bạn phải bao gồm tất cả các thuộc tính cần thiết để một đối tượng được đủ điều kiện để xuất hiện trong Kết quả Tìm kiếm Google với hiển thị nâng cao. Nói chung, xác định nhiều tính năng được khuyến nghị có thể làm tăng khả năng thông tin của bạn xuất hiện trong kết quả Tìm kiếm với hiển thị nâng cao. Tuy nhiên, quan trọng hơn là cung cấp ít thuộc tính khuyến nghị nhưng đầy đủ và chính xác hơn thay vì cố gắng cung cấp mọi thuộc tính khuyến nghị có thể với dữ liệu không đầy đủ, không tạo thành, hoặc không chính xác.”
Có thể nói thêm về schema, nhưng đủ để nói rằng schema là một công cụ tuyệt vời cho các chuyên gia SEO muốn làm cho nội dung trang web trở nên rõ ràng đối với các công cụ tìm kiếm.
Mảnh ghép cuối cùng đến từ thông báo trên blog của Google có tựa đề “Cải thiện Tìm kiếm cho 20 Năm Tiếp theo.”
Tính liên quan và chất lượng tài liệu là những ý tưởng chính đằng sau thông báo này. Phương pháp đầu tiên mà Google sử dụng để xác định nội dung của một trang hoàn toàn tập trung vào các từ khóa.
Sau đó, Google đã thêm lớp chủ đề vào tìm kiếm. Lớp này được thực hiện nhờ các biểu đồ kiến thức và bằng cách thu thập và cấu trúc dữ liệu trên web một cách có hệ thống.
Điều đó đưa chúng ta đến hệ thống tìm kiếm hiện tại. Google đã đi từ 570 triệu thực thể và 18 tỷ sự thật đến 800 tỷ sự thật và 8 tỷ thực thể trong chưa đầy 10 năm. Khi con số này tăng, tìm kiếm thực thể cải thiện.
Tại sao mô hình thực thể là cải tiến so với các mô hình tìm kiếm trước đây?
Các mô hình truy xuất thông tin (IR) dựa trên từ khóa truyền thống có giới hạn về việc không thể truy xuất tài liệu (có liên quan) không có trùng từ khóa rõ ràng với truy vấn. Nếu bạn sử dụng ctrl + f để tìm kiếm văn bản trên một trang, bạn sử dụng một cái gì đó tương tự với mô hình truy xuất thông tin dựa trên từ khóa truyền thống.
Một lượng dữ liệu khổng lồ được xuất bản trên web mỗi ngày. Điều này đơn giản là không thể cho Google hiểu ý nghĩa của từng từ, từng đoạn văn, từng bài viết và từng trang web. Thay vào đó, các thực thể cung cấp một cấu trúc mà từ đó Google có thể giảm tải tính toán trong khi cải thiện sự hiểu biết.
“Phương pháp truy xuất dựa trên khái niệm cố gắng giải quyết thách thức này bằng cách dựa vào các cấu trúc phụ trợ để thu được biểu diễn ngữ nghĩa của truy vấn và tài liệu trong không gian khái niệm cấp cao hơn. Các cấu trúc này bao gồm từ điển kiểm soát (từ điển và từ điển đồng nghĩa), các lớp thực thể và thực thể từ kho tri thức.”
Krisztian Balog, người đã viết cuốn sách định nghĩa về thực thể, xác định ba giải pháp có thể cho mô hình truy xuất thông tin truyền thống.
Mục tiêu của ba phương pháp này là đạt được một biểu diễn phong phú hơn về thông tin của người dùng cần thông qua việc xác định các thực thể có liên quan mạnh mẽ đối với truy vấn.
Sau đó, Balog xác định sáu thuật toán liên quan đến các phương pháp dự án của phép ánh thực thể (các phương pháp phép ánh liên quan đến chuyển đổi các thực thể thành không gian ba chiều và đo lường vector bằng hình học).
Dưới đây là những gì Balog viết:
“Tổng cộng có bốn đặc điểm chú ý được thiết kế, được trích xuất cho mỗi thực thể truy vấn. Các đặc điểm không rõ ràng về thực thể được định nghĩa để đặc trưng nguy cơ liên quan đến một chú thích thực thể. Các đặc điểm này bao gồm: (1) sự mập mờ của xác suất rằng hình thức bề mặt được liên kết với các thực thể khác nhau (ví dụ, trong Wikipedia), (2) liệu thực thể được chú thích có phải là ý nghĩa phổ biến nhất của hình thức bề mặt không (nghĩa là có điểm phổ biến nhất cao nhất và (3) sự khác biệt về điểm phổ biến giữa ứng viên phổ biến nhất và ứng viên phổ biến nhì thứ hai cho hình thức bề mặt cụ thể. Đặc điểm thứ tư là sự gần gũi, được định nghĩa là sự tương đồng cosin giữa thực thể truy vấn và truy vấn trong không gian nhúng. Cụ thể, một không gian nhúng chung thực thể-thuật ngữ được huấn luyện bằng mô hình skip-gram trên một tập dữ liệu, trong đó các đề cập đến thực thể được thay thế bằng các nhận dạng thực thể tương ứng. Việc nhúng của truy vấn được coi là trung tâm của nhúng của các thuật ngữ truy vấn.”
Hiện tại, quan trọng là có sự quen thuộc ở mức bề mặt với sáu thuật toán trung tâm thực thể này. Ý tưởng chính là có hai phương pháp: chiếu các tài liệu vào một lớp thực thể tiềm ẩn và chú thích thực thể rõ ràng của các tài liệu.
Ba loại cấu trúc dữ liệu
Hình ảnh trên cho thấy mối quan hệ phức tạp tồn tại trong không gian vector. Trong khi ví dụ cho thấy các kết nối biểu đồ kiến thức, mẫu này cũng có thể được nhân bản trên một mức schema trang web từng trang.
Để hiểu về thực thể, quan trọng là biết ba loại cấu trúc dữ liệu mà các thuật toán sử dụng.
Vấn đề với ngữ cảnh bán cấu trúc và phân tán cho điểm số IR là nếu một tài liệu không được cấu hình cho một chủ đề duy nhất, điểm số IR có thể bị pha loãng bởi hai ngữ cảnh khác nhau dẫn đến mất mất hàng đầu đối với một tài liệu văn bản khác. Sự pha loãng điểm số IR bao gồm các mối quan hệ từ vựng kém cấu trúc và sự tiếp xúc từ xa. Các từ liên quan có ý nghĩa với nhau nên được sử dụng gần nhau trong một đoạn văn hoặc mục của tài liệu để thông báo ngữ cảnh rõ ràng hơn để tăng điểm số IR. Sử dụng các thuộc tính và mối quan hệ của thực thể sẽ mang lại cải thiện tương đối trong khoảng 5-20%. Tận dụng thông tin về loại thực thể còn đáng giá hơn, với cải thiện tương đối từ 25% đến hơn 100%.
Chú thích tài liệu bằng các thực thể có thể mang lại cấu trúc cho các tài liệu không có cấu trúc, từ đó có thể giúp bổ sung thông tin mới về thực thể vào cơ sở tri thức.
Sử dụng Wikipedia như khung SEO của thực thể bạn
Cấu trúc của các trang Wikipedia
- Tiêu đề (I.)
- Phần giới thiệu (II.)
- Liên kết giải thích (II.a)
- Infobox (II.b)
- Đoạn giới thiệu (II.c)
- Danh sách nội dung (III.)
- Nội dung chính (IV.)
- Phụ lục và nội dung cuối (V.)
- Tham khảo và ghi chú (V.a)
- Liên kết ngoài (V.b)
- Thể loại (V.c)
Hầu hết các bài viết trên Wikipedia đều bao gồm một đoạn giới thiệu, hay còn gọi là “lead”, là một bản tóm tắt ngắn gọn về bài viết – thường không quá bốn đoạn. Đoạn này nên được viết một cách thú vị để gây hứng thú cho người đọc.
Câu đầu tiên và đoạn mở đầu có ý nghĩa đặc biệt. Câu đầu tiên có thể được xem như định nghĩa của thực thể được miêu tả trong bài viết. Đoạn mở đầu cung cấp một định nghĩa chi tiết hơn mà không quá nhiều chi tiết.
Giá trị của liên kết không chỉ giới hạn trong việc điều hướng; chúng còn ghi lại mối quan hệ ngữ nghĩa giữa các bài viết. Ngoài ra, văn bản gắn kết cũng là một nguồn phong phú về các biến thể tên thực thể. Liên kết trên Wikipedia có thể được sử dụng, giữa những thứ khác, để giúp xác định và xác minh các đề cập đến thực thể trong văn bản.
- Tóm tắt các thông tin chính về thực thể (infobox).
- Giới thiệu ngắn gọn.
- Liên kết nội bộ. Một quy tắc quan trọng dành cho biên tập viên là chỉ liên kết đến lần xuất hiện đầu tiên của một thực thể hoặc khái niệm.
- Bao gồm tất cả các từ đồng nghĩa phổ biến cho một thực thể.
- Chỉ định trang thể loại.
- Mẫu điều hướng.
- Tài liệu tham khảo.
- Công cụ phân tích đặc biệt để hiểu các trang Wiki.
- Nhiều loại phương tiện.
Cách tối ưu hóa cho thực thể
Sau đây là những yếu tố quan trọng khi tối ưu hóa thực thể cho tìm kiếm:
- Sử dụng từ có liên quan về nghĩa trên một trang.
- Tần suất xuất hiện của từ và cụm từ trên một trang.
- Tổ chức các khái niệm trên một trang.
- Bao gồm dữ liệu không cấu trúc, dữ liệu bán cấu trúc và dữ liệu có cấu trúc trên một trang.
- Các cặp Subject-Predicate-Object (SPO).
- Tài liệu web trên một trang web hoạt động như các trang sách.
- Tổ chức tài liệu web trên một trang web.
- Bao gồm các khái niệm trên một tài liệu web được biết đến là các đặc điểm của thực thể.
Lưu ý quan trọng: Khi tập trung vào mối quan hệ giữa các thực thể, một cơ sở kiến thức thường được gọi là một đồ thị kiến thức.
Khi phân tích ý định cùng với nhật ký tìm kiếm của người dùng và các yếu tố ngữ cảnh khác, cùng một cụm từ tìm kiếm từ người thứ nhất có thể tạo ra kết quả khác với người thứ hai. Người có thể có ý định khác nhau với cùng một truy vấn chính xác. Nếu trang của bạn bao gồm cả hai loại ý định, thì trang của bạn là ứng viên tốt hơn cho xếp hạng web. Bạn có thể sử dụng cấu trúc của cơ sở kiến thức để hướng dẫn các mẫu ý định truy vấn của bạn (như đã đề cập ở phần trước).
People Also Ask (Người ta cũng hỏi), People Search For (Người ta tìm kiếm) và Autocomplete (Tự động hoàn chỉnh) liên quan về nghĩa với truy vấn đã được gửi và sâu hơn vào hướng tìm kiếm hiện tại hoặc chuyển sang một khía cạnh khác của nhiệm vụ tìm kiếm. Chúng ta biết điều này, vậy làm thế nào để tối ưu hóa cho nó?
Tài liệu của bạn nên chứa càng nhiều biến thể ý định tìm kiếm càng tốt. Trang web của bạn nên chứa mọi biến thể ý định tìm kiếm cho nhóm của bạn. Gom nhóm dựa trên ba loại tương tự:
- Tương tự từ vựng.
- Tương tự nghĩa.
- Tương tự nhấp chuột.
Phạm vi chủ đề
Đây là một ví dụ về cách cung cấp nội dung được cấu trúc cho Google bằng cấu trúc FAQ.
Trong ví dụ này, bạn có thể thấy rằng nội dung FAQ được cấu trúc cho Google sử dụng cấu trúc FAQ.
Trong ví dụ này, bạn có thể thấy rằng cấu trúc cung cấp một mô tả về văn bản, một ID và một khai báo về thực thể chính của trang.
Khi bạn tối ưu hóa với cấu trúc, bạn đang tối ưu hóa cho NER (nhận dạng thực thể có tên), còn được gọi là nhận dạng thực thể, trích xuất thực thể và tách thực thể. Ý tưởng là tham gia vào việc Giải thích Định danh Thực thể > Wikification > Liên kết Thực thể.
“Sự ra đời của Wikipedia đã thuận tiện cho việc nhận dạng và làm rõ thực thể quy mô lớn bằng cách cung cấp một danh mục toàn diện về thực thể cùng với các tài nguyên vô cùng quý giá khác (cụ thể là liên kết, danh mục và trang chuyển hướng và làm rõ.”
Hầu hết các nhà SEO sử dụng một công cụ trên trang để tối ưu hóa nội dung của họ. Mọi công cụ chỉ giới hạn trong khả năng xác định cơ hội nội dung độc đáo và đề xuất độ sâu nội dung. Đại trà, các công cụ trên trang chỉ tập hợp các kết quả SERP hàng đầu và tạo ra một trung bình để bạn mô phỏng. Nhà SEO phải nhớ rằng Google không tìm kiếm thông tin được sao chép. Bạn có thể sao chép những gì người khác đang làm, nhưng thông tin độc đáo là chìa khóa để trở thành một trang gốc/trang uy tín.
Đây là một mô tả đơn giản về cách Google xử lý nội dung mới:
Một khi một tài liệu được phát hiện để đề cập đến một thực thể cụ thể, tài liệu đó có thể được kiểm tra để tìm ra các sự thật mới có thể được cập nhật với mục nhập cơ sở kiến thức của thực thể đó.
Balog viết:
“Chúng tôi muốn giúp các biên tập viên kiểm soát thay đổi bằng cách tự động xác định nội dung (bài báo tin tức, bài đăng blog, v.v.) có thể gợi ý sửa đổi các mục nhập KB của một tập hợp cụ thể các thực thể quan tâm (tức là các thực thể mà một biên tập viên cụ thể chịu trách nhiệm).”
Bất kỳ ai cải thiện cơ sở kiến thức, nhận dạng thực thể và khả năng truy xuất thông tin sẽ nhận được sự yêu thích từ Google. Các thay đổi được thực hiện trong cơ sở kiến thức có thể được truy vết lại đến tài liệu là nguồn gốc ban đầu. Nếu bạn cung cấp nội dung bao quát chủ đề và bạn thêm một mức độ sâu mà hiếm hoặc mới, Google có thể xác định xem tài liệu của bạn đã thêm thông tin độc đáo đó hay không.
Dần dần, thông tin mới này được duy trì trong một thời gian có thể dẫn đến trang web của bạn trở thành một đơn vị uy tín. Điều này không phải là sự uy tín dựa trên đánh giá tên miền mà là về phạm vi chủ đề, điều mà tôi cho là càng quý giá hơn.
Với cách tiếp cận thực thể trong SEO, bạn không bị giới hạn trong việc nhắm mục tiêu từ khóa có khối lượng tìm kiếm. Bạn chỉ cần xác minh thuật ngữ chính (“cần câu câu cá,” ví dụ), sau đó bạn có thể tập trung vào những biến thể ý định tìm kiếm dựa trên suy nghĩ của con người.
Chúng ta bắt đầu với Wikipedia. Đối với ví dụ về câu cá, chúng ta có thể thấy rằng, tối thiểu, các khái niệm sau phải được bao gồm trên một trang web về câu cá:
- Loại cá, lịch sử, nguồn gốc, phát triển, cải tiến công nghệ, mở rộng, phương pháp câu cá, ném câu, ném câu spey, câu cá cho cá hồi, kỹ thuật câu cá cho cá hồi, câu cá trong nước lạnh, câu cá trên nước khô cho cá hồi, câu cá nổi cho cá hồi, câu cá trên nước yên, cách chơi cá hồi, thả cá hồi, câu cá biển, dụng cụ, mồi nhân tạo và nút câu cá.
Các chủ đề trên đã được lấy từ trang Wikipedia về câu cá. Mặc dù trang này cung cấp một cái nhìn tổng quan tuyệt vời về các chủ đề, tôi thích thêm các ý tưởng chủ đề bổ sung từ các chủ đề có liên quan ngữ nghĩa. Đối với chủ đề “cá,” chúng ta có thể thêm một số chủ đề bổ sung, bao gồm nguồn gốc từ vựng, tiến hóa, giải phẫu và sinh lý, giao tiếp cá, bệnh cá, bảo tồn và tầm quan trọng đối với con người. Liệu có ai đã liên kết giữa giải phẫu của cá hồi với hiệu quả của các kỹ thuật câu cá cụ thể? Liệu một trang web câu cá duy nhất đã bao gồm tất cả các loại cá trong khi liên kết các loại kỹ thuật câu cá, cần câu và mồi cho từng loại cá? Từ đó, bạn sẽ thấy cách mở rộng chủ đề có thể tăng lên. Hãy nhớ điều này khi lập kế hoạch cho một chiến dịch nội dung. Đừng chỉ làm lại. Thêm giá trị. Độc đáo. Sử dụng các thuật toán được đề cập trong bài viết này như hướng dẫn của bạn.
Google cung cấp một công cụ cung cấp điểm nổi bật (tương tự như cách chúng tôi sử dụng từ “sức mạnh” hoặc “sự tự tin”) cho bạn biết cách Google nhìn thấy nội dung.
Ví dụ trên đến từ một bài viết trên Search Engine Land về thực thể từ năm 2018.
Bạn có thể thấy các thực thể như người, khác và tổ chức trong ví dụ. Công cụ này là Google Cloud’s Natural Language API.
Mỗi từ, câu và đoạn văn đều quan trọng khi nói về một thực thể. Cách bạn tổ chức suy nghĩ của mình có thể thay đổi cách Google hiểu nội dung của bạn. Bạn có thể bao gồm một từ khóa về SEO, nhưng liệu Google có hiểu từ khóa đó theo cách bạn muốn không? Hãy thử đặt một đoạn văn hoặc hai vào công cụ và sắp xếp và chỉnh sửa ví dụ để xem làm thế nào nó tăng hoặc giảm tính nổi bật.
Bài tập này, gọi là “giải quyết thắc mắc,” rất quan trọng đối với các thực thể. Ngôn ngữ là mơ hồ, vì vậy chúng ta phải làm cho từ ngữ của chúng ta ít mơ hồ hơn đối với Google.
Các phương pháp giải quyết mơ hồ hiện đại xem xét ba loại bằng chứng:
- Độ quan trọng trước của các thực thể và đề cập.
- Sự tương tự ngữ cảnh giữa văn bản xung quanh đề cập và thực thể ứng cử viên và sự liên kết mạch lạc giữa tất cả các quyết định liên kết thực thể trong tài liệu.
Schema là một trong những cách yêu thích của tôi để làm rõ nội dung. Bạn đang liên kết các thực thể trong blog của bạn với các nguồn tri thức. Balog nói:
“[L]inking entities in unstructured text to a structured knowledge repository can greatly empower users in their information consumption activities.”
Ví dụ, người đọc một tài liệu có thể có được thông tin ngữ cảnh hoặc thông tin nền với một cú nhấp chuột duy nhất và họ có thể dễ dàng truy cập vào các thực thể liên quan.
Các chú thích thực thể cũng có thể được sử dụng trong xử lý phụ xuống dòng để cải thiện hiệu suất truy xuất hoặc tạo điều kiện tương tác tốt hơn của người dùng với kết quả tìm kiếm.
Ở đây, bạn có thể thấy rằng nội dung FAQ được cấu trúc cho Google sử dụng cấu trúc FAQ.
Trong ví dụ này, bạn có thể thấy rằng cấu trúc cung cấp một mô tả về văn bản, một ID và một khai báo về thực thể chính của trang. (Hãy nhớ, Google muốn hiểu cấu trúc của nội dung, đó là lý do tại sao H1–H6 quan trọng.)
Bạn sẽ thấy các tên thay thế và các khai báo giống nhau. Bây giờ, khi Google đọc nội dung, nó sẽ biết cơ sở dữ liệu có cấu trúc nào được liên kết với văn bản, và nó sẽ có các từ đồng nghĩa và phiên bản thay thế của một từ liên kết với thực thể.
Khi bạn tối ưu hóa với schema, bạn tối ưu hóa cho NER (nhận dạng thực thể có tên), còn được gọi là nhận dạng thực thể, trích xuất thực thể và tách thực thể. Ý tưởng là tham gia vào việc Giải thích Định danh Thực thể > Wikification > Liên kết Thực thể.
“Sự ra đời của Wikipedia đã thuận tiện cho việc nhận dạng và làm rõ thực thể quy mô lớn bằng cách cung cấp một danh mục toàn diện về thực thể cùng với các tài nguyên quý giá khác (cụ thể là liên kết, danh mục và trang chuyển hướng và làm rõ.”
Hầu hết các nhà SEO sử dụng một công cụ trên trang để tối ưu hóa nội dung của họ. Mọi công cụ chỉ giới hạn trong khả năng xác định cơ hội nội dung độc đáo và đề xuất độ sâu nội dung. Đại trà, các công cụ trên trang chỉ tập hợp các kết quả SERP hàng đầu và tạo ra một trung bình để bạn mô phỏng. Nhà SEO phải nhớ rằng Google không tìm kiếm thông tin được sao chép. Bạn có thể sao chép những gì người khác đang làm, nhưng thông tin độc đáo là chìa khóa để trở thành một trang gốc/trang uy tín.
Đây là một mô tả đơn giản về cách Google xử lý nội dung mới:
Một khi một tài liệu được phát hiện để đề cập đến một thực thể cụ thể, tài liệu đó có thể được kiểm tra để tìm ra các sự thật mới có thể được cập nhật với mục nhập cơ sở kiến thức của thực thể đó.
Balog viết:
“Chúng tôi muốn giúp các biên tập viên kiểm soát thay đổi bằng cách tự động xác định nội dung (bài báo tin tức, bài đăng blog, v.v.) có thể gợi ý sửa đổi các mục nhập KB của một tập hợp cụ thể các thực thể quan tâm (tức là các thực thể mà một biên tập viên cụ thể chịu trách nhiệm).”
Bất kỳ ai cải thiện cơ sở kiến thức, nhận dạng thực thể và khả năng truy xuất thông tin sẽ nhận được sự yêu thích từ Google. Các thay đổi được thực hiện trong cơ sở kiến thức có thể được truy vết lại đến tài liệu là nguồn gốc ban đầu. Nếu bạn cung cấp nội dung bao quát chủ đề và bạn thêm một mức độ sâu mà hiếm hoặc mới, Google có thể xác định xem tài liệu của bạn đã thêm thông tin độc đáo đó hay không.
Dần dần, thông tin mới này được duy trì trong một thời gian có thể dẫn đến trang web của bạn trở thành một đơn vị uy tín. Điều này không phải là sự uy tín dựa trên đánh giá tên miền mà là về phạm vi chủ đề, điều mà tôi cho là càng quý giá hơn.
Với cách tiếp cận thực thể trong SEO, bạn không bị giới hạn trong việc nhắm mục tiêu từ khóa có khối lượng tìm kiếm. Bạn chỉ cần xác minh thuật ngữ chính (“cần câu câu cá,” ví dụ), sau đó bạn có thể tập trung vào những biến thể ý định tìm kiếm dựa trên suy nghĩ của con người.
Chúng tôi bắt đầu với Wikipedia. Đối với ví dụ về câu cá, chúng tôi có thể thấy rằng, tối thiểu, các khái niệm sau đây nên được bao gồm trên một trang web về câu cá:
- Loại cá, lịch sử, nguồn gốc, phát triển, cải tiến công nghệ, mở rộng, phương pháp câu cá, ném câu, ném câu spey, câu cá cho cá hồi, kỹ thuật câu cá cho cá hồi, câu cá trong nước lạnh, câu cá trên nước khô cho cá hồi, câu cá nổi cho cá hồi, câu cá trên nước yên, cách chơi cá hồi, thả cá hồi, câu cá biển, dụng cụ, mồi nhân tạo và nút câu cá.
Các chủ đề trên đã được lấy từ trang Wikipedia về câu cá. Mặc dù trang này cung cấp một cái nhìn tổng quan tuyệt vời về các chủ đề, chúng tôi thích thêm các ý tưởng chủ đề bổ sung từ các chủ đề có liên quan ngữ nghĩa. Đối với chủ đề “cá,” chúng tôi có thể thêm một số chủ đề bổ sung, bao gồm nguồn gốc từ vựng, tiến hóa, giải phẫu và sinh lý, giao tiếp cá, bệnh cá, bảo tồn và tầm quan trọng đối với con người. Liệu có ai đã liên kết giữa giải phẫu của cá hồi với hiệu quả của các kỹ thuật câu cá cụ thể? Liệu một trang web câu cá duy nhất đã bao gồm tất cả các loại cá trong khi liên kết các loại kỹ thuật câu cá, cần câu và mồi cho từng loại cá? Từ đó, bạn sẽ thấy cách mở rộng chủ đề có thể tăng lên. Hãy nhớ điều này khi lập kế hoạch cho một chiến dịch nội dung. Đừng chỉ làm lại. Thêm giá trị. Độc đáo. Sử dụng các thuật toán được đề cập trong bài viết này như hướng dẫn của bạn.
Kết luận
Đây là một trong loạt bài viết tập trung vào các thực thể. Trong bài viết tiếp theo, tôi sẽ đi sâu vào các nỗ lực tối ưu hóa quanh các thực thể và một số công cụ tập trung vào thực thể trên thị trường.
Tôi muốn kết thúc bài viết này bằng việc kính thưa hai người đã giải thích cho tôi nhiều khái niệm này.
Bill Slawski của SEO by the Sea và Koray Tugbert của Holistic SEO. Trong khi Slawski không còn ở cùng chúng ta nữa, những đóng góp của ông vẫn tiếp tục tác động trong ngành SEO.
Tôi phụ thuộc rất nhiều vào các nguồn thông tin sau đây cho nội dung bài viết, vì những nguồn thông tin này là những nguồn tài liệu tốt nhất hiện có về chủ đề này:
Các quan điểm được thể hiện trong bài viết này là của tác giả khách mời và không nhất thiết phải là của Search Engine Land. Các tác giả nhân viên được liệt kê ở đây.
Nguồn tham khảo: https://searchengineland.com/entity-seo-guide-395264
Tìm hiểu thêm về chúng tôi tại: TRANHUNG Digital