Regex cho SEO: Cách sử dụng Regular Expressions
Trong hướng dẫn này, tôi sẽ chỉ cho bạn cách sử dụng Regex cho SEO, ngay cả khi bạn không có kiến thức về lập trình.
RegEx, hay Regular Expressions, dễ học và rất hữu ích, vì vậy hãy đọc toàn bộ hướng dẫn này vì nó sẽ là một trong những đầu tư tốt nhất về thời gian và kết quả trong sự nghiệp SEO của bạn.
Bài viết này giúp bạn tìm hiểu về các biểu thức chính quy. Không phải tất cả các biểu thức chính quy đều hoạt động trong Google Search Console vì nó sử dụng cú pháp riêng. Hãy đọc bài viết này nếu bạn đang tìm kiếm Regex cho Google Search Console.
Regex là gì?
Regex, hay biểu thức chính quy, được sử dụng để phát hiện các mẫu trong các chuỗi ký tự.
Với Regex, bạn có thể dễ dàng khớp nhiều kết quả có cùng mẫu.
Các Biểu thức Chính quy Cơ bản
Ví dụ, một trong những mẫu phổ biến nhất mà tôi sử dụng với Google Analytics là:
hoặc tương đương:
Điều này giúp tôi khớp với bất kỳ kết quả nào sau đây:
Regex không chỉ đặc thù cho bất kỳ ngôn ngữ lập trình nào. Vì vậy, dù bạn đang sử dụng Google Analytics hay lập trình bằng Python, JavaScript hoặc Java, bạn sẽ cần sử dụng Biểu thức Chính quy ở một số điểm nào đó.
Biểu thức chính quy có các phiên bản khác nhau từ ngôn ngữ lập trình này sang ngôn ngữ lập trình khác.
Tuy nhiên, nếu bạn biết cách sử dụng các biểu thức chính quy chung, bạn sẽ không gặp vấn đề khi sử dụng chúng trong bất kỳ ngôn ngữ lập trình nào.
Biểu thức chính quy, hoặc regex, có thể là một công cụ mạnh mẽ cho các chuyên gia SEO muốn tối ưu hóa trang web của họ. Ngoài việc loại trừ dữ liệu không mong muốn trong bộ lọc Google Analytics, regex cũng có thể được sử dụng để xác định và trích xuất thông tin quan trọng từ dữ liệu trang web. Bằng cách tìm hiểu cơ bản về regex và cách áp dụng nó vào công việc SEO của bạn, bạn có thể khám phá những thông tin quý giá và tối ưu quy trình tối ưu hóa của mình.
Regex cho SEO là gì?
Biểu thức chính quy, hay regex, có thể là một công cụ mạnh mẽ cho các chuyên gia SEO muốn tối ưu hóa trang web của họ. Regex có thể được sử dụng để loại trừ dữ liệu không mong muốn trong bộ lọc Google Analytics và xác định và trích xuất thông tin quý giá từ dữ liệu trang web. Regex cho SEO liên quan đến việc tận dụng khả năng khớp chuỗi của biểu thức chính quy trong các hoạt động khai thác dữ liệu hoặc xử lý văn bản.
Bạn có thể sử dụng regex để phân tích các mẫu cụ thể trong URL, thẻ meta và nội dung trang. Nó có thể giúp nghiên cứu từ khóa và tối ưu nội dung của bạn. Hơn thế nữa, sử dụng regex, bạn có thể thực hiện các thay đổi hàng loạt cho mã hoặc nội dung trang web của bạn.
Bắt đầu với Regex
Hướng dẫn này sẽ chỉ cho bạn các khái niệm cơ bản về Regex. Nếu bạn muốn tiến xa hơn, hãy chắc chắn rằng bạn xem công cụ yêu thích của tôi, Regex101, và RegEx Cheat Sheet này.
Không phải tất cả các Biểu thức Chính quy đều giống nhau
Biểu thức chính quy được sử dụng trong lập trình máy tính và phân tích dữ liệu.
Tùy thuộc vào ngôn ngữ lập trình mà bạn sử dụng hoặc công cụ mà bạn sử dụng, một số Biểu thức Chính quy sẽ không hoạt động.
Tại sao nên học Regex cho SEO?
Cách sử dụng Regex phổ biến nhất cho SEO là sử dụng biểu thức chính quy để lọc dữ liệu trong Bảng điều khiển Tìm kiếm Google và Google Analytics.
Sau đó, họ sẽ bắt đầu sử dụng nó cho mục đích thu thập và phân tích dữ liệu và theo sự tiến bộ về sự nghiệp và kiến thức của họ, họ sẽ bắt đầu sử dụng nó để thực hiện các cuộc gọi API, cho đến khi họ sử dụng chúng ở mọi nơi.
Để loại bỏ tất cả lưu lượng truy cập tự nhiên từ Google, bao gồm Tìm kiếm Google và Google For Jobs, nhưng không bao gồm CPC của Google.
Trong trường hợp này, bạn sẽ chuyển đến Acquisition > All Traffic > Source/Medium > Advanced và sử dụng biểu thức chính quy .*google.*organic.* để loại trừ kết quả của bạn.
Sau đó, bạn sẽ nhận được báo cáo như sau.
Tôi biết rằng điều này khá cơ bản, nhưng tôi chỉ muốn cho thấy tại sao bạn tuyệt đối cần biểu thức chính quy vào một ngày nào đó trong sự nghiệp SEO của bạn.
Biểu thức chính quy trong Google Analytics khá hạn chế so với những gì bạn thực sự có thể làm với Regex.
Tại sao sử dụng Regex?
Biểu thức chính quy hữu ích để xác định bộ lọc và thực hiện thao tác tìm kiếm và thay thế trên thông tin văn bản. Regex chứa một loạt các ký tự xác định mẫu khớp với văn bản, giúp chúng hữu ích trong các hoạt động xử lý văn bản.
Regex có tác dụng gì?
Biểu thức chính quy là một chuỗi các mẫu khớp chuỗi hữu ích trong các hoạt động xử lý văn bản. Regex có thể được sử dụng để tìm kiếm, khớp và quản lý các mẫu trong văn bản. Một trường hợp sử dụng điển hình là tìm kiếm và thay thế một chuỗi con trong văn bản hoặc lọc các hàng trong một tập dữ liệu dựa trên một mẫu.
Sử dụng Regex trong SEO
Regex là một trong những công cụ phổ biến nhất cho SEO để lọc báo cáo trong Google Analytics và Google Search Console. Biểu thức chính quy có thể được sử dụng để khám phá và xem chỉ dữ liệu liên quan. Regex cũng có thể được sử dụng trong các ứng dụng khác của lập trình máy tính và phân tích kinh doanh.
Sử dụng Regex trong Google Analytics
Một nơi phổ biến để sử dụng Regex trong SEO là trong Google Analytics.
Đối với Universal Analytics, biểu thức chính quy có thể được sử dụng để lọc báo cáo, tạo kích thước tùy chỉnh và tạo nhóm tùy chỉnh. Annielytics đã tạo một video tuyệt vời về chủ đề này.
Khi đến với GA4, Regex không còn hữu ích để lọc báo cáo như trước vì bộ lọc làm cho việc lọc báo cáo mà không cần regex trở nên thuận tiện hơn.
Tuy vậy, biểu thức chính quy vẫn có thể được sử dụng trong Google Analytics theo cách khác, chẳng hạn như tạo đoạn.
Sử dụng Regex trong Google Search Console
Một trong những cách sử dụng regex thú vị nhất cho SEO là lọc báo cáo Hiệu suất Google Search Console.
Trong Google Search Console, bạn có thể sử dụng biểu thức chính quy để lọc truy vấn hoặc trang khớp hoặc không khớp với các mẫu regex bạn xác định.
Google Search Console sử dụng cú pháp Re2 cho regex. Do đó, nó không hỗ trợ tất cả các cú pháp biểu thức chính quy. Tôi có một hướng dẫn đầy đủ về biểu thức chính quy GSC.
Điều này khá mạnh mẽ để (trong số các thứ khác) khám phá các truy vấn của bạn để xác định các câu hỏi mà người dùng có thể đặt, tìm kiếm các truy vấn đuôi dài hoặc tìm các URL trùng lặp tiềm năng.
Sử dụng Regex trong Screaming Frog
Screaming Frog liên tục xây dựng các tính năng tuyệt vời mà các chuyên gia SEO có thể sử dụng để nâng cao khả năng truy cập của mình. Một trong những tính năng này là khả năng sử dụng biểu thức chính quy để lọc các lần truy cập và tăng cường việc trích xuất tùy chỉnh.
Một ví dụ là trích xuất các thẻ GA hoặc GTM từ một trang để xem chúng đã hoặc chưa được thêm vào đúng cách.
Một ví dụ Regex khác được đưa ra bởi Screaming Frog là sử dụng biểu thức chính quy để trích xuất dữ liệu có cấu trúc.
Nhìn chung, bạn có thể thu thập bất kỳ thông tin nào bạn muốn từ HTML bằng cách sử dụng biểu thức chính quy với Screaming Frog.
Sử dụng Regex trong SQL
SQL hữu ích cho các chuyên gia SEO Doanh nghiệp để thực hiện các thao tác như truy vấn nhật ký máy chủ. Biểu thức chính quy cũng có thể được sử dụng trong SQL để truy vấn cơ sở dữ liệu.
Ví dụ, biểu thức chính quy có thể được sử dụng để lọc mySQL bằng REGEXP hoặc REGEXP_LIKE.
Sử dụng Regex trong Python
Người hâm mộ SEO sử dụng Python sử dụng Pandas để phân tích SEO có thể sử dụng biểu thức chính quy để lọc, khớp, thay thế hoặc trích xuất dữ liệu từ Dataframes.
Ví dụ về các biểu thức chính quy mà SEO có thể sử dụng trong Python Pandas.
Regex trong Datastudio (còn được gọi là Looker)
Các chuyên gia SEO có thể sử dụng biểu thức chính quy để lọc báo cáo trong Datastudio.
Ví dụ, nếu bạn phân tích Tìm kiếm Google Console trong Datastudio, bạn có thể sử dụng biểu thức chính quy để lọc báo cáo của bạn
Từ tài liệu của Google, đây là các công thức bạn có thể sử dụng trong các trường đã tính.
Cách sử dụng Regular Expressions
Biểu thức chính quy có thể được sử dụng để khớp các mẫu chuỗi trong văn bản. Ví dụ về các mẫu có thể được sử dụng trong Regex là:
Khớp Ký tự
Để khớp một hoặc nhiều ký tự, bạn có thể sử dụng các cờ như chúng ta vừa thấy. Bạn cũng có thể sử dụng ký tự đại diện hoặc các tập hợp ký hiệu cụ thể.
.
khớp bất kỳ ký tự nào. SE.
sẽ khớp với SEO
và SEM
;[aeiou]
khớp với một trong những nguyên âm đó. b[aiu]g sẽ khớp với bag
, big
và bug
. [aeiou]\g
sẽ khớp với nhiều nguyên âm;[a-z]
khớp với một dãy ký tự. Điều này sẽ khớp với bất kỳ ký tự viết thường nào trong bảng chữ cái. Để khớp với bất kỳ ký tự viết thường và in hoa nào, bạn có thể sử dụng [a-z]\i
hoặc [a-zA-Z]
;[0-9]
khớp với một dãy số từ 0 đến 9. Bạn có thể kết hợp regex để khớp với số và chữ cái như sau: [2-5b-h]
;^
chỉ khớp nếu bắt đầu bằng chuỗi đó. ^SEO.*
khớp với SEO is great
nhưng không khớp với I love SEO
.$
chỉ khớp nếu kết thúc bằng chuỗi đó. .*regex$
khớp với I love working with regex
, nhưng không khớp với regex are awesome
.Colou?r
cho biết ký tự trước đó “u” là tùy chọn. Nó khớp với cả Color
và Colour
.Lọc theo Logic OR / AND
Bạn muốn bao gồm một hoặc nhiều kết quả hoặc kết hợp nhiều điều kiện trong biểu thức chính quy của mình bằng cách sử dụng các toán tử logic OR.
Sử dụng ký hiệu |, bạn sẽ có thể khớp nhiều điều kiện.
Khi bạn cần TẤT CẢ các điều kiện phải đúng, bạn có thể kết hợp chúng bằng một phương thức thay thế cho toán tử AND bằng cách sử dụng mẫu .*(?=.*mẫu)(?=.*mẫu).*
Ví dụ:
python | seo
– Khớp: python HOẶC seo. Khớp: Python jobs, SEO jobs, Python for SEO..*(?=.*python)(?=.*seo).*<\/code> - Khớp: python VÀ seo. Khớp: Python for SEO, SEO with Python nhưng không khớp với SEO jobs.
Cú pháp AND không được hỗ trợ trong Google Analytics.
Bạn sẽ cần làm như sau.
Lặp lại Mẫu nhiều lần cần thiết với Quantifiers
Quantifiers, hoặc bộ chỉ thị số lượng, hữu ích để cho biết số lần bạn muốn lặp lại một ký tự. Điều này đại diện cho số lần mà thành phần trước có thể khớp.
Loại trừ Mẫu với Negated Character Sets
Khi bạn muốn tạo một tập hợp các ký tự mà bạn không muốn khớp, bạn cần sử dụng các tập hợp ký tự phủ định.
Để tạo chúng, bạn có thể sử dụng ký tự mũ trong một tập hợp ký tự ([^]).
[^]
khớp với chuỗi không bao gồm. [^aieou]
khớp với một ký tự không có trong danh sách [aeiou]
;Tìm chuỗi xung quanh Mẫu với Lookaheads
Lookaheads là các mẫu cho biết hãy nhìn vào chuỗi của bạn để kiểm tra các mẫu bạn xác định. Có hai loại Lookaheads: Lookahead tích cực ((?=)) và Lookahead tiêu cực ((?!)) .
Tìm Mẫu lớn nhất hoặc nhỏ nhất (Greedy và Lazy Matching)
Trong biểu thức chính quy, một khớp tham lam tìm phần dài nhất có thể của một chuỗi thỏa mãn regex. Một khớp lười biếng ngược lại. Nó tìm phần nhỏ nhất có thể của chuỗi khớp với regex.
.*
là một khớp tham lam vì nó khớp với bất kỳ điều gì. <.*>
sẽ khớp với <h1>This is HTML</h1>
?
là một khớp lười biếng. <.*?>
sẽ khớp với <h1>
Nhóm các thành phần của Biểu thức Chính quy
Bạn có thể nhóm các thành phần của Biểu thức Chính quy bằng cách sử dụng nhóm ngoặc (). Điều này được gọi là nhóm nắm bắt.
sam.*(hunt|jackson)
sẽ khớp với sam hunt
và samuel l. jackson
, nhưng không khớp với sammy davis jr.
Các Biểu thức Chính quy Hữu ích khác
(?<=[\/])\d{2,} Khớp với bất kỳ ID đã đánh số nào đi trước dấu gạch chéo.
^\s+|\s+$ Chọn tất cả khoảng trắng ở đầu và cuối một chuỗi. Điều này có thể hữu ích khi thực hiện xử lý dữ liệu.
(?<=\.)(.*?)(?=\.) Cho phép bạn trích xuất tên miền. Điều này sẽ khớp với bất kỳ chuỗi nào giữa hai dấu chấm.
(?<=string)(.*) Khớp với bất kỳ điều gì sau một chuỗi, loại trừ chuỗi đó. Hữu ích để làm sạch URL.
Cờ (không áp dụng cho GA hoặc GSC)
Cờ sẽ giúp bạn xác định loại ký tự để khớp. Bạn có thể muốn bỏ qua phân biệt chữ hoa khi khớp hoặc chỉ khớp số từ.
Để làm điều này, bạn cần kết thúc regex của mình bằng một cờ như sau:
google\i
Khớp với google và Google.
Các cờ hữu ích nhất là:
\i
không phân biệt chữ hoa;\g
khớp nhiều lần (JavaScript);\d
khớp với một chữ số từ 0 đến 9;\w
khớp với ký tự ASCII, chữ số hoặc dấu gạch dưới. Nó giống với [A-Za-z0-9_]\g
;\s
khớp với khoảng trắng;\D
khớp với bất kỳ ký tự nào không phải là chữ số từ 0 đến 9;\W
khớp với bất kỳ ký tự nào không phải là ký tự ASCII, chữ số hoặc dấu gạch dưới;\S
khớp với bất kỳ ký tự nào không phải là khoảng trắng.Kiểm tra Biểu thức Chính quy của bạn
Dưới đây là ba trang web để kiểm tra, lưu và chia sẻ các biểu thức chính quy của bạn.
Ví dụ Biểu thức Chính quy
Các Khối Xây dựng của một Biểu thức Chính quy
Các biểu thức chính quy được tạo bằng cách kết hợp các ký tự đặc biệt và các ký tự thực.
Các Ký tự Đặc biệt
Các ký tự đặc biệt là những gì mang lại sức mạnh đầy đủ cho một biểu thức chính quy.
Dưới đây là một bảng mô tả các ký tự đặc biệt phổ biến nhất của Regex.
Escaping Các Ký tự Đặc biệt
Các ký tự đặc biệt có thể được thoát bằng cách sử dụng ký tự gạch chéo (\).
Vì vậy, nếu trong một chuỗi bạn muốn dấu hỏi (?) được coi là chữ cái, bạn có thể thoát nó bằng cách sử dụng ký tự gạch chéo như sau.
Toán tử Regex
Các toán tử biểu thức chính quy có thể được nhóm trong các danh mục khác nhau như:
Điểm neo
Điểm neo trong biểu thức chính quy thuộc vào họ của các biểu thức regex không khớp với các ký tự, mà kiểm tra xem vị trí trong chuỗi có khớp với vị trí được xác định (ví dụ: cuối chuỗi).
Điều này khác với ranh giới trong việc xác định những gì có thể khớp với bên trái và bên phải của vị trí.
Dưới đây là các điểm neo:
Ranh giới
Ranh giới regex khớp với vị trí mà ở bên trái của vị trí là ký tự được xác định và bên phải không phải là ký tự được xác định.
Ví dụ về ranh giới:
Ký tự đại diện
Ký tự đại diện trong regex khớp với một hoặc nhiều ký tự mà không nói rõ ký tự đó là gì. Ví dụ:
Tập hợp ký tự và khoảng ký tự
Trong biểu thức chính quy, bạn có thể biểu thị tập hợp ký tự và khoảng ký tự bằng cách sử dụng dấu ngoặc vuông []. Với tập hợp ký tự, chúng ta có thể liệt kê các ký tự được xem xét trong biểu thức. Ví dụ: d[oi]g sẽ khớp với dog và dig.
Chúng ta cũng có thể tạo khoảng ký tự bằng cách sử dụng ký hiệu gạch ngang (-). Điều này sẽ khớp với các dãy ký tự. Dưới đây là một số ví dụ:
Các khoảng ký tự cũng có thể được kết hợp.
Nhóm ký tự
Ký tự có thể được nhóm bằng cách sử dụng dấu ngoặc đơn ().
Ví dụ, biểu thức chính quy sau sẽ khớp với cả "I love regex" và "I love seo".
Câu hỏi thường gặp về Regex cho SEO
Regex có nghĩa là gì?
Biểu thức Chính quy, còn được gọi là regex, là một cách mạnh mẽ để tìm kiếm và xử lý chuỗi văn bản.
Tại sao biểu thức chính quy được gọi là "biểu thức chính quy"?
Tên biểu thức chính quy xuất phát từ công việc của Stephen Kleene, người đã phát triển các biểu thức chính quy theo cách để mô tả "đại số của các tập hợp chính quy".
Ý nghĩa của '^' và '$' trong regex là gì?
Dấu caret khớp với đầu chuỗi và dấu dollar khớp với cuối chuỗi.
Loại regex nào được Google Analytics và Google Search Console sử dụng?
Cả Google Analytics và Google Search Console đều sử dụng cú pháp Re2.
Mẫu regex là gì?
Mẫu regex bao gồm một hoặc nhiều ký tự và được sử dụng bởi một trình biểu thức chính quy để khớp với văn bản đầu vào.
Hãy xem bài thuyết trình của Paul Shapiro về Biểu thức Chính quy.
Để tìm hiểu thêm về SEO kỹ thuật, tôi đề nghị bạn bắt đầu học Python.
Kết luận
Bây giờ bạn đã biết tất cả về Regex cho SEO. Bài giới thiệu về biểu thức chính quy cho SEO này đã giúp bạn nâng cao kỹ năng phân tích dữ liệu của mình.
Tìm hiểu thêm về chúng tôi tại: TRANHUNG Digital
Chuyên gia Chiến lược SEO tại Tripadvisor, cựu nhân viên Seek (Melbourne, Australia). Chuyên gia về SEO kỹ thuật. Tác giả về Python, Truy xuất Thông tin, SEO và học máy. Tác giả khách mời tại SearchEngineJournal, SearchEngineLand và OnCrawl.
Nguồn tham khảo: https://www.jcchouinard.com/regex-for-seo/