文章目錄
- 一、正則表達式
- 二、正則表達式的基本語法
- 字符類
- 普通字符
- 非打印字符
- 特殊字符
- 量詞限定符
- 錨點
- 修飾符(標記)
- 三、在 Python 中使用正則表達式
- 簡單搜索
- 提取信息
- 替換文本
- 參考
從驗證用戶輸入,到從大量文本中提取特定信息,再到進行復雜的文本替換, 正則表達式搜索憑借其強大的模式匹配能力。軟件RegexBuddy安裝介紹參考[2]
一、正則表達式
正則表達式,簡而言之,是一種用于描述字符串模式的語法。這些模式可以非常簡單,比如匹配一個特定的字符或字符串;也可以極為復雜,組合多個字符類、量詞和運算符,以匹配各種復雜的文本模式。在 Python、JavaScript 等編程語言中,都內建了對正則表達式的支持,方便開發者使用。
二、正則表達式的基本語法
字符類
普通字符
字符類允許我們匹配一類字符中的任意一個。
字符 | 描述 |
---|---|
[abc] | 匹配 a、b 或 c 中的任意一個字符,方括號內可以使用連字符 - 表示范圍 |
[^abc] | 匹配 除a、b 或 c 中的所有字符 |
[0-9] | 表示匹配任意一個數字 |
[A-Z] | 匹配任意一個大寫字母 |
[\s\S] | 匹配所有。 \s是匹配所有空白符,包括換行;\S非空白符,不包括換行 |
\w | 匹配字母、數字、下環線。等價于[A-Za-z0-9_] |
非打印字符
字符 | 描述 |
---|---|
\cx | 匹配由x指明的控制字符。例如, \cM 匹配一個 Control-M 或回車符。x 的值必須為 A-Z 或 a-z 之一。否則,將 c 視為一個原義的 ‘c’ 字符 |
\f | 匹配一個換頁符。等價于 \x0c 和 \cL |
\n | 匹配一個換行符。等價于 \x0a 和 \cJ |
\r | 匹配一個回車符。等價于 \x0d 和 \cM |
\s | 匹配任何空白字符,包括空格、制表符、換頁符等等。等價于 [ \f\n\r\t\v]。注意 Unicode 正則表達式會匹配全角空格符 |
\S | 匹配任何非空白字符。等價于 [^ \f\n\r\t\v] |
\t | 匹配一個制表符。等價于 \x09 和 \cI |
\v | 匹配一個垂直制表符。等價于 \x0b 和 \cK |
特殊字符
字符 | 描述 |
---|---|
$ | 匹配輸入字符串的結尾位置。如果設置了 RegExp 對象的 Multiline 屬性,則 $ 也匹配 ‘\n’ 或 ‘\r’。 |
( ) | 標記一個子表達式的開始和結束位置。子表達式可以獲取供以后使用 |
. | 匹配除換行符 \n 之外的任何單字符 |
[ | 標記一個中括號表達式的開始 |
\ | 將下一個字符標記為或特殊字符、或原義字符、或向后引用、或八進制轉義符。例如, ‘n’ 匹配字符 ‘n’。‘\n’ 匹配換行符 |
^ | 匹配輸入字符串的開始位置,除非在方括號表達式中使用,當該符號在方括號表達式中使用時,表示不接受該方括號表達式中的字符集合 |
{ | 標記限定符表達式的開始 |
| | 指明兩項之間的一個選擇 |
量詞限定符
限定符用來指定正則表達式的一個給定組件必須要出現多少次才能滿足匹配。有 ***** 或 + 或 ? 或 {n} 或 {n,} 或 {n,m} 共6種。
字符 | 描述 |
---|---|
* | 匹配前面的子表達式零次或多次。例如,zo* 能匹配 “z” 以及 “zoo”。* 等價于{0,}。 |
+ | 匹配前面的子表達式一次或多次。例如,‘zo+’ 能匹配 “zo” 以及 “zoo”,但不能匹配 “z”。+ 等價于 {1,}。 |
? | 匹配前面的子表達式零次或一次。例如,“do(es)?” 可以匹配 “do” 、 “does” 中的 “does” 、 “doxy” 中的 “do” 。? 等價于 {0,1}。 |
{n} | n 是一個非負整數。匹配確定的 n 次。例如,‘o{2}’ 不能匹配 “Bob” 中的 ‘o’,但是能匹配 “food” 中的兩個 o。 |
{n,} | n 是一個非負整數。至少匹配n 次。例如,‘o{2,}’ 不能匹配 “Bob” 中的 ‘o’,但能匹配 “foooood” 中的所有 o。‘o{1,}’ 等價于 ‘o+’。‘o{0,}’ 則等價于 ‘o*’。 |
{n,m} | m 和 n 均為非負整數,其中n <= m。最少匹配 n 次且最多匹配 m 次。例如,“o{1,3}” 將匹配 “fooooood” 中的前三個 o。‘o{0,1}’ 等價于 ‘o?’。請注意在逗號和兩個數之間不能有空格。 |
* 和 +限定符都是貪婪的,它們會盡可能多的匹配文字,但在它們的后面加上一個 ? 就可以實現非貪婪或最小匹配。
錨點
錨點用于指定匹配的位置。
字符 | 描述 |
---|---|
^ | 表示匹配字符串的開頭 |
$ | 表示匹配字符串的結尾 |
\b | 陪陪單詞邊界,即單詞與空格間的位置 |
\B | 非單詞邊界匹配 |
比如,^hello 只匹配以 hello 開頭的字符串,world$ 只匹配以 world 結尾的字符串。
注意:不能將限定符與定位符一起使用。由于在緊靠換行或者單詞邊界的前面或后面不能有一個以上位置,因此不允許諸如 ^* 之類的表達式。
修飾符(標記)
標記也稱為修飾符,正則表達式的標記用于指定額外的匹配策略。
標記不寫在正則表達式里,標記位于表達式之外,格式如下:
/pattern/flags
修飾符 | 描述 |
---|---|
i | ignore - 不區分大小寫 將匹配設置為不區分大小寫,搜索時不區分大小寫: A 和 a 沒有區別。 |
g | global - 全局匹配 查找所有的匹配項。 |
m | multi line - 多行匹配 使邊界字符 ^ 和 $ 匹配每一行的開頭和結尾,記住是多行,而不是整個字符串的開頭和結尾。 |
s | 特殊字符圓點 . 中包含換行符 \n 默認情況下的圓點 . 是 匹配除換行符 \n 之外的任何字符,加上 s 修飾符之后, . 中包含換行符 \n。 |
三、在 Python 中使用正則表達式
Python 通過 re 模塊支持正則表達式操作。下面我們通過幾個示例來展示如何在 Python 中使用正則表達式進行搜索。
簡單搜索
import retext = "The quick brown fox jumps over the lazy dog."
match = re.search(r"fox", text)
if match:print(f"找到匹配項:{match.group()}")
在上述代碼中,re.search 函數在字符串 text 中搜索模式 fox,如果找到匹配項,就打印出匹配的內容。
提取信息
假如我們有一個包含日期的字符串,格式為 YYYY - MM - DD,想提取出年、月、日的信息。
date_text = "2023-05-15"
match = re.match(r"(\d{4})-(\d{2})-(\d{2})", date_text)
if match:year, month, day = match.groups()print(f"年:{year},月:{month},日:{day}")
re.match 函數從字符串開頭進行匹配,圓括號 () 用于分組,match.groups() 方法可以獲取每個分組匹配到的內容。
替換文本
正則表達式還能方便地進行文本替換。
text = "舊文本,舊文本,需要替換的舊文本"
new_text = re.sub(r"舊文本", "新文本", text)
print(new_text)
re.sub 函數將字符串 text 中所有匹配 舊文本 的部分替換為 新文本。
參考
[1] https://blog.csdn.net/Jack0610/article/details/134810112
[2] https://blog.csdn.net/qq_22889431/article/details/140340565