re模塊
re(正則)簡介
? 正則就是用一些具有特殊含義的符號組合到一起(稱為正則表達式)來描述字符或者字符串的方法。或者說:正則就是用來描述一類事物的規則。
re元字符
元字符 | 匹配內容 |
---|---|
\w | 匹配字母(包含中文)或數字或下劃線 |
\W | 匹配非字母(包含中文)或數字或下劃線 |
\s | 匹配任意的空白符 |
\S | 匹配任意非空白符 |
\d | 匹配數字 |
\D | 匹配非數字 |
\A | 從字符串開頭匹配 |
\n | 匹配一個換行符 |
\t | 匹配一個制表符 |
^ | 匹配字符串的開始 |
$ | 匹配字符串的結尾 |
. | 匹配任意字符,除了換行符,當re.DOTALL標記被指定時,則可以匹配包括換行符的任意字符。 |
[...] | 匹配字符組中的字符 |
[^] | 匹配除了字符組中的字符的所有字符 |
* | 匹配0個或者多個左邊的字符。 |
+ | 匹配一個或者多個左邊的字符。 |
? | 匹配0個或者1個左邊的字符,非貪婪方式。 |
{n} | 精準匹配n個前面的表達式。 |
{n,m} | 匹配n到m次由前面的正則表達式定義的片段,貪婪方式 |
a|b | 匹配a或者b |
() | 匹配括號內的表達式,也表示一個組 |
s = "meet 黑哥_dsb"
print(re.findall("\w",s))
# 結果:['m', 'e', 'e', 't', '黑', '哥', '_', 'd', 's', 'b']
s = "meet @黑哥!_dsb"
print(re.findall("\W",s))
# 結果:[' ', '@', '!']
s = "meet 黑哥\n_dsb\t"
print(re.findall("\s",s))
# 結果:[' ', '\n', '\t']
s = "meet 黑哥\n_dsb\t"
print(re.findall("\S",s))
# 結果:['m', 'e', 'e', 't', '黑', '哥', '_', 'd', 's', 'b']
s = "meet1 黑哥2_dsb3"
print(re.findall("\d",s))
# 結果:['1', '2', '3']
s = "meet1 黑哥2_dsb3"
print(re.findall("\D",s))
# 結果:['m', 'e', 'e', 't', ' ', '黑', '哥', '_', 'd', 's', 'b']
s = "meet 黑哥_dsb"
print(re.findall("\Am",s))
print(re.findall("\Ad",s))
# 結果:
['m']
[]
s = "meet \n黑哥\t_\ndsb"
print(re.findall("\n",s))
# 結果:
['\n', '\n']
s = "meet \n黑哥\t_\ndsb"
print(re.findall("\t",s))
# 結果:
['\t']
s = "meet 黑哥_dsb"
print(re.findall("^m",s))
print(re.findall("^d",s))
# 結果:
['m']
[]
s = "meet 黑哥_dsb"
print(re.findall("b$",s))
print(re.findall("sb$",s))
# 結果:
['b']
['sb']
s = "meet 黑哥_dsb"
print(re.findall("m..",s))
# 結果:['mee']
s = "meet1 黑哥2_dsb3"
print(re.findall("[1-3]",s))
# 結果:['1', '2', '3']
s = "meet1 黑哥2_dsb3"
print(re.findall("[^(1-3)]",s))
# 結果:['m', 'e', 'e', 't', ' ', '黑', '哥', '_', 'd', 's', 'b']
s = "meet 黑m哥_dsb meet meee"
print(re.findall("me*",s))
# 結果:['mee', 'm', 'mee', 'meee']
s = "meet 黑m哥_dsb meet meee"
print(re.findall("me+",s))
# 結果:['mee', 'mee', 'meee']
s = "meet 黑m哥_dsb meet meee"
print(re.findall("me*?",s))
print(re.findall("me+?",s))
# 結果:
['m', 'm', 'm', 'm']
['me', 'me', 'me']
s = "meet 黑m哥_dsb meet meee"
print(re.findall("e{3}",s))
# 結果:
['eee']
s = "meet 黑m哥_dsb meet meee"
print(re.findall("e{1,3}",s))
# 結果:
['ee', 'ee', 'eee']
s = "2019-7-26 20:30:30"
print(re.split(":|-|\s",s))
# 結果:
['2019', '7', '26', '20', '30', '30']
s = "meet 黑m哥_dsb meet meee"
print(re.findall("m(.*?)t",s))
# 結果:
['ee', '哥_dsb mee']
re模塊常用方法
findall 全部找到返回一個列表
search 從字符串中任意位置進行匹配查找到一個就停止了,返回的是一個對象. 獲取匹配的內容必須使用.group()進行獲取
import re print(re.search("sb|nb","alexsb meetnb")) print(re.search("sb|nb","alexsb meetnb").group()) # 結果 <_sre.SRE_Match object; span=(4, 6), match='sb'> sb
match 從字符串開始位置進行匹配
import re print()re.match("sb|nb","alexdsb,alex_sb,alexnb,al_ex") print(re.match("sb|nb","alexdsb,alex_sb,alexnb,al_ex").group()) # 結果: None AttributeError: 'NoneType' object has no attribute 'group' # 'NoneType'對象沒有屬性'group'
split 分隔 可按照任意分隔符進行分隔
import re s = "2019-7-26 20:30:30" print(re.split(":|-|\s",s)) # 結果: ['2019', '7', '26', '20', '30', '30']
sub 替換
import re s = "meet是一位好老師,meet教會了我們很多知識" print(re.sub("meet","蒼老師",s)) # 結果: 蒼老師是一位好老師,蒼老師教會了我們很多知識
compile 定義匹配規則
import re fn = "\d+" s = "太白123meet456" print(re.split(fn,s)) # 結果: ['太白', 'meet', '']
finditer 返回一個迭代器
import re s = "太白123" g = re.finditer("\w",s) for i in g:print(i)print(next(i)) # 結果: <_sre.SRE_Match object; span=(0, 1), match='太'> 太 <_sre.SRE_Match object; span=(1, 2), match='白'> 白 <_sre.SRE_Match object; span=(2, 3), match='1'> 1 <_sre.SRE_Match object; span=(3, 4), match='2'> 2 <_sre.SRE_Match object; span=(4, 5), match='3'> 3
給分組起名字
import re ret = re.search("<(?P<tag_name>\w+)>\w+</\w+>","<h1>hello</h1>") # 給分組1取名tag_name print(ret.group("tag_name")) print(ret.group()) # 結果: h1 <h1>hello</h1>import re ret = re.search(r"<(\w+)>\w+</\1>","<h1>hello</h1>") # \1填充分組1中的內容 print(ret.group(1)) print(ret.group()) # 結果: h1 <h1>hello</h1>