正則表達式
概念:正則表達式是用來進行文本處理的技術,是語言無關的,在幾乎所有語言中都有實現
元字符:
1、.:匹配除\n之外的任何單個字符。例如正則表達式“b.g”能匹配如下字符串:“big”、“bug”、“b g”,但是不匹配“buug”,“b..g”可以匹配“buug”。 ?
2、[ ] :字符組,匹配括號中的任何一個字符(范圍,字符集合)。例如正則表達式“b[aui]g”匹配bug、big和bag,但是不匹配beg、baug。可以在括號中使用連字符“-”來指定字符的區間來簡化表示,例如正則表達式[0-9]可以匹配任何數字字符,這樣正則表達式“a[0-9]c”等價于“a[0123456789]c”就可以匹配“a0c”、“a1c”、“a2c”等字符串;還可以制定多個區間,例如“[A-Za-z]”可以匹配任何大小寫字母,“[A-Za-z0-9]”可以匹配任何的大小寫字母或者數字。
3、| :將兩個匹配條件進行邏輯“或”運算。‘z|food’ 能匹配 “z” 或 “food”。‘(z|f)ood’ 則匹配 “zood” 或 “food”。
4、( ) :將 () 之間括起來的表達式定義為“組”(group),并且將匹配這個表達式的字符保存到一個臨時區域,這個元字符在字符串提取的時候非常有用。把一些字符表示為一個整體。改變優先級、定義提取組兩個作用。
限定符:限定前面正則表達式出現的次數
1、*:匹配0至多個在它之前的子表達式。等價于{0,}。例如正則表達式“zo*”(等同于z(o)*)能匹配 “z” 、“zo”以及 “zoo”;因此“.*”意味著能夠匹配任意字符串。"z(b|c)*"→zb、zbc、zcb、zccc、zbbbccc。"z(ab)*"能匹配z、zab、zabab(用括號改變優先級)。
2、+ :匹配前面的子表達式一次或多次,和*對比(0到多次)。等價于{1,}例如正則表達式9+匹配9、99、999等。 “zo+”能匹配 “zo”以及 “zoo” ,不能匹配"z"。
3、? :匹配前面的子表達式零次或一次。等價于:{0,1}例如,“do(es)?” 可以匹配 “do” 或 “does” 。【colou?r、favou?r】一般用來匹配“可選部分”。(終止貪婪模式)
4、{n} :匹配確定的 n 次。“zo{2}”→zoo。例如,“e{2}” 不能匹配“bed”中的“e”,但是能匹配“seed”中的兩個“e”。 //seeeed,不可以。
5、{n,} :至少匹配n次。例如,“e{2,}”不能匹配“bed”中的“e”,但能匹配 “seeeeeeeed”中的所有“e”。?
6、{n,m} :最少匹配 n 次且最多匹配 m 次。“e{1,3}”將匹配“seeeeeeeed”中的前三個“e”。 {2,5}//bed,seed,seeed;beeeeed錯誤。
7、^(shift+6) :匹配一行的開始。例如正則表達式“^regex”能夠匹配字符串“regex我會用”的開始,但是不能匹配“我會用regex”。 ?
8、$(shift+4) :匹配行結束符。例如正則表達式“浮云$” 能夠匹配字符串“一切都是浮云”的末尾,但是不能匹配字符串“浮云呀” ?
正則簡寫表達式:
\d:代表一個數字,等同于[0-9] ? \\d ?→\d
\D:代表非數字,等同于[^0-9]
\s:代表換行符、Tab制表符等空白字符 ,(空格、回車、制表符)
\S:代表非空白字符(a0%$@@)
\w:匹配字母或數字或下劃線或漢字,即能組成單詞的字符。如果通過 ECMAScript 選項指定了符合 ECMAScript 的行為,則 \w 等效于 [a-zA-Z_0-9]。 ?^$()!@#$%^&*()
\W:非\w ,等同于[^\w] %
\b:單詞的邊界(一邊是單詞(\w),一邊不是單詞。(\W))。Hello ni hao,are you kidding? D-Day?
正則表達式(Regular Expression)的主要類:Regex
常用的3種情況:(C#語法)
判斷是否匹配:Regex.IsMatch(“字符串”,”正則表達式”);
字符串提取:Regex.Match(“字符串”,“要提取的字符串的正則表達式”);//只能提取一個(提取一次)
字符串提取(循環提取所有): Regex.Matches(),(可以提取所有匹配的字符串。)
字符串替換:Regex.Replace(“字符串”,”正則”,”替換內容”);
Regex.Split();
貪婪模式&&非貪婪模式
貪婪模式演示:(當提取多個超鏈接的時候)
“1111。11。111。111111。”
貪婪:.+。(默認為貪婪模式,盡可能的多匹配。)
非貪婪:.+?。(盡可能的少匹配,(1個。))
從文本提取出名字:
Match match = Regex.Match("大家好。我是S.H.E。我22歲了。我病了,嗚嗚。fffff", "我是(.+)。");//沒有加^$。
看結果。+、*的匹配默認是貪婪(greedy)的:盡可能多的匹配,直到“再貪婪一點兒”其后的匹配模式就沒法匹配為止。
在+、*后添加?就變成非貪婪模式(? 的另外一個用途):讓其后的匹配模式盡早的匹配。修改成"我是(.+?)。"
一般開發的時候不用刻意去修飾為非貪婪模式,只有遇到bug的時候發現是貪婪模式的問題再去解決。如果匹配的結果比自己預想的要多,那么一般都是貪婪模式的原因。
匹配組
正則表達式可以從一段文本中將所有符合匹配的內容都輸出出來。Match獲得的是匹配的第一個。Regex.Matches方法可以獲得所有的匹配項。
字符串替換
Regex.Replace,將字符串中匹配的內容替換為指定的內容
將所有連續的a替換為一個A(原需求:把連續的空格替換為一個空格):
string s = Regex.Replace(“你aaa好aa哈哈a你”, “a+", "A");
刪除所有連續的a,其實就是將連續的a替換為空字符串。