C#知識點-17（正則表達式）

正則表達式

概念：正則表達式是用來進行文本處理的技術，是語言無關的，在幾乎所有語言中都有實現

元字符：

1、.：匹配除\n之外的任何單個字符。例如正則表達式“b.g”能匹配如下字符串：“big”、“bug”、“b g”，但是不匹配“buug”，“b..g”可以匹配“buug”。 ?

2、[ ] ：字符組，匹配括號中的任何一個字符（范圍,字符集合）。例如正則表達式“b[aui]g”匹配bug、big和bag，但是不匹配beg、baug。可以在括號中使用連字符“-”來指定字符的區間來簡化表示，例如正則表達式[0-9]可以匹配任何數字字符，這樣正則表達式“a[0-9]c”等價于“a[0123456789]c”就可以匹配“a0c”、“a1c”、“a2c”等字符串；還可以制定多個區間，例如“[A-Za-z]”可以匹配任何大小寫字母，“[A-Za-z0-9]”可以匹配任何的大小寫字母或者數字。

3、| ：將兩個匹配條件進行邏輯“或”運算。‘z|food’ 能匹配 “z” 或 “food”。‘(z|f)ood’ 則匹配 “zood” 或 “food”。

4、( ) ：將 () 之間括起來的表達式定義為“組”(group)，并且將匹配這個表達式的字符保存到一個臨時區域,這個元字符在字符串提取的時候非常有用。把一些字符表示為一個整體。改變優先級、定義提取組兩個作用。

限定符：限定前面正則表達式出現的次數

1、*：匹配0至多個在它之前的子表達式。等價于{0,}。例如正則表達式“zo*”（等同于z(o)*）能匹配 “z” 、“zo”以及 “zoo”；因此“.*”意味著能夠匹配任意字符串。"z(b|c)*"→zb、zbc、zcb、zccc、zbbbccc。"z(ab)*"能匹配z、zab、zabab（用括號改變優先級）。

2、+ ：匹配前面的子表達式一次或多次，和*對比（0到多次）。等價于{1,}例如正則表達式9+匹配9、99、999等。 “zo+”能匹配 “zo”以及 “zoo” ，不能匹配"z"。

3、? ：匹配前面的子表達式零次或一次。等價于：{0,1}例如，“do(es)?” 可以匹配 “do” 或 “does” 。【colou?r、favou?r】一般用來匹配“可選部分”。（終止貪婪模式）

4、{n} ：匹配確定的 n 次。“zo{2}”→zoo。例如，“e{2}” 不能匹配“bed”中的“e”，但是能匹配“seed”中的兩個“e”。 //seeeed,不可以。

5、{n,} :至少匹配n次。例如，“e{2,}”不能匹配“bed”中的“e”，但能匹配 “seeeeeeeed”中的所有“e”。?

6、{n,m} ：最少匹配 n 次且最多匹配 m 次。“e{1,3}”將匹配“seeeeeeeed”中的前三個“e”。 {2,5}//bed,seed,seeed;beeeeed錯誤。

7、^（shift+6）：匹配一行的開始。例如正則表達式“^regex”能夠匹配字符串“regex我會用”的開始，但是不能匹配“我會用regex”。 ?

8、$（shift+4）：匹配行結束符。例如正則表達式“浮云$” 能夠匹配字符串“一切都是浮云”的末尾，但是不能匹配字符串“浮云呀” ?

正則簡寫表達式：

\d：代表一個數字，等同于[0-9] ? \\d ?→\d
\D：代表非數字，等同于[^0-9]
\s：代表換行符、Tab制表符等空白字符 ,(空格、回車、制表符)
\S：代表非空白字符（a0%$@@）
\w：匹配字母或數字或下劃線或漢字，即能組成單詞的字符。如果通過 ECMAScript 選項指定了符合 ECMAScript 的行為，則 \w 等效于 [a-zA-Z_0-9]。 ?^$()!@#$%^&*()
\W：非\w ，等同于[^\w] %
\b：單詞的邊界（一邊是單詞（\w），一邊不是單詞。（\W））。Hello ni hao,are you kidding? D-Day?

正則表達式（Regular Expression）的主要類：Regex
常用的3種情況：（C#語法）
判斷是否匹配：Regex.IsMatch(“字符串”,”正則表達式”);
字符串提取：Regex.Match(“字符串”,“要提取的字符串的正則表達式”);//只能提取一個（提取一次）
字符串提取(循環提取所有)： Regex.Matches()，（可以提取所有匹配的字符串。）
字符串替換：Regex.Replace(“字符串”,”正則”,”替換內容”);
Regex.Split();

貪婪模式&&非貪婪模式

貪婪模式演示：（當提取多個超鏈接的時候）
“1111。11。111。111111。”
貪婪：.+。(默認為貪婪模式，盡可能的多匹配。)
非貪婪：.+?。（盡可能的少匹配，（1個。））
從文本提取出名字：
Match match = Regex.Match("大家好。我是S.H.E。我22歲了。我病了，嗚嗚。fffff", "我是(.+)。");//沒有加^$。
看結果。+、*的匹配默認是貪婪(greedy)的：盡可能多的匹配，直到“再貪婪一點兒”其后的匹配模式就沒法匹配為止。
在+、*后添加?就變成非貪婪模式（? 的另外一個用途）：讓其后的匹配模式盡早的匹配。修改成"我是(.+?)。"
一般開發的時候不用刻意去修飾為非貪婪模式，只有遇到bug的時候發現是貪婪模式的問題再去解決。如果匹配的結果比自己預想的要多，那么一般都是貪婪模式的原因。

匹配組

正則表達式可以從一段文本中將所有符合匹配的內容都輸出出來。Match獲得的是匹配的第一個。Regex.Matches方法可以獲得所有的匹配項。

字符串替換

Regex.Replace，將字符串中匹配的內容替換為指定的內容

將所有連續的a替換為一個A（原需求：把連續的空格替換為一個空格）：

string s = Regex.Replace(“你aaa好aa哈哈a你”, “a+", "A");

刪除所有連續的a，其實就是將連續的a替換為空字符串。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/696206.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/696206.shtml
英文地址，請注明出處：http://en.pswp.cn/news/696206.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！