在本章里,你將學習如何與字符集合打交道。
與可以匹配任意單個字符的.字符(參見第2章)不同,字符集合能匹配特定的字符和字符區間。
3.1 匹配多個字符中的某一個
第2章介紹的.?字符,可以匹配任意單個字符。
當時在最后一個例子里,我們使用了.a?來匹配na?和sa?,使用了.?來匹配n?和s?。現在,如果在那份文件清單里增加了一個名為ca1.xls?的文件,而你仍只想找出na?和sa?,該怎么辦?別忘了.?也能匹配c?,所以文件名ca1.xls?也會被找出。
①看下面的例子
文本
sales1.xls
orders3.xls
sales2.xls
sales3.xls
apac1.xls
europe2.xls
na1.xls
na2.xls
sa1.xls
ca1.xls
正則表達式
.a.\.xls
結果
sales1.xls
orders3.xls
sales2.xls
sales3.xls
apac1.xls
europe2.xls
na1.xls
na2.xls
sa1.xls
ca1.xls
既然只想找出n?和s?,使用可以匹配任意字符的.顯然不行——我們需要的不是匹配任意字符,而是只匹配n?和s?這兩個字符。
在正則表達式里,我們可以使用元字符[?和]?來定義一個字符集合。只有該字符集合內的字符之一(但并非全部),才可以滿足匹配條件。
--PostgreSQL
with t1 as (
select 'sales1.xls' txt union all
select 'orders3.xl' txt union all
select 'sales2.xls' txt union all
select 'sales3.xls' txt union all
select 'apac1.xls' txt union all
select 'europe2.xl' txt union all
select 'na1.xls' txt union all
select 'na2.xls' txt union all
select 'sa1.xls' txt union all
select 'ca1.xls' txt
)
select * from t1
where txt ~ '.a.\.xls'
?
?
下面這個例子與第2章的最后一個例子相似,但在這次的正則表達式里使用了一個字符集合。
②看下面這個例子:
文本
sales1.xls
orders3.xls
sales2.xls
sales3.xls
apac1.xls
europe2.xls
na1.xls
na2.xls
sa1.xls
ca1.xls
正則表達式
[ns]a.\.xls
結果
sales1.xls
orders3.xls
sales2.xls
sales3.xls
apac1.xls
europe2.xls
na1.xls
na2.xls
sa1.xls
ca1.xls
分析
這里使用的正則表達式以[ns]?開頭,這個集合將只會匹配字符n?或s?之一(但不匹配字符c?或其他字符)。[?和]?不匹配任何字符,它們只負責定義一個字符集合。
接下來,正則表達式里的普通字符a?匹配字符a?,.?匹配一個任意字符,\.?匹配.?字符本身,普通字符xls?匹配字符串xls?。
從結果上看,這個模式只匹配了3個文件名,與我們的預期完全一致。
注意 雖然結果正確,但模式[ns]a.\.xls?并非完全正確。假如那份文件清單里還有一個名為usa1.xls?的文件,它也會被匹配出來(開頭的u會被忽略,匹配剩余的sal.xls?)。這里涉及了位置匹配問題,我們將在第6章對此做專題討論。
提示 正如看到的那樣,對正則表達式進行測試是很有技巧的。驗證某個模式能不能獲得預期的匹配結果并不困難,但如何驗證它不會匹配到你不想要的東西,可就沒那么簡單了。
with t1 as (
select 'sales1.xls' txt union all
select 'orders3.xl' txt union all
select 'sales2.xls' txt union all
select 'sales3.xls' txt union all
select 'apac1.xls' txt union all
select 'europe2.xl' txt union all
select 'na1.xls' txt union all
select 'na2.xls' txt union all
select 'sa1.xls' txt union all
select 'ca1.xls' txt
)
select * from t1
where txt ~ '[ns]a.\.xls'
?
字符集合,在不需要區分字母大小寫(或者是只需匹配某個特定部分)的搜索操作里,比較常見。
③比如說:
文本
The phrase "regular expression" is often
abbreviated as RegEx or regex.
正則表達式
[Rr]eg[Ee]x
結果
The phrase "regular expression" is often
abbreviated as RegEx or regex.
分析
這里使用的模式包含兩個字符集合:[Rr]?負責匹配字母R?和r?,[Ee]?負責匹配字母E?和e?。這個模式可以匹配RegEx?和regex?,但不匹配REGEX?。
提示 如果你打算進行一次不需要區分字母大小寫的匹配,不使用這個技巧也能達到目的。這種模式最適合用在從全局看需要區分字母大小寫,但在某個局部不需要區分字母大小寫的搜索操作里。
--PostgreSQL
--將RegEx、regex、Regex or regEx,全部識別出來,并替換為XXXXX
with t1 as (
select 'The phrase "regular expression" is often' txt
union all
select 'abbreviated as RegEx or regex.'
)
select txt,regexp_replace(txt,'[Rr]eg[Ee]x','XXXXX','g')
from t1
where regexp_replace(txt,'[Rr]eg[Ee]x','XXXXX','g')
?
3.2 利用字符集合區間
我們再來仔細看看,那個從一份文件清單里找出特定文件的例子。
我們剛才使用的模式[ns]a.\.xls?還存在另外一個問題。如果那份文件清單里有一個名為sam.xls?的文件,結果會怎樣?顯然,因為.?可以匹配所有的字符,而不是僅限于數字,所以文件sam.xls?也會出現在匹配結果里。
這個問題可以用一個包含全部數字的字符集合來解決。
①看如下例子:
文本
sales1.xls
orders3.xls
sales2.xls
sales3.xls
apac1.xls
europe2.xls
sam.xls
na1.xls
na2.xls
sa1.xls
ca1.xls
正則表達式
[ns]a[0123456789]\.xls
結果
sales1.xls
orders3.xls
sales2.xls
sales3.xls
apac1.xls
europe2.xls
sam.xls
na1.xls
na2.xls
sa1.xls
ca1.xls
分析
在這個例子里,我們改用了另外一個模式,這個模式的匹配對象是:第一個字符必須是n?或s?,第二個字符必須是a?,第三個字符可以是任何一個數字(因為我們使用了字符集合[0123456789]?)。注意,文件名sam.xls?沒有出現在匹配結果里,這是因為m?與我們給定的字符集合(10個數字)不相匹配。
with t1 as (
select 'sales1.xls' txt union all
select 'orders3.xl' txt union all
select 'sales2.xls' txt union all
select 'sales3.xls' txt union all
select 'apac1.xls' txt union all
select 'europe2.xl' txt union all
select 'na1.xls' txt union all
select 'na2.xls' txt union all
select 'sa1.xls' txt union all
select 'ca1.xls' txt
)
select * from t1
where txt ~ '[ns]a[0123456789]\.xls'
?
在使用正則表達式的時候,會頻繁地用到一些字符區間(0~9?、A~Z?等)。為了簡化字符區間的定義,正則表達式提供了一個特殊的元字符:可以用-?(連字符)來定義字符區間。
②下面還是剛才那個例子,但我們這次使用了字符區間:
文本
sales1.xls
orders3.xls
sales2.xls
sales3.xls
apac1.xls
europe2.xls
sam.xls
na1.xls
na2.xls
sa1.xls
ca1.xls
正則表達式
[ns]a[0-9]\.xls
結果
sales1.xls
orders3.xls
sales2.xls
sales3.xls
apac1.xls
europe2.xls
sam.xls
na1.xls
na2.xls
sa1.xls
ca1.xls
分析
模式[0-9]?的功能與[0123456789]?完全等價,所以這次的匹配結果與剛才那個例子一模一樣。
字符區間并不僅限于數字,以下這些都是合法的字符區間。
?A-Z?,匹配從A?到Z?的所有大寫字母。
?a-z?,匹配從a?到z?的所有小寫字母。
?A-F?,匹配從A?到F?的所有大寫字母。
?A-z?,匹配從ASCII字符A?到ASCII字符z?的所有字母。這個模式一般不常用,因為它還包含[?和^?等在ASCII字符表里排列在Z?和a?之間的字符。
字符區間的首、尾字符可以是ASCII字符表里的任意字符。但在實際工作中,最常用的字符區間還是數字字符區間和字母字符區間。
提示 在定義一個字符區間的時候,一定要避免讓這個區間的尾字符小于它的首字符。例如[3-1]?,這種區間是沒有意義的,而且往往會讓整個模式失效。
注意 -??(連字符)是一個特殊的元字符,它只有出現在[??和]??之間的時候才是元字符。在字符集合以外的地方,-?只是一個普通字符,只能與-本身相匹配。因此,在正則表達式里,-字符不需要被轉義。
在同一個字符集合里可以給出多個字符區間。比如說,下面這個模式可以匹配任何一個字母(無論大小寫)或數字,但除此以外的其他字符(既不是數字也不是字母的字符)都不匹配:
[A-Za-z0-9]
這個模式是下面這個字符集合的簡寫形式:
[ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz0123456789]
如你所見,字符范圍使得正則表達式的語法變得簡潔多了。
with t1 as (
select 'sales1.xls' txt union all
select 'orders3.xl' txt union all
select 'sales2.xls' txt union all
select 'sales3.xls' txt union all
select 'apac1.xls' txt union all
select 'europe2.xl' txt union all
select 'na1.xls' txt union all
select 'na2.xls' txt union all
select 'sa1.xls' txt union all
select 'ca1.xls' txt
)
select * from t1
where txt ~ '[ns]a[0-9]\.xls'
?
?
下面是另一個例子,這次要查找的是RGB值(用一個十六進制數字給出的紅、綠、藍三基色的組合值,計算機可以根據RGB值把有關的文字或圖象顯示為由這三種顏色按給定比例調和出來的色彩)。
在網頁里,RGB值是以#開頭,類似000000(黑色)、ffffff(白色)、ff0000(紅色)這樣,6位a~f的字母或數字結尾的形式。RGB值用大寫或小寫字母給出均可,所以FF00ff(品紅色)也是合法的RGB值。
③下面是取自CSS文件中的一個例子:
文本
div {background-color: #fefbd8;
}
h1 {background-color: #0000ff;
}
div {background-color: #d0f4e6;
}
span {background-color: #f08970;
}
正則表達式
#[0-9A-Fa-f][0-9A-Fa-f][0-9A-Fa-f][0-9A-Fa-f][0-9A-Fa-f][0-9A-Fa-f]
結果
div {
background-color: #fefbd8;
}
h1 {
background-color: #0000ff;
}
div {
background-color: #d0f4e6;
}
span {
background-color: #f08970;
}
分析
這里使用的模式以普通字符#開頭,隨后是6個同樣的[0-9A-Fa-f]?字符集合。這將匹配一個由字符#?開頭,然后是6個數字或字母A?到F?(大小寫均可)的字符串。
--PostgreSQL
--將所有RGB值,全部識別出來,并替換為XXXXX
with t1 as (
select '
div {background-color: #fefbd8;
}
h1 {background-color: #0000ff;
}
div {background-color: #d0f4e6;
}
span {background-color: #f08970;
}' txt
)
select txt
,regexp_replace(txt,'#[0-9A-Fa-f][0-9A-Fa-f][0-9A-Fa-f][0-9A-Fa-f][0-9A-Fa-f][0-9A-Fa-f]','XXXXXXX','g')
from t1
?
3.3 排除
字符集合,通常用來指定一組必須匹配其中之一的字符。但在某些場合,我們需要反過來做,即指定一組不需要匹配的字符。換句話說,就是排除字符集合所指定的那些字符。
不用逐個列出你要匹配的字符(如果只是要把一小部分字符排除在外的話,這種寫法就太冗長了),可以使用元字符^?來排除某個字符集合。
①下面來看一個例子:
文本
sales1.xls
orders3.xls
sales2.xls
sales3.xls
apac1.xls
europe2.xls
sam.xls
na1.xls
na2.xls
sa1.xls
ca1.xls
正則表達式
[ns]a[^0-9]\.xls
結果
sales1.xls
orders3.xls
sales2.xls
sales3.xls
apac1.xls
europe2.xls
sam.xls
na1.xls
na2.xls
sa1.xls
ca1.xls
分析
這個例子里使用的模式與前面的例子里使用的模式剛好相反。前面[0-9]?只匹配數字,而這里[^0-9]?匹配的是任何不是數字的字符,也就是說,[ns]a[^0-9]\.xls?將匹配sam.xls?,但不匹配na1.xls?、na2.xls?或sa1.xls?。
注意 ^?的效果將作用于給定字符集合里的所有字符或字符區間,而不是僅限于緊跟在^?字符后面的那一個字符或字符區間。
--PostgreSQL
with t1 as (
select 'sales1.xls' txt union all
select 'orders3.xl' txt union all
select 'sales2.xls' txt union all
select 'sales3.xls' txt union all
select 'apac1.xls' txt union all
select 'europe2.xl' txt union all
select 'sam.xls' txt union all
select 'na1.xls' txt union all
select 'na2.xls' txt union all
select 'sa1.xls' txt union all
select 'ca1.xls' txt
)
select * from t1
where txt ~ '[ns]a[^0-9]\.xls'
?
3.4 小結
元字符[?和]?用來定義一個字符集合,其含義是必須匹配該集合里的字符之一(各個字符之間是OR的關系,而不是AND的關系)。
定義一個字符集合的具體做法有兩種:
一是把所有的字符都列舉出來。
二是利用元字符-以字符區間的方式給出。
可以用元字符^排除字符集合,強制匹配指定字符集合之外的字符。