非貪婪匹配
非貪婪匹配的元字符是問號 ??
當此字符跟在任何其他限定符(*、+、?、{n}、{m}、{n,m})之后,匹配模式是 "非貪心的"。非貪心的意思就是每次匹配搜索到的盡可能短的字符串,可以是0個。
案例
對比貪婪匹配和非貪婪匹配
貪婪匹配
public static void main(String[] args) {String content = "hello1010";Pattern pattern = Pattern.compile("\\d+");Matcher matcher = pattern.matcher(content);while (matcher.find()){System.out.println(matcher.group(0));}}
輸出結果:
1010
非貪婪匹配
public static void main(String[] args) {String content = "hello1010";Pattern pattern = Pattern.compile("\\d+?");Matcher matcher = pattern.matcher(content);while (matcher.find()){System.out.println(matcher.group(0));}}
輸出結果:
1
0
1
0
正則表達式應用實例
對字符串進行如下格式驗證:
注意:格式驗證不同于普通的匹配,格式匹配通常使用字符匹配符、定位符和限定符三種來進行匹配,尤其是限定符(定位符?^ 、$),比如我們要判斷 "123456"是不是三位數,如果我們使用如下的正則表達式:
\\d{3}
運行結果:
123
456
但其實是不匹配的,所以我們需要加定位符:
^\\d\\d{2}$
意思就是匹配以一位數字為開頭,兩位數字為結尾的字符串。
下面為了避免重復代碼,我把模板放到這,只需要替換正則表達式的表達式即可。
Pattern pattern = Pattern.compile("");Matcher matcher = pattern.matcher(content);if (matcher.find()){System.out.println("滿足格式");}
1、漢字
漢字的編碼為? \u0391 到 \uffe5。
^[\u0391-\uffe5]+$
2、郵政編碼
要求:是1~9開頭的一個六位數
^[1-9]\\d{5}$
3、QQ號碼
要求:是1-9開頭的一個(5-10位數)
^[1-9]\\d{4,9}$
4、手機號碼
必須 13,14,15,18 開頭的11位數。
我們可以使用小括號和豎線符號表示邏輯或,也可以使用中括號進行范圍表示。
^(13|14|15|18)\\d{9}$
//或者
^(1[3458])\\d{9}$
5、URL
URL 的匹配很重要,尤其是在網絡爬蟲中會經常用到。
https://blog.csdn.net/m0_64261982?spm=1000.2115.3001.5343
正則表達式:?
^((http|https)://)?([\w-]+\.)+[\w-]+(\/[\w-?=&/%#.]*)?$
注意:我們這里的正則表達式中的括號都是捕獲分組,如果希望不捕獲的話,可以在左半括號加一個問號?,這樣就成了非捕獲分組,非捕獲分組的內容不會保存到Matcher類中的groups數組中去,而捕獲分組的內容會保存到內存中,可以通過Matcher.group(int group)的方式從groups數組提取出來或者顯示命名的分組可以通過自定義的組名提取出來(詳細可以看我第二篇博客關于捕獲分組的部分)。?
System.out.println(matcher.group(0)); //https://blog.csdn.net/m0_64261982?spm=1000.2115.3001.5343
System.out.println(matcher.group(1)); //https://
System.out.println(matcher.group(2)); //https
System.out.println(matcher.group(3)); //csdn.
System.out.println(matcher.group(4)); ///m0_64261982?spm=1000.2115.3001.5343
其中:
^((https)://)? | https:// | 這里用了非貪婪匹配,網址可以省去協議 |
([\\w-]+\\.)+[\\w-]+ | blog.csdn.net | 把帶 '.' 的用([\\w-]+\\.)+ 來匹配,后綴 .com或者 .net 這些用 [\\w-]+ 來匹配 |
(\\/[\\w-?=&/%#.]*)?$ | m0_64261982?spm=1000.2115.3001.5343 | 后面主要處理的就是一些特殊符號,看情況增加 |
注意: [?.*] 中括號里的點和問號只代表本身 沒有特殊含義。
Pattern 類
之前我要做一些格式驗證的話需要寫很多代碼,其實我們可以直接使用Pattern類中的一個matches方法,它可以對傳入的正則表達式和字符串參數直接做一個整體匹配。
比如,驗證QQ號:
System.out.println(Pattern.matches("^[1-9]\\d{4,9}$","3493247023"));
這樣就可以極大地簡潔代碼,而不用去調用 Matcher 去一個個匹配。總之,Pattern.matches()適合做整體匹配,但不能做字符串中滿足某一正則表達式的所有子串的匹配,所以看情況使用。
Matcher 類
?這里介紹一些Matcher對象的其他方法。
我們以如下字符串為例:
小美喜歡小明,小明也喜歡小美。
start 和 end 方法
start 和 end 會輸出匹配到的字符串的下標
String content = "小美喜歡小明,小明也喜歡小美。";Pattern pattern = Pattern.compile("喜歡");Matcher matcher = pattern.matcher(content);while (matcher.find()){System.out.println("=================");System.out.println(matcher.group(0));System.out.println(matcher.start());System.out.println(matcher.end());}
輸出:
=================
喜歡
2
4
=================
喜歡
10
12
replaceAll 方法
把滿足正則表達式的子串內容替換為參數的內容。
String content = "清華大學是中國著名的大學";Pattern pattern = Pattern.compile("清華");Matcher matcher = pattern.matcher(content);while (matcher.find()){String res = matcher.replaceAll("山西農業");System.out.println(res);}
輸出:
山西農業大學是中國著名的大學
反向引用
反向引用和分組、捕獲是有關系的,下面是反向引用的概念:
圓括號的內容被捕獲后,可以在這個括號后使用,從而寫出一個比較實用的匹配模式,這個我們稱之為反向引用,這種引用既可以是在正則表達式內部,用 \\分組號;也可以是在正則表達式外部,用 $分組號。
案例1-AA
匹配兩個連續的相同數字。
(\\d)\\1
案例2-AAAAA
匹配五個連續的相同數字。
(\\d)\\1{4}
案例3-ABBA
找出字符串中所有滿足 ABBA 型的子串。
?(\\d)(\\d)\\2\\1
String content = "12212121212222";String regex = "(\\d)(\\d)\\2\\1";Pattern pattern = Pattern.compile(regex);Matcher matcher = pattern.matcher(content);while (matcher.find()){System.out.println(matcher.group());}
?
輸出:
1221
2222
案例4
檢索商品編號:形式如:12321-333999111 這樣的號碼,前面是一個五位數,然后是一個-,最后是一個AAABBBCCC型的9位數。
\\d{5}-(\\d)\\1{2}(\\d)\\2{2}(\\d)\\3{2}
案例5-結巴去重
?核心語句:(.)\\1+ 代表至少有兩個重復字符的子串。
public static void main(String[] args) {String content = "我...我要...學學學學...Java!";// 1. 去掉所有的.Pattern pattern = Pattern.compile("\\.");Matcher matcher = pattern.matcher(content);content = matcher.replaceAll("");// 2. 去掉重復的字pattern = Pattern.compile("(.)\\1+");matcher = pattern.matcher(content); //matcher 對象需要重新賦值content = matcher.replaceAll("$1");System.out.println(content);
}
簡潔寫法:
content = Pattern.compile("(.)\\1+").matcher(content).replaceAll("$1");
輸出:
我要學Java!
String 類中的正則表達式
1、String.replaceAll(String regex,String replacement)
將content中滿足正則表達式regex的子串替換為 replacement。
2、public boolean matches(String regex)
判斷字符串是否滿足正則表達式regex,相當于Pattern.matches(String regex,String content)。
3、public String[] split(String regex)
按照正則表達式regex分割字符串
?
?
?
?