Java 正則表達式【非貪婪匹配、格式驗證、反向引用、API】

非貪婪匹配

非貪婪匹配的元字符是問號 ??

當此字符跟在任何其他限定符（*、+、？、{n}、{m}、{n,m}）之后，匹配模式是 "非貪心的"。非貪心的意思就是每次匹配搜索到的盡可能短的字符串，可以是0個。

案例

對比貪婪匹配和非貪婪匹配

貪婪匹配

public static void main(String[] args) {String content  = "hello1010";Pattern pattern = Pattern.compile("\\d+");Matcher matcher = pattern.matcher(content);while (matcher.find()){System.out.println(matcher.group(0));}}

輸出結果：

非貪婪匹配

public static void main(String[] args) {String content  = "hello1010";Pattern pattern = Pattern.compile("\\d+?");Matcher matcher = pattern.matcher(content);while (matcher.find()){System.out.println(matcher.group(0));}}

輸出結果：

正則表達式應用實例

對字符串進行如下格式驗證：

注意：格式驗證不同于普通的匹配，格式匹配通常使用字符匹配符、定位符和限定符三種來進行匹配，尤其是限定符（定位符?^ 、$），比如我們要判斷 "123456"是不是三位數，如果我們使用如下的正則表達式：

\\d{3}

運行結果：

123
456

但其實是不匹配的，所以我們需要加定位符：

^\\d\\d{2}$

意思就是匹配以一位數字為開頭，兩位數字為結尾的字符串。

下面為了避免重復代碼，我把模板放到這，只需要替換正則表達式的表達式即可。

        Pattern pattern = Pattern.compile("");Matcher matcher = pattern.matcher(content);if (matcher.find()){System.out.println("滿足格式");}

1、漢字

漢字的編碼為? \u0391 到 \uffe5。

^[\u0391-\uffe5]+$

2、郵政編碼

要求：是1~9開頭的一個六位數

^[1-9]\\d{5}$

3、QQ號碼

要求：是1-9開頭的一個（5-10位數）

^[1-9]\\d{4,9}$

4、手機號碼

必須 13,14,15,18 開頭的11位數。

我們可以使用小括號和豎線符號表示邏輯或，也可以使用中括號進行范圍表示。

^(13|14|15|18)\\d{9}$
//或者
^(1[3458])\\d{9}$

5、URL

URL 的匹配很重要，尤其是在網絡爬蟲中會經常用到。

https://blog.csdn.net/m0_64261982?spm=1000.2115.3001.5343

正則表達式：?

^((http|https)://)?([\w-]+\.)+[\w-]+(\/[\w-?=&/%#.]*)?$

注意：我們這里的正則表達式中的括號都是捕獲分組，如果希望不捕獲的話，可以在左半括號加一個問號?，這樣就成了非捕獲分組，非捕獲分組的內容不會保存到Matcher類中的groups數組中去，而捕獲分組的內容會保存到內存中，可以通過Matcher.group(int group)的方式從groups數組提取出來或者顯示命名的分組可以通過自定義的組名提取出來（詳細可以看我第二篇博客關于捕獲分組的部分）。?

System.out.println(matcher.group(0));    //https://blog.csdn.net/m0_64261982?spm=1000.2115.3001.5343
System.out.println(matcher.group(1));    //https://
System.out.println(matcher.group(2));    //https
System.out.println(matcher.group(3));    //csdn.
System.out.println(matcher.group(4));    ///m0_64261982?spm=1000.2115.3001.5343

其中：

^((https)://)?	https://	這里用了非貪婪匹配，網址可以省去協議
([\\w-]+\\.)+[\\w-]+	blog.csdn.net	把帶 '.' 的用([\\w-]+\\.)+ 來匹配，后綴 .com或者 .net 這些用 [\\w-]+ 來匹配
(\\/[\\w-?=&/%#.]*)?$	m0_64261982?spm=1000.2115.3001.5343	后面主要處理的就是一些特殊符號，看情況增加

注意： [?.*] 中括號里的點和問號只代表本身沒有特殊含義。

Pattern 類

之前我要做一些格式驗證的話需要寫很多代碼，其實我們可以直接使用Pattern類中的一個matches方法，它可以對傳入的正則表達式和字符串參數直接做一個整體匹配。

比如，驗證QQ號：

        System.out.println(Pattern.matches("^[1-9]\\d{4,9}$","3493247023"));

這樣就可以極大地簡潔代碼，而不用去調用 Matcher 去一個個匹配。總之，Pattern.matches()適合做整體匹配，但不能做字符串中滿足某一正則表達式的所有子串的匹配，所以看情況使用。

Matcher 類

?這里介紹一些Matcher對象的其他方法。

我們以如下字符串為例：

小美喜歡小明，小明也喜歡小美。

start 和 end 方法

start 和 end 會輸出匹配到的字符串的下標

String content  = "小美喜歡小明，小明也喜歡小美。";Pattern pattern = Pattern.compile("喜歡");Matcher matcher = pattern.matcher(content);while (matcher.find()){System.out.println("=================");System.out.println(matcher.group(0));System.out.println(matcher.start());System.out.println(matcher.end());}

輸出：

=================
喜歡
2
4
=================
喜歡
10
12

replaceAll 方法

把滿足正則表達式的子串內容替換為參數的內容。

    String content  = "清華大學是中國著名的大學";Pattern pattern = Pattern.compile("清華");Matcher matcher = pattern.matcher(content);while (matcher.find()){String res = matcher.replaceAll("山西農業");System.out.println(res);}

輸出：

山西農業大學是中國著名的大學

反向引用

反向引用和分組、捕獲是有關系的，下面是反向引用的概念：

圓括號的內容被捕獲后，可以在這個括號后使用，從而寫出一個比較實用的匹配模式，這個我們稱之為反向引用，這種引用既可以是在正則表達式內部，用 \\分組號；也可以是在正則表達式外部，用 $分組號。

案例1-AA

匹配兩個連續的相同數字。

(\\d)\\1

案例2-AAAAA

匹配五個連續的相同數字。

(\\d)\\1{4}

案例3-ABBA

找出字符串中所有滿足 ABBA 型的子串。

?(\\d)(\\d)\\2\\1

String content = "12212121212222";String regex = "(\\d)(\\d)\\2\\1";Pattern pattern = Pattern.compile(regex);Matcher matcher = pattern.matcher(content);while (matcher.find()){System.out.println(matcher.group());}

輸出：

1221
2222

案例4

檢索商品編號：形式如：12321-333999111 這樣的號碼，前面是一個五位數，然后是一個-，最后是一個AAABBBCCC型的9位數。

\\d{5}-(\\d)\\1{2}(\\d)\\2{2}(\\d)\\3{2}

案例5-結巴去重

?核心語句：(.)\\1+ 代表至少有兩個重復字符的子串。

public static void main(String[] args) {String content = "我...我要...學學學學...Java!";// 1. 去掉所有的.Pattern pattern = Pattern.compile("\\.");Matcher matcher = pattern.matcher(content);content = matcher.replaceAll("");// 2. 去掉重復的字pattern = Pattern.compile("(.)\\1+");matcher = pattern.matcher(content); //matcher 對象需要重新賦值content = matcher.replaceAll("$1");System.out.println(content);
}

簡潔寫法：

content = Pattern.compile("(.)\\1+").matcher(content).replaceAll("$1");

輸出：

我要學Java!

String 類中的正則表達式

1、String.replaceAll（String regex,String replacement）

將content中滿足正則表達式regex的子串替換為 replacement。

2、public boolean matches（String regex）

判斷字符串是否滿足正則表達式regex，相當于Pattern.matches(String regex，String content)。

3、public String[] split（String regex）

按照正則表達式regex分割字符串

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/37213.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/37213.shtml
英文地址，請注明出處：http://en.pswp.cn/news/37213.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！