什么是正則表達式?
正則表達式(Regular Expression)通常被用來檢索、替換那些符合某個模式(規則)的文本。
此處的Regular即是規則、規律的意思,Regular Expression即“描述某種規則的表達式”之意。
本文收集了一些常見的正則表達式用法,方便大家查詢取用,并在最后附了詳細的正則表達式語法手冊。
案例包括:郵箱、身份證號、手機號碼、固定電話、域名、IP地址、日期、郵編、密碼、中文字符、數字、字符串
Python如何支持正則?
我用的是python來實現正則,并使用Jupyter Notebook編寫代碼。
Python通過re模塊支持正則表達式,re 模塊使 Python 語言擁有全部的正則表達式功能。
這里要注意兩個函數的使用:
re.compile
用于編譯正則表達式,生成一個正則表達式( Pattern )對象;
.findall
用于在字符串中找到正則表達式所匹配的所有子串,并返回一個列表,如果沒有找到匹配的,則返回空列表。
# 導入re模塊
import re
1.郵箱
包含大小寫字母,下劃線,阿拉伯數字,點號,中劃線
表達式:
[a-zA-Z0-9_-]+@[a-zA-Z0-9_-]+(?:\.[a-zA-Z0-9_-]+)
案例:
pattern = re.compile(r"[a-zA-Z0-9_-]+@[a-zA-Z0-9_-]+(?:\.[a-zA-Z0-9_-]+)")strs = '我的私人郵箱是zhuwjwh@outlook.com,公司郵箱是123456@qq.org,麻煩登記一下?'
result = pattern.findall(strs)print(result)
['zhuwjwh@outlook.com', '123456@qq.org']
2. 身份證號
xxxxxx yyyy MM dd 375 0 十八位
- 地區: [1-9]\d{5}
- 年的前兩位: (18|19|([23]\d)) 1800-2399
- 年的后兩位: \d{2}
- 月份: ((0[1-9])|(10|11|12))
- 天數: (([0-2][1-9])|10|20|30|31) 閏年不能禁止29+
- 三位順序碼: \d{3}
- 兩位順序碼: \d{2}
- 校驗碼: [0-9Xx]
表達式:
[1-9]\d{5}(18|19|([23]\d))\d{2}((0[1-9])|(10|11|12))(([0-2][1-9])|10|20|30|31)\d{3}[0-9Xx]
案例:
pattern = re.compile(r"[1-9]\d{5}(?:18|19|(?:[23]\d))\d{2}(?:(?:0[1-9])|(?:10|11|12))(?:(?:[0-2][1-9])|10|20|30|31)\d{3}[0-9Xx]")strs = '小明的身份證號碼是342623198910235163,手機號是13987692110'
result = pattern.findall(strs)print(result)
['342623198910235163']
3. 國內手機號碼
手機號都為11位,且以1開頭,第二位一般為3、5、6、7、8、9 ,剩下八位任意數字
例如:13987692110、15610098778
表達式:
1(3|4|5|6|7|8|9)\d{9}
案例:
pattern = re.compile(r"1[356789]\d{9}")strs = '小明的手機號是13987692110,你明天打給他'
result = pattern.findall(strs)print(result)
['13987692110']
4. 國內固定電話
區號3\~4位,號碼7\~8位
例如:0511-1234567、021-87654321
表達式:
\d{3}-\d{8}|\d{4}-\d{7}
案例:
pattern = re.compile(r"\d{3}-\d{8}|\d{4}-\d{7}")strs = '0511-1234567是小明家的電話,他的辦公室電話是021-87654321'
result = pattern.findall(strs)print(result)
['0511-1234567', '021-87654321']
5. 域名
包含http:\\或https:\\
表達式:
(?:(?:http:\/\/)|(?:https:\/\/))?(?:[\w](?:[\w\-]{0,61}[\w])?\.)+[a-zA-Z]{2,6}(?:\/)
案例:
pattern = re.compile(r"(?:(?:http:\/\/)|(?:https:\/\/))?(?:[\w](?:[\w\-]{0,61}[\w])?\.)+[a-zA-Z]{2,6}(?:\/)")strs = 'Python官網的網址是https://www.python.org/'
result = pattern.findall(strs)print(result)
['https://www.python.org/']
6. IP地址
IP地址的長度為32位(共有2^32個IP地址),分為4段,每段8位,用十進制數字表示
每段數字范圍為0~255,段與段之間用句點隔開
表達式:
((?:(?:25[0-5]|2[0-4]\d|[01]?\d?\d)\.){3}(?:25[0-5]|2[0-4]\d|[01]?\d?\d))
案例:
pattern = re.compile(r"((?:(?:25[0-5]|2[0-4]\d|[01]?\d?\d)\.){3}(?:25[0-5]|2[0-4]\d|[01]?\d?\d))")strs = '''請輸入合法IP地址,非法IP地址和其他字符將被過濾!
增、刪、改IP地址后,請保存、關閉記事本!
192.168.8.84
192.168.8.85
192.168.8.86
0.0.0.1
256.1.1.1
192.256.256.256
192.255.255.255
aa.bb.cc.dd'''result = pattern.findall(strs)print(result)
['192.168.8.84', '192.168.8.85', '192.168.8.86', '0.0.0.1', '56.1.1.1', '192.255.255.255']
7. 日期
常見日期格式:yyyyMMdd、yyyy-MM-dd、yyyy/MM/dd、yyyy.MM.dd
表達式:
\d{4}(?:-|\/|.)\d{1,2}(?:-|\/|.)\d{1,2}
案例:
pattern = re.compile(r"\d{4}(?:-|\/|.)\d{1,2}(?:-|\/|.)\d{1,2}")strs = '今天是2020/12/20,去年的今天是2019.12.20,明年的今天是2021-12-20'
result = pattern.findall(strs)print(result)
['2020/12/20', '2019.12.20', '2021-12-20']
8. 國內郵政編碼
我國的郵政編碼采用四級六位數編碼結構
前兩位數字表示省(直轄市、自治區)
第三位數字表示郵區;第四位數字表示縣(市)
最后兩位數字表示投遞局(所)
表達式:
[1-9]\d{5}(?!\d)
案例:
pattern = re.compile(r"[1-9]\d{5}(?!\d)")strs = '上海靜安區郵編是200040'
result = pattern.findall(strs)print(result)
['200040']
9. 密碼
密碼(以字母開頭,長度在6~18之間,只能包含字母、數字和下劃線)
表達式:
[a-zA-Z]\w{5,17}
強密碼(以字母開頭,必須包含大小寫字母和數字的組合,不能使用特殊字符,長度在8-10之間)
表達式:
[a-zA-Z](?=.*\d)(?=.*[a-z])(?=.*[A-Z]).{8,10}
pattern = re.compile(r"[a-zA-Z]\w{5,17}")strs = '密碼:q123456_abc'
result = pattern.findall(strs)print(result)
['q123456_abc']
pattern = re.compile(r"[a-zA-Z](?=.*\d)(?=.*[a-z])(?=.*[A-Z]).{8,10}")strs = '強密碼:q123456ABc,弱密碼:q123456abc'
result = pattern.findall(strs)print(result)
['q123456ABc,']
10. 中文字符
表達式:
[\u4e00-\u9fa5]
案例:
pattern = re.compile(r"[\u4e00-\u9fa5]")strs = 'apple:蘋果'
result = pattern.findall(strs)print(result)
['蘋', '果']
11. 數字
- 驗證數字:
^[0-9]*$
- 驗證n位的數字:
^\d{n}$
- 驗證至少n位數字:
^\d{n,}$
- 驗證m-n位的數字:
^\d{m,n}$
- 驗證零和非零開頭的數字:
^(0|[1-9][0-9]*)$
- 驗證有兩位小數的正實數:
^[0-9]+(.[0-9]{2})?$
- 驗證有1-3位小數的正實數:
^[0-9]+(.[0-9]{1,3})?$
- 驗證非零的正整數:
^\+?[1-9][0-9]*$
- 驗證非零的負整數:
^\-[1-9][0-9]*$
- 驗證非負整數(正整數 + 0)?
^\d+$
- 驗證非正整數(負整數 + 0)?
^((-\d+)|(0+))$
- 整數:
^-?\d+$
- 非負浮點數(正浮點數 + 0):
^\d+(\.\d+)?$
- 正浮點數?
^(([0-9]+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*))$
- 非正浮點數(負浮點數 + 0)?
^((-\d+(\.\d+)?)|(0+(\.0+)?))$
- 負浮點數?
^(-(([0-9]+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*)))$
- 浮點數?
^(-?\d+)(\.\d+)?$
12. 字符串
- 英文和數字:
^[A-Za-z0-9]+$ 或 ^[A-Za-z0-9]{4,40}$
- 長度為3-20的所有字符:
^.{3,20}$
- 由26個英文字母組成的字符串:
^[A-Za-z]+$
- 由26個大寫英文字母組成的字符串:
^[A-Z]+$
- 由26個小寫英文字母組成的字符串:
^[a-z]+$
- 由數字和26個英文字母組成的字符串:
^[A-Za-z0-9]+$
- 由數字、26個英文字母或者下劃線組成的字符串:
^\w+$ 或 ^\w{3,20}$
- 中文、英文、數字包括下劃線:
^[\u4E00-\u9FA5A-Za-z0-9_]+$
- 中文、英文、數字但不包括下劃線等符號:
^[\u4E00-\u9FA5A-Za-z0-9]+$ 或 ^[\u4E00-\u9FA5A-Za-z0-9]{2,20}$
- 可以輸入含有^%&',;=?$\”等字符:
[^%&',;=?$\x22]+
- 禁止輸入含有\~的字符:
[^~\x22]+