正則表達式-筆記

文章目錄

  • 一、正則表達式
  • 二、正則表達式的基本語法
    • 字符類
      • 普通字符
      • 非打印字符
      • 特殊字符
    • 量詞限定符
    • 錨點
    • 修飾符(標記)
  • 三、在 Python 中使用正則表達式
    • 簡單搜索
    • 提取信息
    • 替換文本
  • 參考

從驗證用戶輸入,到從大量文本中提取特定信息,再到進行復雜的文本替換, 正則表達式搜索憑借其強大的模式匹配能力。軟件RegexBuddy安裝介紹參考[2]

一、正則表達式

正則表達式,簡而言之,是一種用于描述字符串模式的語法。這些模式可以非常簡單,比如匹配一個特定的字符或字符串;也可以極為復雜,組合多個字符類、量詞和運算符,以匹配各種復雜的文本模式。在 Python、JavaScript 等編程語言中,都內建了對正則表達式的支持,方便開發者使用。

二、正則表達式的基本語法

字符類

普通字符

字符類允許我們匹配一類字符中的任意一個。

字符描述
[abc]匹配 a、b 或 c 中的任意一個字符,方括號內可以使用連字符 - 表示范圍
[^abc]匹配 除a、b 或 c 中的所有字符
[0-9]表示匹配任意一個數字
[A-Z]匹配任意一個大寫字母
[\s\S]匹配所有。 \s是匹配所有空白符,包括換行;\S非空白符,不包括換行
\w匹配字母、數字、下環線。等價于[A-Za-z0-9_]

非打印字符

字符描述
\cx匹配由x指明的控制字符。例如, \cM 匹配一個 Control-M 或回車符。x 的值必須為 A-Z 或 a-z 之一。否則,將 c 視為一個原義的 ‘c’ 字符
\f匹配一個換頁符。等價于 \x0c 和 \cL
\n匹配一個換行符。等價于 \x0a 和 \cJ
\r匹配一個回車符。等價于 \x0d 和 \cM
\s匹配任何空白字符,包括空格、制表符、換頁符等等。等價于 [ \f\n\r\t\v]。注意 Unicode 正則表達式會匹配全角空格符
\S匹配任何非空白字符。等價于 [^ \f\n\r\t\v]
\t匹配一個制表符。等價于 \x09 和 \cI
\v匹配一個垂直制表符。等價于 \x0b 和 \cK

特殊字符

字符描述
$匹配輸入字符串的結尾位置。如果設置了 RegExp 對象的 Multiline 屬性,則 $ 也匹配 ‘\n’ 或 ‘\r’。
( )標記一個子表達式的開始和結束位置。子表達式可以獲取供以后使用
.匹配除換行符 \n 之外的任何單字符
[標記一個中括號表達式的開始
\將下一個字符標記為或特殊字符、或原義字符、或向后引用、或八進制轉義符。例如, ‘n’ 匹配字符 ‘n’。‘\n’ 匹配換行符
^匹配輸入字符串的開始位置,除非在方括號表達式中使用,當該符號在方括號表達式中使用時,表示不接受該方括號表達式中的字符集合
{標記限定符表達式的開始
|指明兩項之間的一個選擇

量詞限定符

限定符用來指定正則表達式的一個給定組件必須要出現多少次才能滿足匹配。有 ***** 或 + 或 ? 或 {n} 或 {n,} 或 {n,m} 共6種。

字符描述
*匹配前面的子表達式零次或多次。例如,zo* 能匹配 “z” 以及 “zoo”。* 等價于{0,}。
+匹配前面的子表達式一次或多次。例如,‘zo+’ 能匹配 “zo” 以及 “zoo”,但不能匹配 “z”。+ 等價于 {1,}。
?匹配前面的子表達式零次或一次。例如,“do(es)?” 可以匹配 “do” 、 “does” 中的 “does” 、 “doxy” 中的 “do” 。? 等價于 {0,1}。
{n}n 是一個非負整數。匹配確定的 n 次。例如,‘o{2}’ 不能匹配 “Bob” 中的 ‘o’,但是能匹配 “food” 中的兩個 o。
{n,}n 是一個非負整數。至少匹配n 次。例如,‘o{2,}’ 不能匹配 “Bob” 中的 ‘o’,但能匹配 “foooood” 中的所有 o。‘o{1,}’ 等價于 ‘o+’。‘o{0,}’ 則等價于 ‘o*’。
{n,m}m 和 n 均為非負整數,其中n <= m。最少匹配 n 次且最多匹配 m 次。例如,“o{1,3}” 將匹配 “fooooood” 中的前三個 o。‘o{0,1}’ 等價于 ‘o?’。請注意在逗號和兩個數之間不能有空格。

* 和 +限定符都是貪婪的,它們會盡可能多的匹配文字,但在它們的后面加上一個 ? 就可以實現非貪婪或最小匹配。

錨點

錨點用于指定匹配的位置。

字符描述
^表示匹配字符串的開頭
$表示匹配字符串的結尾
\b陪陪單詞邊界,即單詞與空格間的位置
\B非單詞邊界匹配

比如,^hello 只匹配以 hello 開頭的字符串,world$ 只匹配以 world 結尾的字符串。

注意:不能將限定符與定位符一起使用。由于在緊靠換行或者單詞邊界的前面或后面不能有一個以上位置,因此不允許諸如 ^* 之類的表達式。

修飾符(標記)

標記也稱為修飾符,正則表達式的標記用于指定額外的匹配策略。
標記不寫在正則表達式里,標記位于表達式之外,格式如下:

/pattern/flags
修飾符描述
iignore - 不區分大小寫 將匹配設置為不區分大小寫,搜索時不區分大小寫: A 和 a 沒有區別。
gglobal - 全局匹配 查找所有的匹配項。
mmulti line - 多行匹配 使邊界字符 ^ 和 $ 匹配每一行的開頭和結尾,記住是多行,而不是整個字符串的開頭和結尾。
s特殊字符圓點 . 中包含換行符 \n 默認情況下的圓點 . 是 匹配除換行符 \n 之外的任何字符,加上 s 修飾符之后, . 中包含換行符 \n。

三、在 Python 中使用正則表達式

Python 通過 re 模塊支持正則表達式操作。下面我們通過幾個示例來展示如何在 Python 中使用正則表達式進行搜索。

簡單搜索

import retext = "The quick brown fox jumps over the lazy dog."
match = re.search(r"fox", text)
if match:print(f"找到匹配項:{match.group()}")

在上述代碼中,re.search 函數在字符串 text 中搜索模式 fox,如果找到匹配項,就打印出匹配的內容。

提取信息

假如我們有一個包含日期的字符串,格式為 YYYY - MM - DD,想提取出年、月、日的信息。

date_text = "2023-05-15"
match = re.match(r"(\d{4})-(\d{2})-(\d{2})", date_text)
if match:year, month, day = match.groups()print(f"年:{year},月:{month},日:{day}")

re.match 函數從字符串開頭進行匹配,圓括號 () 用于分組,match.groups() 方法可以獲取每個分組匹配到的內容。

替換文本

正則表達式還能方便地進行文本替換。

text = "舊文本,舊文本,需要替換的舊文本"
new_text = re.sub(r"舊文本", "新文本", text)
print(new_text)

re.sub 函數將字符串 text 中所有匹配 舊文本 的部分替換為 新文本。

參考

[1] https://blog.csdn.net/Jack0610/article/details/134810112
[2] https://blog.csdn.net/qq_22889431/article/details/140340565

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/74952.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/74952.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/74952.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Qwen-0.5b linux部署

參考鏈接 https://blog.csdn.net/imwaters/article/details/145489543 https://modelscope.cn/models/modelscope/ollama-linux 1. ollama安裝 # 安裝ModelScope工具包&#xff0c;用于下載和管理AI模型 pip install modelscope# 下載Ollama的Linux版本安裝包 # --model 指定…

【深度學習】GAN生成對抗網絡:原理、應用與發展

GAN生成對抗網絡&#xff1a;原理、應用與發展 文章目錄 GAN生成對抗網絡&#xff1a;原理、應用與發展1. 引言2. GAN的基本原理2.1 核心思想2.2 數學表達2.3 訓練過程 3. GAN的主要變體3.1 DCGAN (Deep Convolutional GAN)3.2 CGAN (Conditional GAN)3.3 CycleGAN3.4 StyleGAN…

【AI速讀】CNN圖像處理單元的形式化驗證方法

近年來,卷積神經網絡(CNN)在圖像處理和計算機視覺領域取得了巨大成功,如人臉識別、姿態估計等。然而,基于CNN的圖像處理單元設計復雜,驗證工作面臨巨大挑戰。傳統的仿真驗證方法難以覆蓋其龐大的配置空間,且耗時費力。本文將介紹一種創新的形式化驗證(Formal Verificat…

【新人系列】Golang 入門(八):defer 詳解 - 上

? 個人博客&#xff1a;https://blog.csdn.net/Newin2020?typeblog &#x1f4dd; 專欄地址&#xff1a;https://blog.csdn.net/newin2020/category_12898955.html &#x1f4e3; 專欄定位&#xff1a;為 0 基礎剛入門 Golang 的小伙伴提供詳細的講解&#xff0c;也歡迎大佬們…

鴻蒙開發:了解Canvas繪制

前言 本文基于Api13 系統的組件無法滿足我們的需求&#xff0c;這種情況下就不得不自己自定義組件&#xff0c;除了自定義組合組件&#xff0c;拓展組件&#xff0c;還有一種方式&#xff0c;那就是完全的自繪制組件&#xff0c;這種情況&#xff0c;常見的場景有&#xff0c;比…

【Linux筆記】進程間通信——命名管道

&#x1f525;個人主頁&#x1f525;&#xff1a;孤寂大仙V &#x1f308;收錄專欄&#x1f308;&#xff1a;Linux &#x1f339;往期回顧&#x1f339;&#xff1a;【Linux筆記】進程間通信——匿名管道||進程池 &#x1f516;流水不爭&#xff0c;爭的是滔滔不 一、命名管道…

Spring項目中使用EasyExcel實現Excel 多 Sheet 導入導出功能(完整版)

Excel 多 Sheet 導入導出功能完整實現指南 一、環境依賴 1. Maven 依賴 <!-- EasyExcel --> <dependency><groupId>com.alibaba</groupId><artifactId>easyexcel</artifactId><version>3.3.2</version> </dependency>…

全流程剖析需求開發:打造極致貼合用戶的產品

全流程剖析需求開發&#xff1a;打造極致貼合用戶的產品 一、需求獲取&#xff08;一&#xff09;與用戶溝通1.面談2.問卷調查3.會議討論 &#xff08;二&#xff09;觀察用戶工作&#xff08;三&#xff09;收集現有文檔 二、需求分析&#xff08;一&#xff09;提煉關鍵需求&…

SQL語句及其應用(中)(DQL語句之單表查詢)

SQL語句的定義: 概述: 全稱叫 Structured Query Language, 結構化查詢語言, 主要是實現 用戶(程序員) 和 數據庫軟件(例如: MySQL, Oracle)之間交互用的. 分類: DDL: 數據定義語言, 主要是操作 數據庫, 數據表, 字段, 進行: 增刪改查(CURD) 涉及到的關鍵字: create, drop, …

5000元組裝一臺本地運行中、小模型主機,參考配置 (運行DeepSeek、Qwen)

5000元組裝一臺本地運行中、小模型主機&#xff0c;參考配置 &#xff08;運行DeepSeek、Qwen) 5000元中、小模型主機 DeepSeek、Qwen 各精度模型推薦啟動方式 模型名稱 參數量 精度 模型大小 推薦運行模式 DeepSeek R1 7b Q4 5 GB LM Studio純GPU 14b Q4 9 GB LM…

【新手初學】SQL注入getshell

一、引入 木馬介紹&#xff1a; 木馬其實就是一段程序&#xff0c;這個程序運行到目標主機上時&#xff0c;主要可以對目標進行遠程控制、盜取信息等功能&#xff0c;一般不會破壞目標主機&#xff0c;當然&#xff0c;這也看黑客是否想要搞破壞。 木馬類型&#xff1a; 按照功…

Containerd+Kubernetes搭建k8s集群

虛擬機環境設置&#xff0c;如果不是虛擬機可以忽略不看 1、安裝配置containerd 1.1 添加 Kubernetes 官方倉庫 安裝cri-tools的時候需要用到 cat > /etc/yum.repos.d/kubernetes.repo << EOF [kubernetes] nameKubernetes baseurlhttps://mirrors.aliyun.com/kub…

應用待機分組管控是啥

1. 應用待機群組是啥&#xff1f; Android 9 引入了一個新功能&#xff0c;叫應用待機群組。簡單來說&#xff0c;就是根據你最近使用應用的頻率和時間&#xff0c;系統會把應用分成不同的“群組”。每個群組的應用能用的系統資源不一樣&#xff0c;比如后臺任務、鬧鐘、網絡請…

C/C++后端開發面經

字節跳動 客戶端開發 實習 一面(50min) 自我介紹是否愿意轉語言,是否只愿意搞后端選一個項目來詳細談談HTTP和HTTPS有什么區別?談一下HTTPS加密的具體過程&#xff1a; 非對稱加密 對稱加密 證書認證的方式 非對稱加密是為了保證對稱密鑰的安全性。 對稱…

【第十三屆“泰迪杯”數據挖掘挑戰賽】【2025泰迪杯】A題解題全流程(持續更新)

【第十三屆“泰迪杯”數據挖掘挑戰賽】【2025泰迪杯】A題解題全流程-思路&#xff08;持續更新&#xff09; 寫在前面&#xff1a; 1、A題、C題將會持續更新&#xff0c;陸續更新發布文章 2、賽題交流咨詢Q群&#xff1a;1037590285 3、全家桶依舊包含&#xff1a; 代碼、…

如何讓 history 記錄命令執行時間?Linux/macOS 終端時間戳設置指南

引言:你真的會用 history 嗎? 有沒有遇到過這樣的情況:你想回顧某個重要命令的執行記錄,卻發現 history 只列出了命令序號和內容,根本沒有時間戳?這在運維排查、故障分析、甚至審計時都會帶來極大的不便。 想象一下,你在服務器上誤刪了某個文件,但不知道具體是幾點執…

Redis緩存異常場景深度解析:穿透、擊穿、雪崩及終極解決方案

一、引言 在高并發系統中&#xff0c;緩存承擔著流量洪峰的削峰填谷作用。然而當緩存層出現異常時&#xff0c;可能引發數據庫級聯崩潰&#xff0c;造成系統癱瘓。本文將深入剖析緩存穿透、緩存擊穿、緩存雪崩三大典型問題&#xff0c;并提供企業級解決方案。文章包含7種防御策…

Scala 之 正則

regex 函數提取 import scala.util.matching.Regex// 輸入表達式 val expression "[a#0, round(a#0, 0) AS round(a, 0)#1, abs(a#0) AS abs(a)#2, len(cast(a#0 as string)) AS len(a)#3]"// 定義一個正則表達式來提取函數名稱 val functionPattern: Regex &quo…

CI/CD-Jenkins安裝與應用

CI/CD-Jenkins安裝與應用 Docker安裝Jenkins docker-compose.yaml version: "3.8" # # 自定義網絡配置 # networks:cicd:driver: bridgeservices:jenkins:# 盡量使用新版本的Jenkins, 低版本的Jenkins的有些插件使用不了# jenkins/jenkins:lts-jdk17是長期支持版…

驗證Linux多進程時間片切換的程序

?? 一、軟件需求 在同時運行多個CPU密集型進程時&#xff0c;需采集以下統計信息&#xff1a; 當前運行在邏輯CPU上的進程ID每個進程的運行進度百分比 實驗程序設計要求&#xff1a; 1. 命令行參數 參數說明示例值n并發進程數量3total總運行時長&#xff08;毫秒&…