【Python Cookbook】S02E04 文本模式的匹配和查找 match()、search()、findall() 以及 捕獲組和 + 的含義

目錄

  • 問題
  • 解決方案
  • 討論

問題

本文討論一些按照特定的文本模式進行的查找和匹配。

解決方案

如果想要匹配的只是簡單文字,通常我們使用一些內置的基本字符串方法即可,如:str.find()str.startwith()str.endswith() 或類似的函數。

text = "hello world"match_str1 = text == 'hello world'
match_str2 = text.startswith("hello")
match_str3 = text.endswith("world")
match_str4 = text.find("w")
match_str5 = text.find("wo")
print(match_str1, match_str2, match_str3, match_str4, match_str5)

對于更為復雜的匹配則需要使用正則表達式以及 re 模塊。本文中,將主要圍繞 re 模塊的兩大函數 match() search() 以及 findall() 展開。

match()
請思考,為什么下列兩個字符串中使用相同的正則化匹配結果不同?

import retext_1 = "11/10/2023"
text_2 = "I just found my heart beat quickly from 11/10/2023, but I don't think that is love."if re.match(r'\d+/\d+/\d+', text_1):print(True)
else:print(False)if re.match(r'\d+/\d+/\d+', text_2):print(True)
else:print(False)

真實原因在于 re.match() 函數只在字符串的開始處進行匹配,text_1 中日期出現了開頭處,但是在 text_2 中,日期在字符串的中間。

如果我們希望匹配到字符串中任何位置的日期,則應該使用 re.search() 函數。

re.search()

import remessage = "I just found my heart beat quickly from 11/10/2023, but I don't think that is love."
match = re.search(r'\d+/\d+/\d+', message)
if match:print("The message contains the value of date. And, the date is", match.group())
else:print("The message does not contain the value of date.")

結果:

在這里插入圖片描述

上述代碼中,通過 match.group() 方法從正則化對象 match 提取出匹配到的結果。

但是如果我們一段描述中包含多個日期內容,那么 search() 函數能夠找到全部的日期內容嗎?如果找不到,有什么別的函數?

findall()

import rebut = "I just found my heart beat quickly from 11/10/2023, but I don't think that is love. And now, 06/06/2024, I think it is time to put all down."
match_1 = re.search(r'\d+/\d+/\d+', but)
print("match_1:", match_1.group())
match_2 = re.findall(r'\d+/\d+/\d+', but)
print("match_2:", match_2)

結果:

在這里插入圖片描述

顧名思義,findall(),即 “找到所有”,其作用的確是在字符串中找到所有的滿足正則化規則的值,并以列表形式返回。

print(type(match_1))
print(type(match_2))

結果:

<class 're.Match'>
<class 'list'>

明顯,search() 函數的結果是正則化對象,而*findall()* 函數的結果是列表的形式。

討論

更多的,如果我們打算對同一種模式做多次匹配,即,對很多字符串匹配同一個正則化規則,我們可以將正則表達式模式提取出來,預編譯成一個模式對象。

import remessage_1 = "yesterday is 05/06/2024."
message_2 = "today is 06/06/2024."
message_3 = "tomorrow is 07/06/2024"datepat = re.compile(r'\d+/\d+/\d+')
print(datepat.search(message_1).group())
print(datepat.search(message_2).group())
print(datepat.search(message_3).group())

更多的,讀者有沒有思考過,group() 函數中可以有什么參數不?

當定義正則表達式時,我們常常會將部分模式用括號包起來的方式引入捕獲組。如

import remessage = "yesterday is 05/06/2024."
datepat = re.compile(r'(\d+)/(\d+)/(\d+)')print(datepat.search(message).group())
print(datepat.search(message).group(2))

結果:

05/06/2024
2024

在正則表達式模式中,我們用 “()” 包裹了三個捕獲組,對應到本樣例中,即 group(1) -> ddgroup(2) -> mmgroup(3) -> yyyy

最后,\d+ 中,+ 是什么含義??

import repattern_1 = re.compile(r'\d')
pattern_2 = re.compile(r'\d+')message = "我今年25歲了"
print(re.search(pattern_1, message).group())
print(re.search(pattern_2, message).group())

對比 pattern_1pattern_2 的結果,可知在正則化表達式模式中,+ 不代表數字加,不代表字符串的連結,而是代表一種“更多”的含義,在本案例中,即可以匹配 更多的 \d 整數,所以能匹配到 25,而不帶 +pattern_1 只能匹配到一個數字。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/24096.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/24096.shtml
英文地址,請注明出處:http://en.pswp.cn/web/24096.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Day49 動態規劃part08

LC139單詞拆分(未掌握) 未掌握分析&#xff1a;將字符串s中的各個字符看成是背包&#xff0c;思考成了多重背包問題單詞就是物品&#xff0c;字符串s就是背包&#xff0c;單詞能否組成字符串s&#xff0c;就是問物品能不能把背包裝滿。拆分時可以重復使用字典中的單詞&#xf…

轉速傳感器介紹

一、概述 RPM&#xff08;Revolutions Per Minute&#xff09;轉速傳感器是一種用于測量旋轉機械設備轉速的傳感器。它可以檢測旋轉部件上的特定位置標記&#xff08;如齒輪、凸起或磁鐵&#xff09;&#xff0c;并根據這些標記的通過頻率來計算轉速。發電額定頻率是50hz和60z…

ubuntu18.04環境下,arduino ide在打開串口監視器時報錯

ubuntu18.04環境下&#xff0c;arduino ide在打開串口監視器時報錯 Exception in thread “AWT-EventQueue-0” java.lang.UnsatisfiedLinkError: /home/lzx/.jssc/linux/libjSSC-2.8_x86_64.so: /home/lzx/.jssc/linux/libjSSC-2.8_x86_64.so: file too short 這個錯誤表明 li…

力扣1574.刪除最短的子數組使剩余數組有序

力扣1574.刪除最短的子數組使剩余數組有序 剩下有序 –> 前面一段 后面一段 有序 前面有序 后面有序 前面最后一項 < 后面第一項先反向遍歷找到right的最小值然后正向遍歷找left的最大值當nums[left] > nums[right]時 right class Solution {public:int findLen…

java線程變量共享

在Java中&#xff0c;線程變量共享可以通過幾種方式實現&#xff1a; 1.實例變量&#xff1a;如果一個實例變量被多個線程共享&#xff0c;你需要確保適當的同步&#xff0c;以避免競態條件。你可以使用synchronized關鍵字或者Lock接口來保護共享變量。 2.靜態變量&#xff1a;…

openh264 降噪功能源碼分析

文件位置 ● openh264/codec/processing/denoise/denoise.cpp ● openh264/codec/processing/denoise/denoise_filter.cpp 代碼流程 說明&#xff1a;從代碼流程可以看到&#xff0c;實現降噪的核心功能主要就是BilateralDenoiseLuma、WaverageDenoiseChroma兩個函數。 原理…

SOA主要協議和規范

Web服務作為實現SOA中服務的最主要手段。首先來了解Web Service相關的標準。它們大多以“WS-”作為名字的前綴&#xff0c;所以統稱“WS-*”。Web服務最基本的協議包括UDDI、WSDL和SOAP&#xff0c;通過它們&#xff0c;可以提供直接而又簡單的Web Service支持&#xff0c;如圖…

代碼隨想錄算法訓練營第十五天| 110.平衡二叉樹、 257. 二叉樹的所有路徑、404.左葉子之和

110.平衡二叉樹 題目鏈接&#xff1a;110.平衡二叉樹 文檔講講&#xff1a;代碼隨想錄 狀態&#xff1a;還可以 思路&#xff1a;計算左右子樹的深度差&#xff0c;遞歸判斷左右子樹是否符合平衡條件 題解&#xff1a; public boolean isBalanced(TreeNode root) {if (root n…

覆蓋路徑規劃經典算法 The Boustrophedon Cellular Decomposition 詳解

2000年一篇論文 Coverage of Known Spaces: The Boustrophedon Cellular Decomposition 橫空出世&#xff0c;解決了很多計算機和機器人領域的覆蓋路徑問題&#xff0c;今天我來詳細解讀這個算法。 The Boustrophedon Cellular Decomposition 算法詳解 這篇論文標題為"C…

nginx配置正向代理忽略證書!!!!!

要繞過證書驗證并忽略SSL證書檢查&#xff0c;可以使用curl的-k或--insecure選項。這允許curl在連接到HTTPS站點時忽略證書錯誤。你可以這樣做&#xff1a; curl -k https://220.181.49.193:10010/sms/11011200002020000001/flv/hls/11010000021321001788_1101000002132100178…

數字模擬EDA研發環境搭建

中小企業數字模擬EDA研發環境部署、集群搭建、網絡配置、硬件咨詢、數據備份、技術指導、環境生命周期維護等&#xff0c;Cadence、Synopsys、Mentor、Keysight、ANSYS&#xff0c;MATLAB、Xilinx等廠商軟件工具安裝調試。 EDA研發環境搭建經驗交流&#xff0c;請加V

【Neo4j】Windows11使用Neo4j導入CSV數據可視化知識圖譜

Windows11使用Neo4j導入CSV數據可視化知識圖譜 序1. 安裝JDK21&#xff08;1&#xff09;下載&#xff08;2&#xff09;安裝&#xff08;3&#xff09;環境配置 2. 安裝Neo4j&#xff08;1&#xff09;下載&#xff08;2&#xff09;解壓安裝&#xff08;3&#xff09;環境配置…

初識C++ · 模板進階

目錄 前言&#xff1a; 1 非類型模板參數 2 按需實例化 3 模板特化 4 模板的分離編譯 前言&#xff1a; 前面模板我們會了簡單的使用&#xff0c;這里帶來模板的進階&#xff0c;當然&#xff0c;也就那么幾個知識點&#xff0c;并不太難。 1 非類型模板參數 先來看這樣…

嵌入式移植jpeglib--Linux交叉編譯ARM平臺

一 、交叉編譯jpeg庫 1.下載源碼tar.gz 2. 源碼目錄下執行 jpeglib配置文件 ./configure CCarm-none-linux-gnueabihf-gcc LDarm-none-linux-gnueabihf-ld --prefix/work/jpeg_arm_lib --exec-prefix/work/jpeg_arm_lib --enable-shared --enable-static --hostarm-none-linu…

經典文獻閱讀之--MGS-SLAM(單目稀疏跟蹤和高斯映射與深度平滑正則化)

Tip: 如果你在進行深度學習、自動駕駛、模型推理、微調或AI繪畫出圖等任務&#xff0c;并且需要GPU資源&#xff0c;可以考慮使用UCloud云計算旗下的Compshare的GPU算力云平臺。他們提供高性價比的4090 GPU&#xff0c;按時收費每卡2.6元&#xff0c;月卡只需要1.7元每小時&…

CiteScore 2023發布,AI Open斬獲45分,位列全球計算機領域前1%

與影響因子&#xff08;IF&#xff09;一樣&#xff0c;引用分數&#xff08;CiteScore&#xff09;同樣是衡量學術期刊影響力的重要指標之一&#xff0c;且大有趕超前者的勢頭。 6 月 6 日&#xff0c;CiteScore 2023 正式發布&#xff0c;人工智能領域可自由訪問的期刊平臺 …

Java 8 中的 Stream API,用于處理集合數據

Java 8 引入了 Stream API&#xff0c;使得處理集合數據變得更加簡潔和高效。Stream API 允許開發者以聲明式編程風格操作數據集合&#xff0c;而不是使用傳統的迭代和條件語句。 一、基本概念 1.1 什么是 Stream Stream 是 Java 8 中的一個新抽象&#xff0c;它允許對集合數…

CSRF 令牌的生成過程和檢查過程

在 Django 中,CSRF 令牌的生成和檢查過程是通過 Django 的 CSRF 中間件 (CsrfViewMiddleware) 和模板標簽 ({% csrf_token %}) 自動處理的。以下是詳細的生成和檢查過程: CSRF 令牌的生成過程 用戶訪問頁面: 當用戶第一次訪問頁面時,Django 會為用戶創建一個會話。如果用戶…

人工智能、深度學習和機器學習的前世今生

人工智能、深度學習和機器學習的前世今生 引言 在當今科技飛速發展的時代&#xff0c;人工智能&#xff08;AI&#xff09;、機器學習&#xff08;ML&#xff09;和深度學習&#xff08;DL&#xff09;已經成為引領第四次工業革命的重要力量。這些技術不僅在學術界和工業界掀…

C++ 數據共享與保護學習記錄【代碼】

一.項目一 1.頭文件.h //A.h #pragma once //防止頭文件被重復包含&#xff08;重復包含會被重復編譯&#xff0c;也就是該類會被重復定義&#xff09; #ifndef HEAD_H //等價于&#xff08; #if !defined(HEAD_H) ) //defined是一個預處理操作符&#xff0c;相當于一個表達式…