Python爬取數據(二)

一.example2包下的

1.re模塊的compile函數使用

import repattern=re.compile(r'\d+')
print(pattern)

2.match的方法使用

import re
pattern=re.compile(r'\d+')
# m1=pattern.match('one123twothree345four')
#參數2:指定起始位置(包含),參數3:終止位置(包含),注意匹配一次成功后結束
m1=pattern.match('one123twothree345four',3,7)
print(m1.group())

3.search方法的使用

import re
pattern=re.compile(r'\d+')
m1=pattern.search('one123twothree345four')
print(m1.group())

4.findall方法的使用

import re
pattern=re.compile(r'\d+')result=pattern.findall('hello 123 world 456')
print(result)

5.split方法的使用

import restr1='a,b,c'
print(str1.split(','))str2='a,b;;c,d'
pattern=re.compile(r"[\s\,\;]+")
print(pattern.split(str2))

6.sub方法的使用

import re
string='<h1 class="test1">HelloWorld</h1>'pattern=re.compile(r'\d')
print(pattern.sub('2',string))
print(pattern.sub('2',string,1))pattern=re.compile('<(.\\d)\\sclass="(?P<classname>.*?)">.*?</(\\1)>')
print(pattern.search(string).group(3))def fun(m):return 'after sub'+m.group('classname')
print(pattern.sub(fun, string))

7.貪婪匹配

import re
string='<h1 class="test1">HelloWorld</h1>'
#貪婪匹配
pattern=re.compile(r'<.\d\sclass=.*>')
print(pattern.search(string).group())
#關閉貪婪匹配
pattern=re.compile(r'<.\d\sclass=.*?>')
print(pattern.search(string).group())

8.綜合案例

import requests
import re
def handle_detail_re(content):#re.S表示全文匹配# item_search=re.compile('ts_solgcont_title">.*?</div>\r\n\t</div>',re.S)item_search = re.compile('ts_solgcont_title">.*?<div class="ts_solgcont_bot">.*?</div>', re.S)#獲取每一條圖書的數據all_item=item_search.findall(content)#匹配書名title_search=re.compile('target="_blank">(.*?)</a>')#匹配作者author_search=re.compile('<p>作者(.*?)</p>')for item in all_item:print({"title":title_search.search(item).group(1),"author":author_search.search(item).group(1),})def main():header={"User-Agent":"Mozilla/5.0 (X11; Linux aarch64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/135.0.0.0 Safari/537.36 CrKey/1.54.250320 Edg/135.0.0.0"}booktype=['java','python','c']for key in booktype:url='http://www.cmpedu.com/so.htm?&KEY={}'.format(key)response=requests.get(url,headers=header)handle_detail_re(response.text)if __name__ == '__main__':main()

三.example3下的

安裝beautifulsoup4的指令:pip3 install beautifulsoup4
beautifulsoup4:Beautiful Soup(bs4)是一個用于從HTML或XML文件中提取數據的Python庫。

1.獲取節點

from bs4 import BeautifulSoup
html = """
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title" name="dromouse"><b>The Dormouse's story</b></p >
<p class="story">Once upon a time there were three little sisters; and their names were
<!-- Elsie -->,and
;
and they lived at the bottom of a well.</p >
<p class="story">...</p >
"""
#參數1:html代碼片段
# 參數2:解析器
soup=BeautifulSoup(html,'lxml')
#獲得標題
print(soup.title)
#獲得頭標記
print(soup.head)
#獲得體標記
print(soup.body)
#獲得標題元素內容
print(soup.title.string)
#獲得標記名稱
print(soup.title.name)
#默認的模式下只能匹配第一個節點,其他節點會被忽略
print(soup.p)

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/76087.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/76087.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/76087.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

spring之Bean的循環依賴問題、反射機制手寫Spring框架、Spring IoC注解式開發

一、Bean的循環依賴問題 1.什么是Bean的循環依賴 A對象中有B屬性。B對象中有A屬性。這就是循環依賴。我依賴你&#xff0c;你也依賴我。 比如&#xff1a;丈夫類Husband&#xff0c;妻子類Wife。Husband中有Wife的引用。Wife中有Husband的引用。 public class Husband {priv…

狀態機的基本使用

狀態機 1. 什么是狀態機 1.1 場景 在業務代碼中對一些業務狀態進行硬編碼&#xff0c;如果有一天更改了業務邏輯就需要更改代碼&#xff0c;不方便進行系統擴展和維護。 if (status 狀態1) {// TODO } else if(status 狀態2) {// TODO } ...另外對訂單狀態的管理是散落在…

22 | 如何繼續提升 Go 開發技術?

提示&#xff1a; 所有體系課見專欄&#xff1a;Go 項目開發極速入門實戰課&#xff1b;歡迎加入 云原生 AI 實戰營 星球&#xff0c;12 高質量體系課、20 高質量實戰項目助你在 AI 時代建立技術競爭力&#xff08;聚焦于 Go、云原生、AI Infra&#xff09;。 「Go 項目開發極速…

LLM Agents項目推薦:MetaGPT、AutoGen、AgentVerse詳解

這一部分我們將深入介紹三大備受關注的LLM Agents項目&#xff1a;MetaGPT、AutoGen和AgentVerse&#xff0c;包括它們的背景、設計思路、主要功能、技術亮點以及典型應用場景。 1. MetaGPT&#xff1a;讓AI像軟件工程團隊一樣協作 項目背景 MetaGPT由Huang et al.于2023年提…

好數(藍橋杯2024省賽B組)

題目描述 一個整數如果按從低位到高位的順序&#xff0c;奇數位&#xff08;個位、百位、萬位……&#xff09;上的數字是奇數&#xff0c;偶數位&#xff08;十位、千位、十萬位……&#xff09;上的數字是偶數&#xff0c;我們就稱之為“好數”。 給定一個正整數 N&#xf…

STM32單片機入門學習——第26節: [9-2] USART串口外設

寫這個文章是用來學習的,記錄一下我的學習過程。希望我能一直堅持下去,我只是一個小白,只是想好好學習,我知道這會很難&#xff0c;但我還是想去做&#xff01; 本文寫于&#xff1a;2025.04.08 STM32開發板學習——第26節: [9-2] USART串口外設 前言開發板說明引用解答和科普…

【學Rust寫CAD】31 muldiv255函數(muldiv255.rs,已經取消)

源碼 // Calculates floor(a*b/255 0.5) #[inline] pub fn muldiv255(a: u32, b: u32) -> u32 {// The deriviation for this formula can be// found in "Three Wrongs Make a Right" by Jim Blinn.let tmp a * b 128;(tmp (tmp >> 8)) >> 8 }代…

LLM+js實現大模型對話

代碼運行效果圖&#xff1a;前提是你有一個可用的openai服務&#xff0c;然后用下面一個html頁即可啟動 <!DOCTYPE html> <html lang"zh-CN"><head><meta charset"UTF-8"><meta name"viewport" content"widthd…

用claude3.7,不到1天寫了一個工具小程序(11個工具6個游戲)

一、功能概覽和本文核心 本次開發&#xff0c;不是1天干擼&#xff0c;而是在下班后或早起搞的&#xff0c;總體加和計算了一下&#xff0c;大概1天的時間&#xff08;12個小時&#xff09;&#xff0c;平常下班都是9點的衰仔&#xff0c;好在還有雙休&#xff0c;謝天謝地。 …

C++實現文件斷點續傳:原理剖析與實戰指南

文件傳輸示意圖 一、斷點續傳的核心價值 1.1 大文件傳輸的痛點分析 網絡閃斷導致重復傳輸&#xff1a;平均重試3-5次。 傳輸進度不可回溯&#xff1a;用戶無法查看歷史進度。 帶寬利用率低下&#xff1a;每次中斷需從頭開始。 1.2 斷點續傳技術優勢 指標傳統傳輸斷點續傳…

升級 SAP S/4 HANA 之 EWM 攻略

目錄 簡介 知識點 數據遷移 簡介 倉庫管理&#xff0c;SAP 升級不管是否啟動 EWM 功能&#xff0c;評估 EWM 是必經之路&#xff0c;不僅是因為 EWM 是 SAP 主推的倉庫解決方案&#xff0c;更是其功能強大而便捷&#xff0c;不管是簡易倉庫、復雜倉庫、立體倉庫、高架倉庫、…

知識表示方法之六:過程表示法(Procedural Representation)

在人工智能的發展史中&#xff0c;關于知識的表示方法曾存在兩種不同的觀點。一種觀點認為知識主要是陳述性的&#xff0c;其表示方法應著重將其靜態特性&#xff0c;即事物的屬性以及事物間的關系表示出來&#xff0c;稱以這種觀點表示知識的方法為陳述式或說明式表示法&#…

綠色供應鏈管理體系認證:開啟企業可持續發展的綠色新篇章

在全球“雙碳”目標驅動下&#xff0c;綠色供應鏈管理已成為企業高質量發展的核心議題。據國際權威機構預測&#xff0c;到2030年&#xff0c;綠色供應鏈相關市場規模將突破萬億美元。在此背景下&#xff0c;綠色供應鏈管理體系認證不僅是企業合規的“通行證”&#xff0c;更是…

MATLAB如何打印一個桃心形狀

在MATLAB中打印一個桃心形狀&#xff0c;您可以使用繪圖函數來創建一個心形圖案。以下是一個簡單的例子&#xff0c;展示了如何使用MATLAB繪制一個心形&#xff1a; 定義心形的參數方程&#xff1a;心形可以通過一組參數方程來描述。 使用MATLAB的繪圖函數&#xff1a;plot函…

前端知識(vue3)

1.Vue3 1.1 介紹 Vue&#xff08;讀音 /vju?/, 類似于 view&#xff09;是一款用于構建用戶界面的漸進式的JavaScript框架 官網&#xff1a;https://cn.vuejs.org 1.2 常見指令 指令&#xff1a;指的是HTML 標簽上帶有 v- 前綴的特殊屬性&#xff0c;不同指令具有不同含義…

狀態機思想編程

1. LED流水燈的FPGA代碼 一個使用狀態機思想來實現LED流水燈的FPGA代碼 這個例子采用VHDL編寫 VHDL代碼示例&#xff1a; library IEEE; use IEEE.STD_LOGIC_1164.ALL; use IEEE.STD_LOGIC_ARITH.ALL; use IEEE.STD_LOGIC_UNSIGNED.ALL;entity led_flowing isPort ( clk …

網絡安全小知識課堂(五)

病毒與蠕蟲&#xff1a;你的電腦為何會 “生病” 和 “傳染”&#xff1f; 引言 你是否見過這樣的場景&#xff1a;電腦突然彈窗廣告暴增&#xff0c;文件莫名消失&#xff0c;甚至整個公司網絡集體癱瘓&#xff1f;這些癥狀背后&#xff0c;可能是 ** 病毒&#xff08;Virus…

RVOS-1.環境搭建與系統引導

0.環境搭建 riscv-operating-system-mooc: 開放課程《循序漸進&#xff0c;學習開發一個 RISC-V 上的操作系統》配套教材代碼倉庫。 mirror to https://github.com/plctlab/riscv-operating-system-mooc 在 Ubuntu 20.04 以上環境下我們可以直接使用官方提供的 GNU工具鏈和 QEM…

UNet 改進(5):結合SE模塊提升圖像分割性能

U-Net是醫學圖像分割領域最成功的架構之一&#xff0c;其對稱的編碼器-解碼器結構和跳躍連接使其能夠有效捕捉多尺度特征。本文將解析一個改進版的U-Net實現&#xff0c;該版本通過引入Squeeze-and-Excitation(SE)模塊進一步提升了模型性能。 一、架構概覽 這個改進的U-Net保持…

機器人擰螺絲緊固裝配(Robot screw fastening assembly)

機器人擰螺絲緊固裝配技術正以其高精度、高效率和高靈活性&#xff0c;重塑著傳統制造業的生產范式。這項融合了機械臂定位、扭矩控制、視覺引導與數據分析的自動化解決方案&#xff0c;不僅將工人從重復性高強度勞動中解放出來&#xff0c;更通過實時數據反饋與精準執行&#…