【 Beautiful Soup (bs4) 詳解】

引言

Beautiful Soup 是 Python 最流行的 HTML/XML 解析庫,能夠從復雜的網頁文檔中高效提取數據。以下是其核心知識點及示例代碼。


一、庫簡介

1. 核心模塊

  • BeautifulSoup:主類,用于構建文檔樹結構
  • Tag:表示 HTML/XML 標簽的對象
  • NavigableString:標簽內文本內容的特殊字符串類型
  • Comment:處理 HTML 注釋的特殊類型

2. 主要特性

  • 自動修復不規范文檔
  • 支持多種解析器(html.parser, lxml, html5lib)
  • 提供 DOM 樹遍歷和搜索方法

二、安裝與基礎使用

1. 安裝

pip install beautifulsoup4  # 安裝 bs4
pip install lxml           # 推薦安裝高效解析器

2. 基礎示例

from bs4 import BeautifulSoup# 示例 HTML 文檔
html_doc = """
<html>
<head><title>測試頁面</title></head>
<body>
<div class="content"><h1 id="main-title">網頁標題</h1><p class="text">第一段文字</p><p class="text special">特殊段落</p><a href="https://example.com">示例鏈接</a>
</div>
</body>
</html>
"""# 創建 BeautifulSoup 對象(指定解析器)
soup = BeautifulSoup(html_doc, 'lxml')# 獲取標題文本
title = soup.title.string
print("頁面標題:", title)  # 輸出: 測試頁面

三、核心操作示例

1. 標簽查找

# 查找第一個 div 標簽
div_tag = soup.find('div')
print("Div 類名:", div_tag['class'])  # 輸出: ['content']# 查找所有 p 標簽
p_tags = soup.find_all('p')
for i, p in enumerate(p_tags, 1):print(f"段落{i}:", p.text)

2. CSS 選擇器

# 選擇類名為 "text" 的所有元素
text_elements = soup.select('.text')
print("找到的文本元素數量:", len(text_elements))  # 輸出: 2# 選擇 id 為 main-title 的元素
title = soup.select_one('#main-title')
print("主標題:", title.text)  # 輸出: 網頁標題

3. 屬性操作

# 獲取鏈接的 href 屬性
link = soup.find('a')
print("鏈接地址:", link['href'])  # 輸出: https://example.com# 修改標簽屬性
link['target'] = '_blank'
print("修改后的鏈接標簽:", link)

4. 文檔樹導航

# 父子節點操作
body_tag = soup.body
print("Body 的直接子節點數量:", len(list(body_tag.children)))  # 輸出: 3(含空白文本節點)# 兄弟節點查找
first_p = soup.find('p')
next_p = first_p.find_next_sibling('p')
print("下一個段落的類名:", next_p['class'])  # 輸出: ['text', 'special']

5. 文本處理

# 獲取所有文本內容(合并結果)
full_text = soup.get_text()
print("完整文本:", full_text.strip())# 處理注釋
comment_html = "<p>這是一段<!-- 這是注釋 -->測試文本</p>"
comment_soup = BeautifulSoup(comment_html, 'lxml')
comment = comment_soup.p.next_element.next_element
print("注釋內容:", comment)  # 輸出: 這是注釋

四、高級應用示例

1. 提取表格數據

table_html = """
<table><tr><th>姓名</th><th>年齡</th></tr><tr><td>張三</td><td>25</td></tr><tr><td>李四</td><td>30</td></tr>
</table>
"""table_soup = BeautifulSoup(table_html, 'lxml')
rows = table_soup.find_all('tr')# 提取表格數據到字典列表
data = []
for row in rows[1:]:  # 跳過表頭cols = row.find_all('td')data.append({'name': cols[0].text,'age': int(cols[1].text)})print("表格數據:", data)

2. 處理嵌套結構

# 多層嵌套選擇
nested_html = """
<div class="article"><div class="header"><h2>文章標題</h2><div class="meta">2023-08-01</div></div><div class="content"><p>正文內容...</p></div>
</div>
"""nested_soup = BeautifulSoup(nested_html, 'lxml')
meta = nested_soup.select('.article > .header > .meta')
print("發布日期:", meta[0].text)  # 輸出: 2023-08-01

五、注意事項

  1. 解析器選擇

    • html.parser:Python 內置,速度一般
    • lxml:速度快,需要額外安裝
    • html5lib:容錯性最好,速度最慢
  2. 編碼處理

    # 顯式指定編碼
    soup = BeautifulSoup(html_content, 'lxml', from_encoding='utf-8')
    
  3. 動態內容處理

    • 對于 JavaScript 渲染的頁面,需要配合 Selenium 或 Requests-HTML 使用

官方文檔:https://www.crummy.com/software/BeautifulSoup/bs4/doc/

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/900944.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/900944.shtml
英文地址,請注明出處:http://en.pswp.cn/news/900944.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

傅利葉發布首款開源人形機器人N1:開發者可實現完整復刻

2025年4月11日&#xff0c;上海——通用機器人公司傅利葉正式發布首款開源人形機器人 Fourier N1&#xff0c;并同步開放涵蓋物料清單、設計圖紙、裝配指南、基礎操作軟件在內的完整本體資源包。作為傅利葉 “Nexus 開源生態矩陣” 的首個落地項目&#xff08;“N1” 即 “Nexu…

視覺目標檢測大模型GAIA

中國科學院自動化研究所智能感知與計算研究中心攜手華為等領軍企業&#xff0c;共同推出面向產業應用的視覺目標檢測全流程解決方案——GAIA智能檢測平臺。該研究成果已獲CVPR 2021會議收錄&#xff08;論文鏈接&#xff1a; 論文地址&#xff1a;https://arxiv.org/pdf/2106.…

前端時間同步利器:React + useEffect 實現高性能動態時鐘

前言 在你奮筆疾敲代碼的瞬間&#xff0c;是不是突然一低頭&#xff0c;發現時間像偷偷跑路的變量&#xff0c;一眨眼就從上午飄到下午&#xff1f;飯沒吃、會沒開、工位也快被前端貓霸占了。仿佛你寫的不是代碼&#xff0c;而是“時間穿梭機”。別慌&#xff0c;咱們今天就來…

前端動畫性能優化

前端動畫性能優化全攻略&#xff1a;告別卡頓與高CPU占用 一、動畫性能問題現狀分析 1.1 性能問題現象 動畫幀率低于60FPS時出現明顯卡頓滾動/縮放操作時響應延遲CPU占用率長期超過70%移動端設備發熱嚴重 1.2 核心問題根源 瀏覽器渲染流程中的性能瓶頸主要出現在&#xff1…

springboot中如何處理跨域

什么是跨域 跨域&#xff08;Cross-Origin&#xff09;是瀏覽器出于安全考慮&#xff0c;對不同源的資源訪問施加的限制機制。其核心原因是同源策略&#xff08;Same-Origin Policy&#xff09;&#xff0c;即瀏覽器僅允許協議&#xff08;Protocol&#xff09;、域名&#xf…

js實現生肖宜忌展示

實現效果圖如下 實現邏輯&#xff1a; 1.錄入屬相列表&#xff08;列表順序不可調整&#xff09;&#xff1b; 2.錄入各屬相相宜、相忌屬相&#xff1b; 3.輸入年份后&#xff0c;根據屬相列表獲取到正確的屬相&#xff1b; 4.根據獲取的屬相去展示宜、忌屬相&#xff1b; 5.打…

3DMAX筆記-UV知識點和烘焙步驟

1. 在展UV時&#xff0c;如何點擊模型&#xff0c;就能選中所有這個模型的uv 2. 分多張UV時&#xff0c;不同的UV的可以設置為不同的顏色&#xff0c;然后可以通過顏色進行篩選。 3. 烘焙步驟 擺放完UV后&#xff0c;要另存為一份文件&#xff0c;留作備份 將模型部件全部分成…

AI 重構 Java 遺留系統:從靜態方法到 Spring Bean 注入的自動化升級

在當今快速發展的軟件行業中&#xff0c;許多企業都面臨著 Java 遺留系統的維護和升級難題。這些老舊系統往往采用了大量靜態方法&#xff0c;隨著業務的不斷發展&#xff0c;其局限性日益凸顯。而飛算 JavaAI 作為一款強大的 AI 工具&#xff0c;為 Java 遺留系統的重構提供了…

【從一個 TypeScript 報錯理解 ES6 模塊的三種導入方式】

從一個 TypeScript 報錯理解 ES6 模塊的三種導入方式 在日常開發中&#xff0c;我們經常遇到模塊導入導出的場景。最近在處理一個項目時&#xff0c;遇到了一個有趣的問題&#xff1a;對于只有默認導出的模塊&#xff0c;我們該使用哪種導入方式&#xff1f;這個問題引發了對 …

安徽京準:NTP網絡時鐘服務器功能及同步模式的介紹

安徽京準&#xff1a;NTP網絡時鐘服務器功能及同步模式的介紹 安徽京準&#xff1a;NTP網絡時鐘服務器功能及同步模式的介紹 1、NTP網絡時鐘服務器概念&#xff1a; NTP時鐘服務器&#xff0c;表面意思是時間計量工具的服務設備&#xff0c;其在現代工業中是用于對客戶端設備…

JMeter從入門到荒廢-常見問題匯總

啟動某個ThreadGroup的時候&#xff0c;啟動不了 現象 點擊start按鈕的時候&#xff0c;結果樹和匯總報告都沒有任何數據。 同時&#xff0c;點擊右上角的error log 發現有錯誤信息&#xff1a; 錯誤信息如下&#xff1a; 2025-04-09 10:03:48,009 ERROR o.a.j.g.a.ActionR…

Elasticsearch 學習規劃

Elasticsearch 學習規劃 明確學習目標與動機 場景化需求分析 - **S**&#xff1a;掌握Elasticsearch架構體系&#xff0c;熟練使用Elasticsearch 進行數據分析,Elasticsearch結合java 項目落地案例 - **M**&#xff1a;搜索和Elasticsearch相關GitHub項目 - **A**&#xff1a;每…

核心案例 | 湖南汽車工程職業大學無人機操控與編隊技術實驗室

核心案例 | 湖南汽車工程職業大學無人機操控與編隊技術實驗室 為滿足當今無人機行業應用需求&#xff0c;推動無人機技術的教育與實踐深度融合&#xff0c;北京卓翼智能科技有限公司旗下品牌飛思實驗室與湖南汽車工程職業大學強強聯手&#xff0c;共同建設無人機操控與編隊技術…

【Android】Android 獲取當前前臺應用包名與自動化控制全流程實踐筆記(適配 Android 10+)

一、前言 在 Android 系統中&#xff0c;獲取當前運行的前臺應用、返回桌面、跳轉權限設置、關閉其他應用等行為&#xff0c;往往受到系統的嚴格限制。隨著 Android 版本的提升&#xff08;特別是 Android 10 之后&#xff0c;即 API 29&#xff09;&#xff0c;很多傳統方法已…

Sentinel核心源碼分析(上)

文章目錄 前言一、客戶端與Spring Boot整合二、SphU.entry2.1、構建責任鏈2.2、調用責任鏈2.2.1、NodeSelectorSlot2.2.2、ClusterBuilderSlot2.2.3、LogSlot2.2.4、StatisticSlot2.2.5、AuthoritySlot2.2.6、SystemSlot2.2.7、FlowSlot2.2.7.1、selectNodeByRequesterAndStrat…

淺談「分詞」:原理 + 方案對比 + 最佳實踐

在文本搜索、自然語言處理、智能推薦等場景中&#xff0c;「分詞」 是一個基礎但至關重要的技術點。無論是用數據庫做模糊查詢&#xff0c;還是構建搜索引擎&#xff0c;分詞都是提高效率和準確度的核心手段。 &#x1f50d; 一、什么是分詞&#xff1f; 分詞&#xff08;Tok…

transformers:打造的先進的自然語言處理

github地址&#xff1a;https://github.com/huggingface/transformers Transformers 提供了數以千計的預訓練模型&#xff0c;支持 100 多種語言的文本分類、信息抽取、問答、摘要、翻譯、文本生成。它的宗旨是讓NLP 技術人易用。 Transformers 提供了便于快速下載和使用的API…

Spring Boot 集成 MongoDB 時自動創建的核心 Bean 的詳細說明及表格總結

以下是 Spring Boot 集成 MongoDB 時自動創建的核心 Bean 的詳細說明及表格總結&#xff1a; 核心 Bean 列表及詳細說明 1. MongoClient 類型&#xff1a;com.mongodb.client.MongoClient作用&#xff1a; MongoDB 客戶端核心接口&#xff0c;負責與 MongoDB 服務器建立連接、…

113. 在 Vue 3 中使用 OpenLayers 實現鼠標移動顯示坐標信息

? 寫在前面 在地圖類項目開發中&#xff0c;一個常見需求就是&#xff1a;實時獲取用戶鼠標在地圖上的經緯度坐標&#xff0c;并展示在地圖上。 本文將通過一個簡單的案例&#xff0c;手把手帶大家在 Vue 3 項目中集成 OpenLayers 地圖庫&#xff0c;并實現以下功能&#xf…

docker配置redis容器時搭載哨兵節點的情況下配置文件docker-compose.yml示例

1.配置數據節點&#xff08;主從節點&#xff09; version: 3.7 services:master:image: redis:5.0.9container_name: redis-masterrestart: alwayscommand: redis-server --appendonly yesports:- 6379:6379slave1:image: redis:5.0.9container_name: redis-slave1restart: a…