Python Beautiful Soup 4【HTML/XML解析庫】簡介

Beautiful Soup (bs4) 是一個用于解析 HTML 和 XML 文檔的 Python 庫，常用于網頁抓取（Web Scraping）。它能將復雜的文檔轉換為樹形結構，并提供簡單的方法導航、搜索和修改文檔內容。

核心特性

自動編碼處理
自動將輸入文檔轉換為 Unicode 輸出為 UTF-8，無需擔心編碼問題。
靈活的解析器支持
支持多種解析器：
- html.parser（Python 內置）
- lxml（速度快，需額外安裝）
- html5lib（高容錯性，生成標準 HTML5）
直觀的文檔導航
提供類似 DOM 的操作方式，支持標簽名、屬性、CSS 選擇器等搜索。

安裝方法

pip install beautifulsoup4 requests  # 通常配合 requests 庫使用

基礎用法示例

from bs4 import BeautifulSoup
import requests# 1. 獲取網頁內容
url = "https://example.com"
response = requests.get(url)
html_content = response.text# 2. 創建 BeautifulSoup 對象
soup = BeautifulSoup(html_content, "html.parser")  # 使用內置解析器# 3. 提取數據示例
# 獲取標題
title = soup.title.string
print("頁面標題:", title)# 查找所有鏈接
for link in soup.find_all("a"):print("鏈接:", link.get("href"))# 通過 CSS 類查找
results = soup.select(".main-content")  # 選擇 class="main-content" 的元素
for div in results:print("內容塊:", div.text.strip()[:50] + "...")  # 截取前50字符

常用方法速查

方法	描述
`soup.find(tag)`	返回第一個匹配的標簽
`soup.find_all(tag)`	返回所有匹配的標簽列表
`soup.select(css_selector)`	用 CSS 選擇器查找元素
`tag.get(attr)`	獲取標簽屬性值（如 `href`, `src`）
`tag.text`	獲取標簽內的文本（不含子標簽）
`tag.contents`	獲取子節點列表
`tag.parent`	獲取父節點

處理復雜場景

# 查找特定屬性的元素
soup.find_all("div", class_="header", id="top")  # class 是保留字，需加下劃線# 鏈式查找
first_link = soup.find("div", {"id": "nav"}).find("a")# 提取嵌套數據
for item in soup.select("ul.products > li"):name = item.find("h3").textprice = item.select(".price")[0].textprint(f"{name}: {price}")

注意事項

遵守 robots.txt：抓取前檢查目標網站的爬蟲協議。

設置請求頭：模擬瀏覽器訪問避免被屏蔽：

headers = {"User-Agent": "Mozilla/5.0"}
response = requests.get(url, headers=headers)

錯誤處理：網絡請求和解析需添加異常捕獲：

try:# 解析代碼
except AttributeError:# 處理標簽不存在的情況

進階學習

官方文檔：Beautiful Soup Documentation
實戰項目：商品價格監控、新聞聚合、搜索引擎爬蟲

通過 Beautiful Soup，你可以高效地從網頁中提取結構化數據，是 Python 數據采集的核心工具之一！

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/web/84528.shtml
繁體地址，請注明出處：http://hk.pswp.cn/web/84528.shtml
英文地址，請注明出處：http://en.pswp.cn/web/84528.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！