python 常用的6個爬蟲第三方庫

Python中有非常多用于網絡數據采集的庫，功能非常強大，有的用于抓取網頁，有的用于解析網頁，這里介紹6個最常用的庫。

1. BeautifulSoup

BeautifulSoup是最常用的Python網頁解析庫之一，可將 HTML 和 XML 文檔解析為樹形結構，能更方便地識別和提取數據。

BeautifulSoup可以自動將輸入文檔轉換為 Unicode，將輸出文檔轉換為 UTF-8。此外，你還可以設置 BeautifulSoup 掃描整個解析頁面，識別所有重復的數據（例如，查找文檔中的所有鏈接），只需幾行代碼就能自動檢測特殊字符等編碼。

from bs4 import BeautifulSoup  # 假設這是我們從某個網頁獲取的HTML內容（這里直接以字符串形式給出）  
html_content = """  
<html>  
<head>  <title>示例網頁</title>  
</head>  
<body>  <h1>歡迎來到BeautifulSoup示例</h1>  <p class="introduction">這是一個關于BeautifulSoup的簡單示例。</p>  <a href="https://www.example.com/about" class="link">關于我們</a>  
</body>  
</html>  
"""  # 使用BeautifulSoup解析HTML內容，這里默認使用Python的html.parser作為解析器  
# 你也可以指定其他解析器，如'lxml'或'html5lib'，但需要先安裝它們  
soup = BeautifulSoup(html_content, 'html.parser')  # 提取并打印<title>標簽的文本內容  
print("網頁標題:", soup.title.string)  # 網頁標題: 示例網頁  # 提取并打印<p>標簽的文本內容，這里使用class屬性來定位  
print("介紹內容:", soup.find('p', class_='introduction').string)  # 介紹內容: 這是一個關于BeautifulSoup的簡單示例。  # 提取并打印<a>標簽的href屬性和文本內容  
link = soup.find('a', class_='link')  
print("鏈接地址:", link['href'])  # 鏈接地址: https://www.example.com/about  
print("鏈接文本:", link.string)  # 鏈接文本: 關于我們  # 注意：如果HTML內容中包含多個相同條件的標簽，你可以使用find_all()來獲取它們的一個列表  
# 例如，要獲取所有<a>標簽的href屬性，可以這樣做：  
all_links = [a['href'] for a in soup.find_all('a')]  
print("所有鏈接地址:", all_links)  # 假設HTML中有多個<a>標簽，這里將列出它們的href屬性  
# 注意：上面的all_links列表在當前的HTML內容中只有一個元素，因為只有一個<a>標簽

2.?Scrapy

Scrapy是一個流行的高級爬蟲框架，可快速高效地抓取網站并從其頁面中提取結構化數據。

由于 Scrapy 主要用于構建復雜的爬蟲項目，并且它通常與項目文件結構一起使用

Scrapy 不僅僅是一個庫，還可以用于各種任務，包括監控、自動測試和數據挖掘。這個 Python 庫包含一個內置的選擇器（Selectors）功能，可以快速異步處理請求并從網站中提取數據。

# 假設這個文件名為 my_spider.py，但它實際上應該放在 Scrapy 項目的 spiders 文件夾中  import scrapy  class MySpider(scrapy.Spider):  # Spider 的名稱，必須是唯一的  name = 'example_spider'  # 允許爬取的域名列表（可選）  # allowed_domains = ['example.com']  # 起始 URL 列表  start_urls = [  'http://example.com/',  ]  def parse(self, response):  # 這個方法用于處理每個響應  # 例如，我們可以提取網頁的標題  title = response.css('title::text').get()  if title:  # 打印標題（在控制臺輸出）  print(f'Title: {title}')  # 你還可以繼續爬取頁面中的其他鏈接，這里只是簡單示例  # 例如，提取所有鏈接并請求它們  # for href in response.css('a::attr(href)').getall():  #     yield scrapy.Request(url=response.urljoin(href), callback=self.parse)  # 注意：上面的代碼只是一個 Spider 類的定義。  
# 要運行這個 Spider，你需要將它放在一個 Scrapy 項目中，并使用 scrapy crawl 命令來啟動爬蟲。  
# 例如，如果你的 Scrapy 項目名為 myproject，并且你的 Spider 文件名為 my_spider.py，  
# 那么你應該在項目根目錄下運行以下命令：  
# scrapy crawl example_spider

3.?Selenium

Selenium 是一款基于瀏覽器地自動化程序庫，可以抓取網頁數據。它能在 JavaScript 渲染的網頁上高效運行，這在其他 Python 庫中并不多見。

在開始使用 Python 處理 Selenium 之前，需要先使用 Selenium Web 驅動程序創建功能測試用例。

Selenium 庫能很好地與任何瀏覽器（如 Firefox、Chrome、IE 等）配合進行測試，比如表單提交、自動登錄、數據添加/刪除和警報處理等。

from selenium import webdriver  
from selenium.webdriver.common.keys import Keys  
from selenium.webdriver.common.by import By  
from selenium.webdriver.support.ui import WebDriverWait  
from selenium.webdriver.support import expected_conditions as EC  # 設置WebDriver的路徑（根據你的系統路徑和WebDriver版本修改）  
driver_path = '/path/to/your/chromedriver'  # 初始化WebDriver  
driver = webdriver.Chrome(executable_path=driver_path)  try:  # 打開網頁  driver.get('https://www.example.com')  # 等待頁面加載完成（這里使用隱式等待，針對所有元素）  # 注意：隱式等待可能會影響性能，通常在腳本開始時設置一次  driver.implicitly_wait(10)  # 秒  # 查找并輸入文本到搜索框（假設搜索框有一個特定的ID或類名等）  # 這里以ID為'search'的輸入框為例  search_box = driver.find_element(By.ID, 'search')  search_box.send_keys('Selenium WebDriver')  # 提交搜索（假設搜索按鈕是一個類型為submit的按鈕或是一個可以點擊的輸入框）  # 如果搜索是通過按Enter鍵觸發的，可以直接在search_box上使用send_keys(Keys.ENTER)  # 這里假設有一個ID為'submit'的按鈕  submit_button = driver.find_element(By.ID, 'submit')  submit_button.click()  # 等待搜索結果加載完成（這里使用顯式等待作為示例）  # 假設搜索結果頁面有一個特定的元素，我們等待它出現  wait = WebDriverWait(driver, 10)  # 等待最多10秒  element = wait.until(EC.presence_of_element_located((By.ID, 'results')))  # 執行其他操作...  finally:  # 關閉瀏覽器  driver.quit()

4. requests

不用多說，requests 是 Python 中一個非常流行的第三方庫，用于發送各種 HTTP 請求。它簡化了 HTTP 請求的發送過程，使得從網頁獲取數據變得非常簡單和直觀。

requests 庫提供了豐富的功能和靈活性，支持多種請求類型（如 GET、POST、PUT、DELETE 等），可以發送帶有參數、頭信息、文件等的請求，并且能夠處理復雜的響應內容（如 JSON、XML 等）。

import requests  # 目標URL  
url = 'https://httpbin.org/get'  # 發送GET請求  
response = requests.get(url)  # 檢查請求是否成功  
if response.status_code == 200:  # 打印響應內容  print(response.text)  
else:  # 打印錯誤信息  print(f'請求失敗，狀態碼：{response.status_code}')

5.?urllib3

urllib3 是 Python內置網頁請求庫，類似于 Python 中的requests庫，主要用于發送HTTP請求和處理HTTP響應。它建立在Python標準庫的urllib模塊之上，但提供了更高級別、更健壯的API。

urllib3可以用于處理簡單身份驗證、cookie 和代理等復雜任務。

import urllib3  # 創建一個HTTP連接池  
http = urllib3.PoolManager()  # 目標URL  
url = 'https://httpbin.org/get'  # 使用連接池發送GET請求  
response = http.request('GET', url)  # 檢查響應狀態碼  
if response.status == 200:  # 打印響應內容（注意：urllib3默認返回的是bytes類型，這里我們將其解碼為str）  print(response.data.decode('utf-8'))  
else:  # 如果響應狀態碼不是200，則打印錯誤信息  print(f'請求失敗，狀態碼：{response.status}')  # 注意：urllib3沒有直接的方法來處理JSON響應，但你可以使用json模塊來解析  
# 如果響應內容是JSON，你可以這樣做：  
# import json  
# json_response = json.loads(response.data.decode('utf-8'))  
# print(json_response)

6. lxml

lxml是一個功能強大且高效的Python庫，主要用于處理XML和HTML文檔。它提供了豐富的API，使得開發者可以輕松地讀取、解析、創建和修改XML和HTML文檔。

from lxml import etree  # 假設我們有一段HTML或XML內容，這里以HTML為例  
html_content = """  
<html>  <head>  <title>示例頁面</title>  </head>  <body>  <h1>歡迎來到我的網站</h1>  <p class="description">這是一個使用lxml解析的示例頁面。</p>  <ul>  <li>項目1</li>  <li>項目2</li>  </ul>  </body>  
</html>  
"""  # 使用lxml的etree模塊來解析HTML或XML字符串  
# 注意：對于HTML內容，我們使用HTMLParser解析器  
parser = etree.HTMLParser()  
tree = etree.fromstring(html_content, parser=parser)  # 查找并打印<title>標簽的文本  
title = tree.find('.//title').text  
print("頁面標題:", title)  # 查找并打印class為"description"的<p>標簽的文本  
description = tree.find('.//p[@class="description"]').text  
print("頁面描述:", description)  # 查找所有的<li>標簽，并打印它們的文本  
for li in tree.findall('.//li'):  print("列表項:", li.text)  # 注意：lxml也支持XPath表達式來查找元素，這里只是簡單展示了find和findall的用法  
# XPath提供了更強大的查詢能力