Selenium 實現自動化分頁處理與信息提取

在 Web 自動化測試或數據抓取場景中，分頁處理是一個常見的需求。通過 Selenium，我們可以實現對多頁面內容的自動遍歷，并從中提取所需的信息。本文將詳細介紹如何利用 Selenium 進行自動化分頁處理和信息提取。

一、Selenium 分頁處理的基本思路

在實際應用中，網頁通常會采用分頁顯示數據（例如商品列表、新聞列表等）。每一頁的內容通過不同的 URL 或動態加載的方式呈現。以下是分頁處理的一般步驟：

定位分頁控件：
- 找到“下一頁”按鈕、“上一頁”按鈕或頁碼選擇器。
循環遍歷頁面：
- 通過循環點擊“下一頁”按鈕，或者直接跳轉到指定頁碼的方式，逐頁加載內容。
提取每頁數據：
- 在每一頁加載完成后，定位并提取目標信息（如文本、圖片鏈接等）。
終止條件：
- 設置終止循環的條件（例如到達最后一頁、沒有更多數據等）。

二、Selenium 分頁處理的核心技術點

1. 定位分頁控件

在 Selenium 中，我們需要通過元素定位方法（如 XPath、CSS Selector 等）找到分頁控件。常見的分頁控件包括：

下一頁按鈕：例如 <button class="next-page">下一頁</button>。
上一頁按鈕：例如 <button class="prev-page">上一頁</button>。
頁碼選擇器：例如 <select class="page-select"> 包含多個頁碼選項。

2. 處理動態加載內容

部分網頁采用動態加載技術（如 AJAX），當用戶點擊“下一頁”按鈕時，頁面內容會通過 JavaScript 動態更新。此時需要等待頁面加載完成，確保數據被正確提取。

3. 循環遍歷頁面

Selenium 提供了豐富的元素操作方法，可以通過循環實現分頁的自動遍歷。例如：

點擊“下一頁”按鈕，直到無法點擊為止。
直接跳轉到指定頁碼（適用于支持直接輸入頁碼的場景）。

4. 數據提取與存儲

在每一頁加載完成后，使用 Selenium 或其他工具（如 BeautifulSoup、lxml）提取目標信息，并將其存儲為文件或數據庫中的數據。

三、Selenium 分頁處理的典型實現

以下是一個完整的示例代碼，展示了如何利用 Selenium 實現分頁處理和信息提取：

示例場景：從某電商網站提取商品列表

假設目標網頁是一個商品列表頁面，每一頁顯示一定數量的商品信息。我們的任務是：

遍歷所有頁面。
提取每一件商品的標題、價格和鏈接。

代碼實現

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import time
import pandas as pd# 初始化 WebDriver（以 Chrome 為例）
options = webdriver.ChromeOptions()
options.add_argument('--start-maximized')
driver = webdriver.Chrome(options=options)try:# 打開目標頁面driver.get('https://example.com/products')# 存儲提取的數據data = []while True:# 等待當前頁面加載完成（定位商品列表容器）product_container = WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.CSS_SELECTOR, '.product-list')))# 提取每一件商品的信息products = product_container.find_elements(By.CSS_SELECTOR, '.product-item')for product in products:title = product.find_element(By.CSS_SELECTOR, '.product-title').textprice = product.find_element(By.CSS_SELECTOR, '.price').textlink = product.find_element(By.CSS_SELECTOR, 'a').get_attribute('href')data.append({'標題': title,'價格': price,'鏈接': link})# 檢查是否還有下一頁next_button = driver.find_elements(By.CSS_SELECTOR, '.next-page')if len(next_button) == 0:break  # 已到達最后一頁# 點擊“下一頁”按鈕，并等待新頁面加載next_button[0].click()time.sleep(2)  # 等待頁面加載（可根據實際情況調整）except Exception as e:print(f"發生異常：{e}")finally:# 關閉瀏覽器driver.quit()# 將數據保存為 CSV 文件
df = pd.DataFrame(data)
df.to_csv('products.csv', index=False, encoding='utf-8-sig')
print("數據已成功提取并保存到 products.csv")

四、代碼解析與關鍵點

1. 初始化 WebDriver

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import time
import pandas as pdoptions = webdriver.ChromeOptions()
options.add_argument('--start-maximized')
driver = webdriver.Chrome(options=options)

WebDriver: 使用 Chrome 瀏覽器進行自動化操作。
Options: 設置瀏覽器窗口最大化，避免因窗口大小導致的定位問題。

2. 打開目標頁面

driver.get('https://example.com/products')

這里需要替換為目標網站的實際 URL。

3. 提取數據

等待當前頁面加載完成：

product_container = WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.CSS_SELECTOR, '.product-list'))
)

使用 WebDriverWait 等待目標元素（商品列表容器）加載完成。

提取每一件商品的信息：

products = product_container.find_elements(By.CSS_SELECTOR, '.product-item')
for product in products:title = product.find_element(By.CSS_SELECTOR, '.product-title').textprice = product.find_element(By.CSS_SELECTOR, '.price').textlink = product.find_element(By.CSS_SELECTOR, 'a').get_attribute('href')data.append({'標題': title,'價格': price,'鏈接': link})

使用 CSS 選擇器定位商品信息，并提取標題、價格和鏈接。

4. 處理分頁

檢查是否還有下一頁：

next_button = driver.find_elements(By.CSS_SELECTOR, '.next-page')
if len(next_button) == 0:break  # 已到達最后一頁

點擊“下一頁”按鈕：
```
next_button[0].click()
time.sleep(2)
```
- 點擊“下一頁”按鈕，并等待新頁面加載。

5. 數據存儲

將數據轉換為 DataFrame：
```
df = pd.DataFrame(data)
```
保存為 CSV 文件：
```
df.to_csv('products.csv', index=False, encoding='utf-8-sig')
```
- 使用 pandas 將數據保存為 CSV 格式，便于后續分析。

五、注意事項

反爬機制：部分網站會對頻繁的請求進行限制（如 IP 封鎖）。可以考慮使用代理或調整請求頻率。
動態加載內容：對于采用動態加載技術的網頁，需要等待 JavaScript 執行完畢后再進行數據提取。
異常處理：在實際開發中，應增加更多的異常處理邏輯，確保程序健壯性。
性能優化：如果目標網站包含大量頁面和數據，可以考慮使用多線程或分布式爬蟲技術。

六、總結

通過上述代碼實現，我們展示了如何利用 Selenium 實現分頁處理和數據提取。該方法適用于大多數采用傳統分頁方式的網頁，并且具有較高的靈活性和可擴展性。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/diannao/79797.shtml
繁體地址，請注明出處：http://hk.pswp.cn/diannao/79797.shtml
英文地址，請注明出處：http://en.pswp.cn/diannao/79797.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！