用Selenium開啟自動化網頁交互與數據抓取之旅
在當今數字化時代,數據的價值不言而喻,而網頁作為海量數據的重要載體,如何高效獲取其中的關鍵信息成為眾多開發者和數據愛好者關注的焦點。Selenium這一強大工具,為我們打開了自動化操作網頁和精準抓取數據的大門。今天,就來和大家深入聊聊Selenium的使用。
一、Selenium是什么
Selenium本質上是一款用于Web應用程序測試的工具,但它的用途遠不止于此。簡單來說,它可以驅動各種瀏覽器,像Chrome、Firefox、Edge等,按照我們編寫的腳本代碼去執行一系列操作,比如點擊按鈕、輸入文本、打開網頁以及驗證頁面元素等,模擬真實用戶在瀏覽器上的行為。這意味著我們可以借助它實現網頁操作的自動化,無論是繁瑣的重復性任務,還是復雜的數據采集工作,都能輕松應對。
二、Selenium的工作原理
瀏覽器能夠被Selenium驅動,關鍵在于webdriver驅動程序。不同的瀏覽器需要對應不同版本的webdriver,例如Chrome瀏覽器就有專門為其開發的chromedriver。webdriver就像是瀏覽器的“遙控器”,通過與瀏覽器內核進行交互,控制瀏覽器執行我們設定的命令。這就要求在使用Selenium時,務必確保下載的webdriver版本與所使用的瀏覽器版本相匹配,否則可能會出現各種兼容性問題。
三、Selenium的使用方法
(一)使用前的準備工作
- 安裝Selenium庫:安裝Selenium非常簡單,使用pip命令即可。在命令行中輸入
pip install selenium -i https://pypi.mirrors.ustc.edu.cn/simple/
,就能快速完成安裝。如果使用的是PyCharm等集成開發環境,也可以在其界面中輕松完成安裝操作。 - 下載瀏覽器內核驅動:以Chrome瀏覽器為例,其內核驅動地址為
https://chromedriver.storage.googleapis.com/index.html
。下載后,根據不同的操作系統進行相應的配置。在Windows系統中,解壓下載的文件,并將其放置在Python安裝目錄的Scripts文件夾下;Linux和Mac系統類似,但要注意系統中可能存在多個Python版本,需確保配置的是當前運行的Python版本的環境變量。
(二)基本操作示例
- 打開網頁并進行搜索:下面這段代碼展示了如何使用Selenium打開蘇寧易購網站,并搜索“手機”。
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.keys import Keys__browser_url = r"C:\Program Files\Google\Chrome\Application\chrome.exe"
chrome_options = Options()
chrome_options.binary_location = __browser_url
driver = webdriver.Chrome(options=chrome_options) driver.get('https://www.suning.com/')
driver.find_element_by_id("searchKeywords").send_keys("手機" + Keys.RETURN)
在這段代碼中,首先創建了一個Options
對象,用于配置瀏覽器的相關參數,然后指定Chrome瀏覽器的安裝路徑,初始化Chrome
驅動。接著使用get
方法打開蘇寧易購網站,再通過find_element_by_id
找到搜索框元素,并使用send_keys
方法輸入“手機”并回車,完成搜索操作。
- 獲取網頁元素信息:在網頁數據抓取中,獲取元素信息是關鍵步驟。比如,我們可以獲取網頁上某個元素的文本內容、屬性值、位置、標簽名以及大小等信息。下面以獲取蘇寧易購手機商品評論為例:
from selenium import webdriver
from selenium.webdriver.edge.options import Options
import time__browser_url = r"C:\Program Files (x86)\Microsoft\Edge\Application\msedge.exe"
chrome_options = Options()
chrome_options.binary_location = __browser_url
driver = webdriver.Edge(options=chrome_options) from selenium.webdriver.common.by import By
driver.get('https://review.suning.com/cluster_cmmdty_review/cluster-38249278-000000012389328846-0000000000-1-good.htm?originalCmmdtyType=general&safp=d488778a.10004.loverRight.166')yzpj_file = open('優質評價1.txt','w')
def get_py_content(file):pj_elments_content = driver.find_elements(by=By.CLASS_NAME,value= 'body-content')for i in range(len(pj_elments_content)):file.write(pj_elments_content[i].text+'\n')
get_py_content(yzpj_file)next_elements = driver.find_elements_by_xpath('//*[@class="next rv-maidian "]')
print(next_elements)
while next_elements !=[]:next_element = next_elements[0]time.sleep(1)next_element.click()get_py_content(yzpj_file)next_elements = driver.find_elements_by_xpath('//*[@class="next rv-maidian "]')
yzpj_file.close()
這段代碼實現了從蘇寧易購手機商品評價頁面抓取優質評價的功能。首先打開指定的評價頁面,然后定義了一個函數get_py_content
,通過find_elements
方法根據類名查找所有評價內容的元素,并將其文本寫入文件。接著,使用find_elements_by_xpath
方法查找“下一頁”按鈕元素,通過循環點擊“下一頁”按鈕,持續獲取并保存多頁的評價內容。
(三)其他常用操作
- 前進、后退與刷新:在瀏覽網頁時,前進、后退和刷新是常見操作,Selenium同樣支持這些功能。
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
import time__browser_url = r"D:\Program Files (x86)\360Roaming\360se6\Application\360se.exe"
chrome_options = Options()
chrome_options.binary_location = __browser_urldriver = webdriver.Chrome(chrome_options=chrome_options)
driver.get('http://www.taobao.com')
driver.get('http://www.baidu.com')
driver.get('http://www.qq.com')
driver.back()
time.sleep(5)
driver.forward()
time.sleep(5)
driver.refresh()
driver.quit()
上述代碼展示了如何在不同網頁之間切換,以及進行后退、前進和刷新操作,最后關閉瀏覽器。
- 操作Cookies:Cookies在網頁交互中用于存儲用戶信息等數據,Selenium也能對其進行操作。
from selenium import webdriver
from selenium.webdriver.chrome.options import Options__browser_url = r"D:\Program Files (x86)\360Roaming\360se6\Application\360se.exe"
chrome_options = Options()
chrome_options.binary_location = __browser_urldriver = webdriver.Chrome(chrome_options=chrome_options)
driver.get('http://www.taobao.com')
print(driver.get_cookies())
driver.add_cookie({'name': 'zhangsan', 'value' : '98'})
print(driver.get_cookies())
這段代碼獲取了淘寶網站的Cookies,并添加了一個自定義的Cookie,再次獲取Cookies以查看添加效果。
四、項目實戰 - 蘇寧易購醫用口罩信息抓取
下面通過一個實際項目,展示Selenium在數據抓取方面的強大功能。我們要從蘇寧易購網站獲取醫用口罩的價格、名稱、評價數和店鋪名稱信息。
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.keys import Keys
import time__browser_url = r"D:\Program Files (x86)\360Roaming\360se6\Application\360se.exe"
chrome_options = Options()
# chrome_options.add_argument('--headless')
chrome_options.binary_location = __browser_urldriver = webdriver.Chrome(chrome_options = chrome_options)
driver.get('http://www.suning.com')
element = driver.find_element_by_xpath("//div/input[@tabindex='0']")
element.send_keys("醫用口罩" + Keys.RETURN)
time.sleep(20)
driver.execute_script('window.scrollTo(0, document.body.scrollHeight)')
time.sleep(20)
price_elements = driver.find_elements_by_xpath('//span[@class="def-price"]')
title_elements = driver.find_elements_by_xpath('//div[@class="title-selling-point"]')
evaluate_elements = driver.find_elements_by_xpath('//div[@class="info-evaluate"]')
store_elements = driver.find_elements_by_xpath('//div[@class="store-stock"]')
f = open('醫用口罩.txt','w',encoding='utf-8')
for i in range(len(price_elements)):f.write(price_elements[i].text + '\t')f.write(title_elements[i].text + '\t')f.write(evaluate_elements[i].text + '\t')f.write(store_elements[i].text + '\n')
f.close()
在這個項目中,首先打開蘇寧易購網站,通過XPath找到搜索框并輸入“醫用口罩”進行搜索。然后使用execute_script
方法將頁面滾動到底部,以便加載更多商品信息。接著,通過XPath分別獲取價格、名稱、評價數和店鋪名稱的元素,并將這些信息寫入文件中。
Selenium為我們提供了豐富的功能,讓網頁自動化操作和數據抓取變得更加高效便捷。無論是進行網頁測試、數據采集還是自動化任務處理,它都是一個不可多得的好幫手。希望通過這篇博客,大家能對Selenium的使用有更深入的了解,在實際項目中充分發揮它的優勢。