一、項目背景與價值
1?為什么爬取商品好評?
消費者洞察:分析用戶真實反饋,了解產品優缺點
市場研究:監測競品評價趨勢,優化產品策略
二.實現代碼
from selenium import webdriver
from selenium.webdriver.edge.options import Options
from selenium.webdriver.common.by import By
import time
edge_options=Options()
edge_options.binary_location=r"C:\Program Files (x86)\Microsoft\Edge\Application\msedge.exe"
driver=webdriver.Edge(options=edge_options)
driver.get('https://review.suning.com/cluster_cmmdty_review/cluster-38249278-000000012389328846-0000000000-1-good.htm?originalCmmdtyType=general&safp=d488778a.10004.loverRight.166%27')
yzhp=open('優質好評.txt','w',encoding='utf-8')
def get_centent(file):a=driver.find_elements(by=By.CLASS_NAME,value='body-content')for i in range(len(a)):file.write(a[i].text+'\n')
get_centent(yzhp)
next_elements=driver.find_elements(by=By.CSS_SELECTOR,value='.next.rv-maidian ')
print(next_elements)
while next_elements !=[]:next_element=next_elements[0]time.sleep(3)next_element.click()get_centent(yzhp)next_elements=driver.find_elements(by=By.CSS_SELECTOR,value='.next.rv-maidian ')
yzhp.close()
三.實現思路
代碼前7行:核心目的:創建可控制的瀏覽器。實例通過binary_location指定Edge瀏覽器執行路徑
使用Selenium的Edge驅動實現瀏覽器自動化。
第8行代碼:目標設定,訪問蘇寧易購特定商品的優質好評頁面
第9行代碼:創建一個yzhp的文件以w方式打開設置編碼為utf-8
第10-13行:定義一個函數,通過CLASS_NAME定位body-content元素精準捕獲用戶評價文本內容,通過for循環將文本內容寫入yzhp的文件里。
第14行:調用get_centent函數
第15行:通過CSS選擇器定位.next.rv-maidian 下一頁按鈕
第17-22行:通過while循環檢測直到按鈕不存在關閉文件,如果存在則點擊下一頁繼續調用get_centent函數將下一頁的好評寫入yzhp文件中。
此代碼實現了蘇寧易購好評數據的基礎采集,核心思路清晰高效。通過擴展數據字段、優化等待機制和增強異常處理,可構建企業級電商數據采集系統。