Python實戰：海量獲取京東商品信息

在數據驅動的商業時代，數據就是最寶貴的資源。對于電商從業者、市場分析師而言，從京東這類大型電商平臺獲取商品信息，能夠為市場調研、競品分析、銷售策略制定提供重要依據。今天，就來分享如何用Python實現京東商品信息的海量獲取。

一、準備工作

（一）環境搭建

首先，確保你的電腦安裝了Python 3.x版本。Python 3在語法簡潔性、性能優化以及對新特性的支持上更勝一籌。安裝完成后，還要為Python配置好環境變量，讓系統能夠順利識別Python命令。

接下來是安裝第三方庫，這是實現爬蟲功能的關鍵。通過pip命令，可以輕松安裝所需的庫：

- ?requests?：用于發送HTTP請求，與京東服務器進行通信，獲取網頁內容。

- ?BeautifulSoup?：負責解析HTML頁面，將雜亂的網頁代碼轉化為結構化的數據，方便我們提取所需信息。

- ?pandas?：強大的數據處理和分析庫，能將爬取到的數據整理成規范的表格形式，便于后續分析和存儲。

- ?time?：控制請求間隔時間，避免因請求過于頻繁而觸發京東的反爬機制。

- ?random?：生成隨機數，結合?time?庫，實現更靈活的請求間隔設置，讓爬蟲行為更接近真實用戶。

安裝命令如下：

pip install requests beautifulsoup4 pandas time random

（二）分析網頁結構

在編寫代碼前，要深入了解京東商品頁面的結構。打開京東網站，輸入目標商品關鍵詞，比如“筆記本電腦”，進入商品搜索結果頁面。按下F12鍵，調出瀏覽器的開發者工具，通過“Elements”選項卡，查看頁面的HTML代碼。

仔細觀察可以發現，商品的名稱、價格、銷量、評價等信息都包含在特定的HTML標簽和類名中。例如，商品名稱可能在?<div class="p-name">?標簽內，價格在?<div class="p-price">?標簽內。掌握這些標簽和類名的規律，是精準提取商品信息的基礎。

（三）構造請求頭

京東作為大型電商平臺，有著嚴格的反爬機制。為了讓爬蟲順利獲取數據，需要構造合理的請求頭，偽裝成真實用戶的訪問行為。請求頭中，?User - Agent?字段尤為重要，它標識了訪問客戶端的信息，包括瀏覽器類型、版本、操作系統等。我們可以在網上搜索常見的?User - Agent?，然后隨機選擇一個進行設置，模擬不同用戶的訪問：

import random

user_agents = [

? ? "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36",

? ? "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36",

? ? # 更多User - Agent

]

headers = {

? ? "User - Agent": random.choice(user_agents)

}

二、代碼實現

（一）發送請求獲取頁面內容

使用?requests?庫向京東商品頁面發送GET請求，獲取網頁的HTML內容：

import requests

url = "https://search.jd.com/Search?keyword=筆記本電腦" # 可替換為其他商品關鍵詞

response = requests.get(url, headers=headers)

if response.status_code == 200:

? ? html_content = response.text

else:

? ? print(f"請求失敗，狀態碼：{response.status_code}")

這里，?requests.get()?方法發送請求，?headers?參數傳遞構造好的請求頭。如果請求成功，狀態碼為200，將網頁內容存儲在?html_content?變量中；否則，打印出錯誤狀態碼。

（二）解析頁面提取商品信息

借助?BeautifulSoup?庫解析HTML內容，提取商品信息：

from bs4 import BeautifulSoup

soup = BeautifulSoup(html_content, 'html.parser')

products = soup.find_all('div', class_='gl-i-wrap') # 假設商品信息所在的div類名為gl-i-wrap

data = []

for product in products:

? ? name = product.find('div', class_='p-name').find('em').text.strip()

? ? price = product.find('div', class_='p-price').find('i').text.strip()

? ? # 嘗試獲取銷量信息，若無則設為None

? ? sales = product.find('div', class_='p-commit').find('strong')

? ? if sales:

? ? ? ? sales = sales.text.strip()

? ? else:

? ? ? ? sales = None

? ? data.append({

? ? ? ? '商品名稱': name,

? ? ? ? '商品價格': price,

? ? ? ? '商品銷量': sales

? ? })

這段代碼中，?BeautifulSoup(html_content, 'html.parser')?創建解析對象，?find_all()?方法查找所有包含商品信息的?<div>?標簽。然后，通過層層查找子標簽，提取商品名稱、價格和銷量信息，并存儲在?data?列表中。

（三）數據存儲

利用?pandas?庫將提取到的數據整理成表格形式，并保存為CSV文件：

import pandas as pd

df = pd.DataFrame(data)

df.to_csv('jd_products.csv', index=False, encoding='utf-8-sig')

?pd.DataFrame(data)?將列表數據轉換為DataFrame表格，?to_csv()?方法將表格保存為CSV文件，?index=False?表示不保存行索引，?encoding='utf-8-sig'?確保文件編碼正確，避免中文亂碼問題。

三、進階與優化

（一）分頁爬取

京東商品搜索結果通常有多頁，要獲取海量數據，就需要實現分頁爬取。通過分析URL規律可以發現，頁碼參數一般在URL中以?page?表示。例如，第一頁的URL可能是?https://search.jd.com/Search?keyword=筆記本電腦&page=1?，第二頁是?https://search.jd.com/Search?keyword=筆記本電腦&page=2?，以此類推。

利用這個規律，通過循環改變?page?參數的值，實現多頁數據的獲取：

for page in range(1, 11): # 假設獲取前10頁數據

? ? url = f"https://search.jd.com/Search?keyword=筆記本電腦&page={page}"

? ? response = requests.get(url, headers=headers)

? ? if response.status_code == 200:

? ? ? ? html_content = response.text

? ? ? ? # 解析頁面提取商品信息的代碼...

? ? else:

? ? ? ? print(f"第{page}頁請求失敗，狀態碼：{response.status_code}")

? ? time.sleep(random.uniform(1, 3)) # 設置隨機請求間隔，避免反爬

（二）應對反爬機制

除了設置請求頭和請求間隔，還可以使用代理IP進一步繞過反爬。代理IP就像是一個中間人，爬蟲通過它向京東服務器發送請求，隱藏真實IP地址，降低被封禁的風險。可以從一些免費或付費的代理IP服務提供商獲取代理IP列表，然后在代碼中隨機選擇使用：

proxies = [

? ? {"http": "http://111.111.111.111:8080"},

? ? {"http": "http://222.222.222.222:8080"},

? ? # 更多代理IP

]

proxy = random.choice(proxies)

response = requests.get(url, headers=headers, proxies=proxy)

（三）異常處理

在爬取過程中，可能會遇到各種異常情況，如網絡波動導致請求超時、頁面結構變化導致元素無法提取等。為了提高爬蟲的穩定性和可靠性，需要添加異常處理機制：

try:

? ? response = requests.get(url, headers=headers, proxies=proxy, timeout=5)

? ? response.raise_for_status() # 檢查請求是否成功，不成功則拋出異常

? ? html_content = response.text

? ? # 解析頁面提取商品信息的代碼...

except requests.exceptions.RequestException as e:

? ? print(f"請求發生異常：{e}")

except Exception as e:

? ? print(f"其他異常：{e}")

四、法律與道德考量

在進行網頁爬取時，必須遵守相關法律法規和網站的使用條款。京東的?robots.txt?文件規定了哪些頁面可以被爬取，哪些不可以，一定要嚴格遵守，避免侵權和法律風險。同時，爬取數據應僅用于合法的商業分析、學術研究等正當目的，不得用于非法競爭、數據販賣等不當行為。

通過以上步驟和技巧，你已經掌握了使用Python獲取京東商品信息的方法。在實際應用中，可以根據具體需求，進一步優化和擴展代碼，讓數據更好地為業務服務，創造更大的價值。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/diannao/82669.shtml
繁體地址，請注明出處：http://hk.pswp.cn/diannao/82669.shtml
英文地址，請注明出處：http://en.pswp.cn/diannao/82669.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！