Python爬取京東商品銷售數據進行數據分析示例代碼,以口紅為例

文章目錄

    • 一、準備工作
      • 驅動安裝
      • 模塊使用與介紹
    • 二、流程解析
    • 三、完整代碼
    • 四、效果展示
      • 關于Python技術儲備
        • 一、Python所有方向的學習路線
        • 二、Python基礎學習視頻
        • 三、精品Python學習書籍
        • 四、Python工具包+項目源碼合集
        • ①Python工具包
        • ②Python實戰案例
        • ③Python小游戲源碼
        • 五、面試資料
        • 六、Python兼職渠道


一、準備工作

驅動安裝

實現案例之前,我們要先安裝一個谷歌驅動,因為我們是使用selenium 操控谷歌驅動,然后操控瀏覽器實現自動操作的,模擬人的行為去操作瀏覽器。

以谷歌瀏覽器為例,打開瀏覽器看下我們自己的版本,然后下載跟自己瀏覽器版本一樣或者最相近的版本,下載后解壓一下,把解壓好的插件放到我們的python環境里面,或者和代碼放到一起也可以。

模塊使用與介紹

  • selenium pip install selenium ,直接輸入selenium的話是默認安裝最新的,selenium后面加上版本號就是安裝對應的的版本;
  • csv 內置模塊,不需要安裝,把數據保存到Excel表格用的;
  • time 內置模塊,不需要安裝,時間模塊,主要用于延時等待;

二、流程解析

我們訪問一個網站,要輸入一個網址,所以代碼也是這么寫的。

首先導入模塊

from selenium import webdriver

文件名或者包名不要命名為selenium,會導致無法導入。 webdriver可以認為是瀏覽器的驅動器,要驅動瀏覽器必須用到webdriver,支持多種瀏覽器。

實例化瀏覽器對象 ,我這里用的是谷歌,建議大家用谷歌,方便一點。

driver = webdriver.Chrome()

我們用get訪問一個網址,自動打開網址。

driver.get('https://www.jd.com/')

運行一下

打開網址后,以買口紅為例。

我們首先要通過你想購買的商品關鍵字來搜索得到商品信息,用搜索結果去獲取信息。

那我們也要寫一個輸入,空白處點擊右鍵,選擇檢查。選擇element 元素面板

鼠標點擊左邊的箭頭按鈕,去點擊搜索框,它就會直接定位到搜索標簽。在標簽上點擊右鍵,選擇copy,選擇copy selector 。如果你是xpath ,就copy它的xpath 。然后把我們想要搜索的內容寫出來

driver.find\_element\_by\_css\_selector('#key').send\_keys('口紅')

再運行的時候,它就會自動打開瀏覽器進入目標網址搜索口紅。

同樣的方法,找到搜索按鈕進行點擊。

driver.find\_element\_by\_css\_selector('.button').click()

再運行就會自動點擊搜索了,頁面搜索出來了,那么咱們正常瀏覽網頁是要下拉網頁對吧,咱們讓它自動下拉就好了。 先導入time模塊

import time

執行頁面滾動的操作

def drop\_down():"""執行頁面滾動的操作"""  # javascriptfor x in range(1, 12, 2):  # for循環下拉次數,取1 3 5 7 9 11, 在你不斷的下拉過程中, 頁面高度也會變的;time.sleep(1)j = x / 9  # 1/9  3/9  5/9  9/9# document.documentElement.scrollTop  指定滾動條的位置# document.documentElement.scrollHeight 獲取瀏覽器頁面的最大高度js = 'document.documentElement.scrollTop = document.documentElement.scrollHeight \* %f' % jdriver.execute\_script(js)  # 執行我們JS代碼

循環寫好了,然后調用一下。

drop\_down()

我們再給它來個延時

driver.implicitly\_wait(10)

這是一個隱式等待,等待網頁延時,網不好的話加載很慢。

隱式等待不是必須等十秒,在十秒內你的網絡加載好后,它隨時會加載,十秒后沒加載出來的話才會強行加載。

還有另外一種死等的,你寫的幾秒就等幾秒,相對沒有那么人性化。

time.sleep(10)

加載完數據后我們需要去找商品數據來源

價格/標題/評價/封面/店鋪等等

還是鼠標右鍵點擊檢查,在element ,點擊小箭頭去點擊你想查看的數據。

可以看到都在li標簽里面 獲取所有的 li 標簽內容,還是一樣的,直接copy 。 在左下角就有了 這里表示的是取的第一個,但是我們是要獲取所有的標簽,所以左邊框框里 li 后面的可以刪掉不要。 不要的話,可以看到這里是60個商品數據,一頁是60個。 所以我們把剩下的復制過來, 用lis接收一下 。

lis = driver.find\_elements\_by\_css\_selector('#J\_goodsList ul li')

因為我們是獲取所有的標簽數據,所以比之前多了一個s

打印一下

print(lis)

通過lis返回數據 列表 [] 列表里面的元素 <> 對象

遍歷一下,把所有的元素拿出來。

for li in lis:title = li.find\_element\_by\_css\_selector('.p-name em').text.replace('\\n', '')  # 商品標題 獲取標簽文本數據price = li.find\_element\_by\_css\_selector('.p-price strong i').text  # 價格commit = li.find\_element\_by\_css\_selector('.p-commit strong a').text  # 評論量shop\_name = li.find\_element\_by\_css\_selector('.J\_im\_icon a').text  # 店鋪名字href = li.find\_element\_by\_css\_selector('.p-img a').get\_attribute('href')  # 商品詳情頁icons = li.find\_elements\_by\_css\_selector('.p-icons i')icon = ','.join(\[i.text for i in icons\])  # 列表推導式  ','.join 以逗號把列表中的元素拼接成一個字符串數據dit = {'商品標題': title,'商品價格': price,'評論量': commit,'店鋪名字': shop\_name,'標簽': icon,'商品詳情頁': href,}csv\_writer.writerow(dit)print(title, price, commit, href, icon, sep=' | ')

搜索功能

key\_world = input('請輸入你想要獲取商品數據: ')

要獲取的數據 ,獲取到后保存CSV

f = open(f'京東{key\_world}商品數據.csv', mode='a', encoding='utf-8', newline='')
csv\_writer = csv.DictWriter(f, fieldnames=\['商品標題','商品價格','評論量','店鋪名字','標簽','商品詳情頁',
\])
csv\_writer.writeheader()

然后再寫一個自動翻頁

for page in range(1, 11):print(f'正在爬取第{page}頁的數據內容')time.sleep(1)drop\_down()get\_shop\_info()  # 下載數據driver.find\_element\_by\_css\_selector('.pn-next').click()  # 點擊下一頁

三、完整代碼

from selenium import webdriver
import time
import csvdef drop\_down():"""執行頁面滾動的操作"""  for x in range(1, 12, 2):  time.sleep(1)j = x / 9  # 1/9  3/9  5/9  9/9# document.documentElement.scrollTop  指定滾動條的位置# document.documentElement.scrollHeight 獲取瀏覽器頁面的最大高度js = 'document.documentElement.scrollTop = document.documentElement.scrollHeight \* %f' % jdriver.execute\_script(js)  # 執行JS代碼key\_world = input('請輸入你想要獲取商品數據: ')f = open(f'京東{key\_world}商品數據.csv', mode='a', encoding='utf-8', newline='')
csv\_writer = csv.DictWriter(f, fieldnames=\['商品標題','商品價格','評論量','店鋪名字','標簽','商品詳情頁',
\])
csv\_writer.writeheader()# 實例化一個瀏覽器對象driver = webdriver.Chrome()
driver.get('https://www.jd.com/')  # 訪問一個網址 打開瀏覽器 打開網址
# 通過css語法在element(元素面板)里面查找 #key 某個標簽數據 輸入一個關鍵詞 口紅
driver.find\_element\_by\_css\_selector('#key').send\_keys(key\_world)  # 找到輸入框標簽
driver.find\_element\_by\_css\_selector('.button').click()  # 找到搜索按鈕 進行點擊
# time.sleep(10) # 等待 
# driver.implicitly\_wait(10)  # 隱式等待 def get\_shop\_info():# 第一步 獲取所有的li標簽內容driver.implicitly\_wait(10)lis = driver.find\_elements\_by\_css\_selector('#J\_goodsList ul li')  # 獲取多個標簽# 返回數據 列表 \[\] 列表里面的元素 <> 對象# print(len(lis))for li in lis:title = li.find\_element\_by\_css\_selector('.p-name em').text.replace('\\n', '')  # 商品標題 獲取標簽文本數據price = li.find\_element\_by\_css\_selector('.p-price strong i').text  # 價格commit = li.find\_element\_by\_css\_selector('.p-commit strong a').text  # 評論量shop\_name = li.find\_element\_by\_css\_selector('.J\_im\_icon a').text  # 店鋪名字href = li.find\_element\_by\_css\_selector('.p-img a').get\_attribute('href')  # 商品詳情頁icons = li.find\_elements\_by\_css\_selector('.p-icons i')icon = ','.join(\[i.text for i in icons\])  # 列表推導式  ','.join 以逗號把列表中的元素拼接成一個字符串數據dit = {'商品標題': title,'商品價格': price,'評論量': commit,'店鋪名字': shop\_name,'標簽': icon,'商品詳情頁': href,}csv\_writer.writerow(dit)print(title, price, commit, href, icon, sep=' | ')# print(href)for page in range(1, 11):print(f'正在爬取第{page}頁的數據內容')time.sleep(1)drop\_down()get\_shop\_info()  # 下載數據driver.find\_element\_by\_css\_selector('.pn-next').click()  # 點擊下一頁driver.quit()  # 關閉瀏覽器

四、效果展示


關于Python技術儲備

學好 Python 不論是就業還是做副業賺錢都不錯,但要學會 Python 還是要有一個學習規劃。最后大家分享一份全套的 Python 學習資料,給那些想學習 Python 的小伙伴們一點幫助!

微信掃描下方CSDN官方認證二維碼免費領取【保證100%免費

一、Python所有方向的學習路線

Python所有方向的技術點做的整理,形成各個領域的知識點匯總,它的用處就在于,你可以按照上面的知識點去找對應的學習資源,保證自己學得較為全面。
在這里插入圖片描述

二、Python基礎學習視頻

② 路線對應學習視頻

還有很多適合0基礎入門的學習視頻,有了這些視頻,輕輕松松上手Python~在這里插入圖片描述
在這里插入圖片描述

③練習題

每節視頻課后,都有對應的練習題哦,可以檢驗學習成果哈哈!
在這里插入圖片描述
因篇幅有限,僅展示部分資料

三、精品Python學習書籍

當我學到一定基礎,有自己的理解能力的時候,會去閱讀一些前輩整理的書籍或者手寫的筆記資料,這些筆記詳細記載了他們對一些技術點的理解,這些理解是比較獨到,可以學到不一樣的思路。
在這里插入圖片描述

四、Python工具包+項目源碼合集
①Python工具包

學習Python常用的開發軟件都在這里了!每個都有詳細的安裝教程,保證你可以安裝成功哦!
在這里插入圖片描述

②Python實戰案例

光學理論是沒用的,要學會跟著一起敲代碼,動手實操,才能將自己的所學運用到實際當中去,這時候可以搞點實戰案例來學習。100+實戰案例源碼等你來拿!
在這里插入圖片描述

③Python小游戲源碼

如果覺得上面的實戰案例有點枯燥,可以試試自己用Python編寫小游戲,讓你的學習過程中增添一點趣味!
在這里插入圖片描述

五、面試資料

我們學習Python必然是為了找到高薪的工作,下面這些面試題是來自阿里、騰訊、字節等一線互聯網大廠最新的面試資料,并且有阿里大佬給出了權威的解答,刷完這一套面試資料相信大家都能找到滿意的工作。
在這里插入圖片描述
在這里插入圖片描述

六、Python兼職渠道

而且學會Python以后,還可以在各大兼職平臺接單賺錢,各種兼職渠道+兼職注意事項+如何和客戶溝通,我都整理成文檔了。
在這里插入圖片描述
在這里插入圖片描述
這份完整版的Python全套學習資料已經上傳CSDN,朋友們如果需要可以微信掃描下方CSDN官方認證二維碼免費領取【保證100%免費

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/162991.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/162991.shtml
英文地址,請注明出處:http://en.pswp.cn/news/162991.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

git代碼提交命令(如何提交代碼)

# 提交暫存區到倉庫區 $ git commit -m [message]# 提交暫存區的指定文件到倉庫區 $ git commit [file1] [file2] ... -m [message]# 提交工作區自上次commit之后的變化&#xff0c;直接到倉庫區 $ git commit -a# 提交時顯示所有diff信息 $ git commit -v# 使用一次新的commit…

2023年中國釩鐵產量及行業進出口現狀分析[圖]

釩鐵&#xff0c;銀白色塊狀&#xff0c;一般分為桶裝或噸袋包裝&#xff0c;根據釩含量的不同分為50釩鐵&#xff08;FeV50&#xff09;和80釩鐵&#xff08;FeV80&#xff09;,通過爐外法或電爐法冶煉生產&#xff0c;北方多以爐外法制取&#xff0c;南方多為電爐法生產。 釩…

Chrome瀏覽器將從2024年6月開始限制廣告攔截器

雖然一年前&#xff0c;谷歌公司已經暫停推出新的“Manifest V3”擴插件展格式&#xff0c;原因是這種新格式會對 Chrome 中一些最受歡迎的擴展插件造成嚴重損害&#xff1b;一年后今天&#xff0c;Google 正在重新啟動該計劃&#xff0c;逐步淘汰 Chrome 擴展程序當前的 Manif…

Faster R-CNN源碼解析(一)

目錄 前言訓練腳本(train_mobilenetv2.py)自定義數據集(my_dataset.py) 前言 Faster R-CNN 是經典的two-stage目標檢測模型&#xff0c; 原理上并不是很復雜&#xff0c;也就是RPNFast R-CNN&#xff0c;但是在代碼的實現上確實有很多細節&#xff0c;并且源碼也非常的多&…

chatglm3部署使用

chatglm3部署使用 1.部署2.使用3.接入微信4.vue前端 1.部署 1.首先去github下載chatglm3代碼。Huggingface下載模型一直失敗&#xff0c;所以用阿里的魔塔社區下載。 git clone https://github.com/THUDM/ChatGLM3.git git clone https://www.modelscope.cn/ZhipuAI/chatglm3…

docker常見問題匯總

docker常見問題 ?問題1&#xff1a;啟動docker容器時&#xff0c;報錯Unknown runtime specified nvidia. 當我啟動一個容器時&#xff0c;運行以下命令&#xff1a; docker run --runtimenvidia 。。。。 后面一部分命令沒寫出來&#xff0c;此時報錯的信息如下&#xff1a;…

python-opencv劃痕檢測

python-opencv劃痕檢測 這次實驗&#xff0c;我們將對如下圖片進行劃痕檢測&#xff0c;其實這個比較有難度&#xff0c;因為清晰度太差了。 我們做法如下&#xff1a; &#xff08;1&#xff09;讀取圖像為灰度圖像&#xff0c;進行自適應直方圖均衡化處理&#xff0c;增強圖…

thingsboard3.6的mailConfigTemplateController錯誤

1、bug內容 使用3.6版本的tb代碼進行打包生成boot的jar包,在啟動的時候會報錯mailConfigTemplateController bean初始化找不到文件路徑。 Error creating bean with name mailConfigTemplateController defined in URL [jar:file:/D:/yuxinwei/AE/thingsboard/thingsboard-3…

nuxt3項目修改端口號

nuxt的默認端口號是3000 一、修改開發環境端口號 方式一&#xff1a;使用環境變量配置,設置&#xff08;PORT 或 NUXT_PORT&#xff09; # .env PORT3001 #http://localhost:3001/ NITRO_PORT3001 #http://localhost:3001/ 方式二&#xff1a;nuxt.config.ts里配置…

vue2.0+elementui集成file-loader之后圖標失效問題

背景 跑vue2elementUI項目時&#xff0c;由于前端這邊需要在本地存放xlsx模板文件&#xff0c;供用戶下載模板文件&#xff0c;所以需要在webpack構建的時候增加file-loader進行解析xlsx文件打包。 vue版本2.x element-ui 版本 2.13.x 注意 npm i -D file-loader版本號給vue項…

操作系統 day12(調度算法的評價指標)

評價指標 CPU利用率 系統吞吐量 周轉時間 帶權周轉時間 等待時間 響應時間

vue中屬性的基本用法

v-for指令的用法 v-for指令用于重復輸出當前元素。 案例&#xff1a;寫一個新的組件頁面&#xff1a;For.vue 當訪問&#xff1a; /for時看到它。 場景1 遍歷字符串數組輸出每一個列表項元素&#xff1a; data: {nav: [京東超市,京東家電,秒殺,拍賣,京東生鮮,PLUS會員] } …

【python學習】中級篇-TCP編程Socket模塊:客戶端與服務端

客戶端 創建一個基于TCP連接的Socket AF_INET指定使用IPv4協議 AF_INET6指定使用IPv6協議 # 導入socket庫: import socket# 創建一個socket: s socket.socket(socket.AF_INET, socket.SOCK_STREAM) # 建立連接: s.connect((www.sina.com.cn, 80))客戶端要主動發起TCP連接 必…

2022-1-25 機器人運動規劃方法綜述 航空學報

論文PDF abstract 隨著應用場景的日益復雜&#xff0c;機器人對旨在生成無碰撞路徑&#xff08;軌跡&#xff09;的自主運動規劃技術的需求也變得更加迫 切。雖然目前已產生了大量適應于不同場景的規劃算法&#xff0c;但如何妥善地對現有成果進行歸類&#xff0c;并分析不同…

Spark---基于Standalone模式提交任務

Standalone模式兩種提交任務方式 一、Standalone-client提交任務方式 1、提交命令 ./spark-submit --master spark://mynode1:7077 --class org.apache.spark.examples.SparkPi ../examples/jars/spark-examples_2.11-2.3.1.jar 100 或者 ./spark-submit --master spark…

給數據庫查詢結果添加一個額外的自增編號

1、在mysql數據庫可以執行的sql SELECT( i : i 1 ) num,M.* FROMuser M,( SELECT i : 0 ) AS ID GROUP BYM.ID ORDER BYM.create_time SELECT (i :i 1) 是為了生成自增的序列號字段 SELECT i : 0 是為了將i進行初始化每次查詢的序列號都會從1開始進行排序生成序列號 在…

go sync.map源碼解讀

此源碼理解僅為個人理解&#xff0c;如有錯誤歡迎指出 sync.map的數據結構主要包含四個字段 一個互斥鎖&#xff0c;readonly,dirty,和miss 從讀寫兩個方面來講這幾個變量 readonly其實就是有bool值的dirty&#xff0c;底層結構都是map readonly的讀更新不會上鎖&#xff0c…

在springboot中實現WebSocket協議通信

前面介紹了使用netty實現websocket通信&#xff0c;有些時候&#xff0c;如果我們的服務并不復雜或者連接數并不高&#xff0c;單獨搭建一個websocket服務端有些浪費資源&#xff0c;這時候我們就可以在web服務內提供簡單的websocket連接支持。其實springboot已經支持了websock…

20230511 Windows Ubuntu vscode remote-ssh 連接配置

參考 &#xff1a; VSCode SSH 連接遠程ubuntu Linux 主機 VSCode通過Remote SSH擴展連接到內網Ubuntu主機 Ubuntu 安裝 sudo apt-get install openssh-server vscode: 安裝remote-ssh 插件 連接到服務器IP 免密登錄的公鑰密鑰傳遞用filezillaUbuntu 和 Windows 文件互傳 …

PMP對項目工程師有用嗎?

一、什么是項目工程師&#xff1f; 項目工程師是指在各個領域負責技術操作、設計、管理以及評估能力的人員。他們通常擔當項目的實施和執行角色&#xff0c;在開發或控制類項目中發揮重要作用。有時&#xff0c;項目工程師的稱號還可以用來表示在某個領域取得專業資格的人員。…