抓取淘寶數據RPA--影刀

最近用了一下RPA軟件,挑了影刀,發現很無腦也很簡單,其語法大概是JAVA和PYTHON的混合體,如果懂爬蟲的話,學這個軟件就快的很,看了一下官方的教程,對于有基礎的人來說很有點枯燥,但又不得不看,畢竟要按照RPA的思路操作就必須懂他們的設計思路;

優點:對于不是特別復雜的需求,很快能上手,相信大部分人爬電商數據,不涉及到點進詳情頁抓各種信息,只抓搜索結果頁面,就很簡單;

缺點:復雜的需求,例如抓詳情頁信息,抓不規律的網站,就很麻煩,嘗試過手動定位節點,軟件還是難以識別,能手動正則\XPATH定位的人,基本也懂爬蟲,當然像淘寶這種詳情頁信息,本身就不簡單,這也怪不得軟件;

例如抓淘寶的數據,如果是爬蟲,基本要用SELENIUM,會涉及到登錄驗證,翻頁和控制速度,要考慮的事情會比較多,也不能速度太快;

一、基本信息爬取和講解

但用RPA就十分簡單;

僅需要這幾個步驟即可:

1.打開網頁,以EDGE為例,并不是用的爬蟲常用的EdgeDriver的控制軟件,而是類似的,直接打開網頁,會用保存的Cookies,所以自己有賬號的話,并不需要登錄;

2.有時登錄后會碰到廣告,理論上要把iframe信息點個X,但實測,這廣告會馬上自動消失;此時我們在RPA軟件自帶的彈窗中,輸入關鍵詞;

3.將關鍵詞,保存為一個變量;

4.將變量輸入到淘寶的搜索欄;

5.隨機等1到2秒;

6.點搜索

7.搜索結果會彈出一個新網頁標簽,這一步獲取已打開的網頁對象,類似于selenium的這個操作;

driver.switch_to.window(driver.window_handles[-1])?

8.批量抓取數據,這一步,將標題、價格、店鋪、銷量、宣傳tag等東西都抓到,再定位下一頁的位置,會自動抓取一頁的,當然懂爬蟲的會更清晰地知道自己想要什么;

正常情況下,某寶PC端一頁是48個數據,我以搜索顯卡為例,抓了10頁,發現每頁只有46個數據,經觀察,發現某寶前端經常改變;

每一頁都有2個這東西,如果自己寫爬蟲的話,經常要考慮很多情況,沒想到影刀能自動剔除掉沒用的數據;

看了一下elements,兩個不要的東西的DIV并不相同,看來是在批量抓取數據的時候,選擇哪些數據比較關鍵,會一些爬蟲自然比較清楚怎么選;

9.最后保存到一個表格即可。

二、點進詳情頁

上面這一部分,我們只抓了基本信息,點進詳情頁的話,情況就復雜很多,那么用影刀的邏輯要大改;

我曾經就搞過詳情頁,后面發現太麻煩,詳情頁里面所需要的信息,基本就是不同SKU對應的價格,可參考

Selenium Python抓淘寶數據 基于手動登錄后_python 抓包淘寶 出現登錄驗證-CSDN博客

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/902565.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/902565.shtml
英文地址,請注明出處:http://en.pswp.cn/news/902565.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

docker部署seafile修改默認端口并安裝配置onlyoffice實現在線編輯

背景 有很多場景會用到類似seafile功能的需求,比如: 在內網中傳輸和共享文件個人部署私人網盤文檔協同在線編輯寫筆記… 這些功能seafile均有實現,并且社區版提供的功能基本可以滿足個人或者小型團隊的日常需求 問題 由于主機的80和443端…

計算機視覺cv2入門之視頻處理

在我們進行計算機視覺任務時,經常會對視頻中的圖像進行操作,這里我來給大家分享一下,cv2對視頻文件的操作方法。這里我們主要介紹cv2.VideoCapture函數的基本使用方法。 cv2.VideoCapture函數 當我們在使用cv2.VideoCapture函數時&#xff…

Linux之徹底掌握防火墻-----安全管理詳解

—— 小 峰 編 程 目錄: 一、防火墻作用 二、防火墻分類 1、邏輯上劃分:大體分為 主機防火墻 和 網絡防火墻 2、物理上劃分: 硬件防火墻 和 軟件防火墻 三、硬件防火墻 四、軟件防火墻 五、iptables 1、iptables的介紹 2、netfilter/…

python項目實戰-后端個人博客系統

本文分享一個基于 Flask 框架開發的個人博客系統后端項目,涵蓋用戶注冊登錄、文章發布、分類管理、評論功能等核心模塊。適合初學者學習和中小型博客系統開發。 一、項目結構 blog │ app.py │ forms.py │ models.py │ ├───instance │ blog.d…

Unity 接入阿里的全模態大模型Qwen2.5-Omni

1 參考 根據B站up主陰沉的怪咖 開源的項目的基礎上修改接入 AI二次元老婆開源項目地址(unity-AI-Chat-Toolkit): Github地址:https://github.com/zhangliwei7758/unity-AI-Chat-Toolkit Gitee地址:https://gitee.com/DammonSpace/unity-ai-chat-too…

第十五屆藍橋杯 2024 C/C++組 合法密碼

目錄 題目: 題目描述: 題目鏈接: 思路: substr函數: 思路詳解: 代碼: 代碼詳解; 題目: 題目描述: 題目鏈接: P10906 [藍橋杯 2024 國 B] 合法密碼 -…

NoSQL 簡單講解

目錄 1. NoSQL 的背景與意義 1.1 數據庫的演變 1.2 NoSQL 的興起 2. NoSQL 數據庫的分類 2.1 鍵值存儲(Key-Value Stores) 2.2 文檔數據庫(Document Stores) 2.3 列族存儲(Column-Family Stores) 2.…

122.在 Vue3 中使用 OpenLayers 實現圖層層級控制(zIndex)顯示與設置詳解

?? 作者:彭麒 ?? 郵箱:1062470959@qq.com ?? 聲明:本文源碼歸吉檀迦俐所有,歡迎學習借鑒,如用于商業項目請注明出處 ?? ?? 技術棧:Vue 3 + Composition API + OpenLayers 6+ + Element Plus + Tailwind CSS ?? 一、什么是 zIndex(圖層層級)? 在地圖開發中…

車載測試用例開發-如何平衡用例覆蓋度和測試效率的方法論

1 摘要 在進行車載測試用例編寫時,會遇到多個條件導致用例排列組合爆炸的情況,但是為了產品測試質量,我們又不得不保證用例設計的需求覆蓋度,這樣又會使得測試周期非常長。我們如何平衡效率和測試質量?本文進行了一些…

AI——神經網絡以及TensorFlow使用

文章目錄 一、TensorFlow安裝二、張量、變量及其操作1、張量Tensor2、變量 三、tf.keras介紹1、使用tf.keras構建我們的模型2、激活函數1、sigmoid/logistics函數2、tanh函數3、RELU函數4、LeakReLu5、SoftMax6、如何選擇激活函數 3、參數初始化1、bias偏置初始化2、weight權重…

Kubernetes (k8s) 日常運維命令總結

一、資源查看 查看所有命名空間的 Pod kubectl get pod --all-namespaces查看指定命名空間的 Pod kubectl get pod --namespace <命名空間>查看所有部署&#xff08;Deployments&#xff09; kubectl get deployments.apps --all-namespaces查看所有守護進程集&#xff0…

【PostgreSQL教程】PostgreSQL 特別篇之 語言接口連接Perl

博主介紹:?全網粉絲22W+,CSDN博客專家、Java領域優質創作者,掘金/華為云/阿里云/InfoQ等平臺優質作者、專注于Java技術領域? 技術范圍:SpringBoot、SpringCloud、Vue、SSM、HTML、Nodejs、Python、MySQL、PostgreSQL、大數據、物聯網、機器學習等設計與開發。 感興趣的可…

07-IDEA企業開發工具-開發入門程序

1. IDEA創建Java項目的代碼結構 項目結構: IDEA中的Java項目包含四種主要結構&#xff1a;工程(Project)、模塊(Module)、包(Package)、類(Class)。 工程(Project): 代表整個項目&#xff0c;通常是一個磁盤目錄或文件夾。模塊(Module): 工程下的子單元&#xff0c;用于劃分項…

深度解析云計算:概念、優勢與分類全覽

以下是對云計算概念、優點和分類更詳細的介紹&#xff1a; 一、云計算的概念 云計算是一種通過互聯網提供計算服務的模式&#xff0c;它基于虛擬化、分布式計算、網絡存儲等一系列先進技術&#xff0c;將計算資源進行整合和管理&#xff0c;形成一個龐大的資源池。這些資源包…

高并發系統的通用設計方法是什么?

背景 高并發系統的通用設計方法是解決系統在面對大量用戶訪問時的性能瓶頸問題。當系統遇到性能瓶頸時&#xff0c;通常是因為某個單點資源&#xff08;如數據庫、后端云服務器、網絡帶寬等&#xff09;達到了極限。 為了提升整個系統的容量&#xff0c;需要找到這個瓶頸資源…

【手機】vivo手機應用聲音分離方案

文章目錄 前言方案 前言 嘗試分離vivo手機音樂與其他應用的聲音 方案 最佳方案&#xff1a;網易云音樂設置內關閉音量均衡 上傳不同的白噪音&#xff0c;成功 goodlock&#xff0c;主要適用于三星手機&#xff0c;vivo不一定適用 app volume control &#xff0c;可行

一個報錯說函數為私有函數

你遇到的警告信息&#xff1a; warning: declaration of struct Zero2TenVDrv will not be visible outside of this function [-Wvisibility]這是編譯器提示你在某個函數內部聲明了一個結構體 struct Zero2TenVDrv&#xff0c;但這個結構體的聲明作用域僅限于該函數內部&…

3.2 Agent核心能力:感知、規劃、決策與執行

智能代理&#xff08;Agent&#xff09;是一種能夠在復雜環境中自主運作的計算實體&#xff0c;其智能行為依賴于四大核心能力&#xff1a;感知&#xff08;Perception&#xff09;、規劃&#xff08;Planning&#xff09;、決策&#xff08;Decision-making&#xff09;和執行…

圖解Mysql原理:深入理解事務的特性以及它的實現機制

前言 大家好&#xff0c;我是程序蛇玩編程。 Mysql中事務大家不陌生吧&#xff0c;事務就是要保證一組數據庫操作&#xff0c;要么全部成功&#xff0c;要么全部失敗。那它具有哪些特性&#xff0c;如何實現的呢?接著往下看。 正文 事務的特性: 事務的基本特性主要為四種…

進行網頁開發時,怎樣把function()中變量值在控制臺輸出,查看?

在網頁開發過程中&#xff0c;為了及時了解JavaScript中的function函數中的變量值&#xff0c;可以用控制臺命令console.log()把變量的值在控制臺輸出&#xff0c;方便調試時對函數變量值進行了解。 看下面的一段示例&#xff1a; <!DOCTYPE html> <html> &l…