python怎么爬蟲理數據_Python神技能 | 使用爬蟲獲取汽車之家全車型數據

2cb0e1ac7dfdbca4fa089fd407694300.png

最近想在工作相關的項目上做技術改進,需要全而準的車型數據,尋尋覓覓而不得,所以就只能自己動手豐衣足食,到網上獲(竊)得(取)數據了。

汽車之家是大家公認的數據做的比較好的汽車網站,所以就用它吧。(感謝汽車之家的大大們這么用心地做數據,仰慕)

俗話說的好,“十爬蟲九python”,作為一只java狗,我顫顫巍巍地拿起了python想要感受一下scrapy的強大。。。

在寫這個爬蟲之前,我用urllib2,BeautifulSoup寫了一個版本,不過效率太差,而且還有內存溢出的問題,作為python小白感覺很無力,所以用scrapy才是正道。

嗯,開搞。

準備工作

1.安裝python,版本是2.7

2.安裝scrapy模塊, 版本是1.4.0

參考

汽車之家車型數據爬蟲[https://github.com/LittleLory/codePool/tree/master/python/autohome_spider]:這是我工程的代碼,以下內容需要參照著代碼來理解,就不貼代碼在這里了。

Scrapy中文文檔:這是Scrapy的中文文檔,具體細節可以參照文檔。感謝Summer同學的翻譯。

Xpath教程:解析頁面數據要用到xpath的語法,簡單了解一下,在做的過程中遇到問題去查一下就可以了。

初始化工程

scrapy工程的初始化很方便,在shell中的指定目錄下執行scrapy start startproject 項目名稱,就自動化生成了。

執行這步的時候遇到了一個問題,拋出了異常"TLSVersion.TLSv1_1: SSL.OP_NO_TLSv1_1",解決方法是執行sudo pip install twisted==13.1.0,應該是依賴庫版本不兼容。

目錄結構

工程初始化后,scrapy中的各個元素就被構建好了,不過構建出來的是一副空殼,需要我們往里邊寫入我們的爬蟲邏輯。

初始化后的目錄結構是這樣的:

  • spiders:爬蟲目錄,爬蟲的爬取邏輯就放在個目錄下邊
  • items.py:數據實體類,在這里定義我們爬到的數據結構
  • middlewares.py:爬蟲中間件(我自己翻譯的哈),在這里定義爬取前、爬取后需要處理的邏輯
  • pipelines.py:數據管道,爬取后的數據實體會經過數據管道的處理
  • settings.py:配置文件,可以在這里配置爬蟲的爬取速度,配置中間件、管道是否開啟和先后順序,配置數據輸出的格式等。

了解過這些文件的作用后就可以開始寫爬蟲了。

開始吧!

首先,確定要爬取的目標數據。

我的目標是獲取汽車的品牌、車系、車型數據,先從品牌開始。

在汽車之家的頁面中尋覓一番后,找到了一個爬蟲的切入點,汽車之家車型大全。這個頁面里有所有品牌的數據,正是我的目標。不過在觀察的過程中發現,這個頁面里的品牌數據是在頁面向下滾動的過程中延遲加載的,這樣我們通過請求這個頁面不能獲取到延遲加載的那部分數據。不過不要慌,看一下延遲加載的方式是什么樣的。

打開瀏覽器控制臺的網絡請求面板,滾動頁面來觸發延遲加載,發現瀏覽器發送了一個異步請求:

1a563497dd8ecc54b11a82676a70fdee.png

復制請求的URL看看:

  • http://www.autohome.com.cn/grade/carhtml/B.html
  • http://www.autohome.com.cn/grade/carhtml/C.html
  • http://www.autohome.com.cn/grade/carhtml/D.html

找到規律了,每一次加載的URL,都只是改變了對應的字母,所以對A到Z分別請求一次就取到了所有的品牌數據。

打開http://www.autohome.com.cn/grade/carhtml/B.html看下,發現頁面的數據很規整,是按照品牌-廠商-車系的層級組織的。嗯,正合我意,那就開爬吧。

編寫Spider

在spiders目錄下邊,新建一個brand_spider.py文件,在文件中定義BrandSpider類,這個類繼承了scrapy.Spider類,這就是scrapy的Spider類。在BrandSpider中,需要聲明name變量,這是這個爬蟲的ID;還需要聲明start_urls,這是爬蟲的起點鏈接;再定義一個parse方法,里面實現爬蟲的邏輯。

parse方法的入參中,response就是對start_urls中的鏈接的請求響應數據,我們要爬取的品牌數據就在這里面,我們需要從response中提取出來。從response提取數據需要使用xpath語法,參考上邊的xpath教程。

提取數據之前,需要先給品牌數據定義一個實體類,因為需要把品牌數據存到數據實體中并落地到磁盤。在items.py文件中定義一個BrandItem類,這個類繼承了scrapy.Item類,類中聲明了爬取到的、要落地的品牌相關數據,這就是scrapy的Item類。

定義好品牌實體后,在parse方法中聲明一個BrandItem實例,然后通過reponse.xpath方法取到想要的品牌ID、品牌url、品牌名稱、圖標url等數據,并設置到BrandItem實例中,最后通過yield來聚合爬取到的各個品牌數據并返回,返回的數據會進入pipeline。

編寫Pipeline

爬取到的數據接著被pipeline.py文件中定義的Pipeline類處理,這個類通常是對傳入的Item實體做數據的清洗、排重等工作,可以定義多個Pipeline,依次對Item處理。由于暫時沒有這方面的需要,就不改寫這個文件,保持默認狀態就好。經過pipeline的處理后,數據進入數據集。

輸出csv格式數據

對于爬取到的車型數據,我想以csv的格式輸出,并且輸出到指定目錄下,此時需要修改settings.py文件。

在settings.py中添加FEED_FORMAT = 'csv'FEED_URI = 'data/%(name)s_%(time)s.csv'兩項,目的是指定輸出格式為csv,輸出到data目錄下,以”爬蟲名稱_爬取時間.csv“格式命名。

執行爬蟲

品牌數據的爬蟲編寫完成了,在項目根目錄下執行scrapy crawl brand,不出意外的話,在執行了brand爬蟲后,會在data目錄下出現一個新的csv文件,并且裝滿了品牌數據。

小心被屏蔽

不過需要注意一個問題,就是當爬蟲高頻地請求網站接口的時候,有可能會被網站識別出來并且屏蔽掉,因為太高頻的請求會對網站的服務器造成壓力,所以需要對爬蟲限速。

在settings.py中添加DOWNLOAD_DELAY = 3,限制爬蟲的請求頻率為平均3秒一次。

另外,如果爬蟲發送的請求頭中沒有設置user agent也很容易被屏蔽掉,所以要對請求頭設置user agent。

在項目根目錄下新建user_agent_middlewares.py文件,在文件中定義UserAgentMiddleware類,繼承了UserAgentMiddleware類。在UserAgentMiddleware中聲明user_agent_list,存放一些常用的user agent,然后重寫process_request方法,在user_agent_list中隨機選取user agent寫入請求頭中。

車系、車型爬蟲

車系爬蟲與上邊的品牌爬蟲類似,實現在spiders/series_spider.py中。

車型爬蟲稍微復雜一些,實現在spiders/model_spider.py中。車型爬蟲要從頁面中解析出車型數據,同時要解析出更多的URL添加到請求隊列中。而且,車型爬蟲爬取的頁面并不像品牌數據頁面那么規整,所以要根據URL的特征以及頁面中的特征來調整解析策略。因此在這里用到了CrawlSpiderRules,具體參照Spider文檔。

總結

以上就實現了一個簡單的汽車之家的車型數據爬蟲,其中用到了scrapy中的部分元素,當然還有很多元素沒有涉及到,不過對于一個簡單爬蟲來說足矣。

Tip

在用xpath解析頁面的時候,寫出來的xpath語句很可能與預期不符,而且調試起來很麻煩,我是用以下方式來提高效率的:

  1. 使用chrome上的XPath Helper插件。安裝好插件,打開目標頁面,按command+shift+x(mac版的快捷鍵)打開插件面板,在面板里輸入xpath語句,就能看到取到的結果了:

dcc07ca428c92aad2a3c7c46e3f57b21.png
  1. 使用scrapy shell調試。在工程目錄下執行scrapy shell http://www.xxxxx.xx,之后就會進入python的交互終端,這時就可以進行調試了。執行print response.xpath('xxxxx')來驗證xpath語句是否符合預期。
作者:littlelory
來源:http://www.jianshu.com/p/792e19ed9e1

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/383048.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/383048.shtml
英文地址,請注明出處:http://en.pswp.cn/news/383048.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

linux運算_CentOS「linux」學習筆記22:算術運算符、邏輯運算符、關系運算符

?linux基礎操作:主要介紹啦算術運算符、邏輯運算符、關系運算符1.算術運算符[主要用來計算數值]注意使用expr運算時運算符和數值之間需要有空格,其他方式運算時不能有空格。常用算術運算符號:表示相加,-表示相減&…

python實現小型搜索引擎設計_基于JAVA的中小型飯店餐飲管理系統的設計與實現...

好程序設計擅長JAVA(SSM,SSH,SPRINGBOOT)、PYTHON(DJANGO/FLASK)、THINKPHP、C#、安卓、微信小程序、MYSQL、SQLSERVER等,歡迎咨詢今天將為大家分析一個中小型飯店餐飲管理系統(俗話說“民以食為天”,中國的飲食文化有著久遠的歷史。“吃”不僅僅指的是填飽肚子,它早…

評估報告有效期過期了怎么辦_托福成績過期了怎么辦?

托福成績是有期限的,考生申請美國大學的時候也只能在托福成績有效期內。所以考托福的時候一定要關注一下托福成績什么時候過期,以及大學申請的截止日期,提前做好安排。下面我們一起看看關于托福成績有效期的相關問題。托福成績有效期是多久&a…

sql語句的經典練習

表結構 –1.學生表 Student(s_id,s_name,s_birth,s_sex) –學生編號,學生姓名, 出生年月,學生性別 –2.課程表 Course(c_id,c_name,t_id) – –課程編號, 課程名稱, 教師編號 –3.教師表 Teacher(t_id,t_name) –教師編號,教師姓名 –4.成績表 Score(s_id,c_id,s_score…

四階龍格庫塔法的基本思想_數值常微分方程-歐拉法與龍格-庫塔法

大三時候在跳蚤市場閑逛,從一位數學院的學長那里買了一些閑書,最近翻出來剛好有李榮華、劉播老師的《微分方程數值解法》和王仁宏老師的《數值逼近》,結合周善貴老師的《計算物理》課程,整理一下筆記。本文整理常微分方程數值求解…

OC中的類

OC中類 OC中類的定義 在Xcode中創建一個新的類,會自動給你生成兩個文件一個是.h另外一個是.m文件,你新創建的類默認繼承了NSObject類,因為有一些方法都需要基類中的方法。比如alloc分配內存 OC中用來描述類的使用interface 類名:父類來進行…

裝配組件_基于Haption力反饋系統的交互式裝配仿真

在一個新工業產品的設計過程中,裝配規劃是非常重要的任務。如果規劃不好將造成很大的資金浪費,致使組件不能正確地集成。例如典型問題:移動一個組件到指定位置但空間不足;使用工具夠不到螺絲;操作者沒有足夠的視域以保…

OC中的基本容器和基本數據類型

基本數據類型 NSRange 是一個結構體,里面有兩個數據成員數據類型都為NSUInteger 就是c語言中的無符號整形,一個是location表示集合的起始地址,另外一個變量是length表示從起始地址開始算多少個元素。 NSRange的三種創建方式 //1.NSRange r…

python程序開發總結_python開發總結

兩本不錯的書:《Python參考手冊》:對Python各個標準模塊,特性介紹的比較詳細。《Python核心編程》:介紹的比較深入,關鍵是,對Python很多高級特性都有介紹。一個開源代碼:openstack,關…

Centos7通過yum安裝jsoncpp庫

拒絕下載軟件包 一堆網上下載安裝包,為了編譯暗轉包又下載插件,是真麻煩 看看有沒有jsoncpp的相關庫 $ yum list | grep jsoncpp-devel然后執行這兩句,就完了 yum install jsoncpp.x86_64 yum install jsoncpp.devel.x86-64多簡單

作為唯一索引_Mysql什么情況下不走索引?

本文基于Mysql5.7版本和InnoDB存儲引擎。1、InnoDB索引組織表在InnoDB引擎中,表都是按照主鍵順序組織存放的,這種存放方式的表稱為索引組織表。InnoDB存儲引擎中的表,都有主鍵,如果沒有顯式聲明主鍵,則采取以下措施&am…

python捕獲全局異常統一管理_python中如何用sys.excepthook來對全局異常進行捕獲、顯示及輸出到error日志中...

使用sys.excepthook函數進行全局異常的獲取。1. 使用MessageDialog實現異常顯示;2. 使用logger把捕獲的異常信息輸出到日志中;步驟:定義異常處理函數, 并使用該函來替換掉系統的內置處理函數;對于threading.py的異常捕…

r語言系統計算上是奇異的_R語言實現并行計算

Python作為多線程的編程語言在并行方面相對于R語言有很大的優勢,然而作為占據統計分析一席之地的R語言自然不能沒有并行計算的助力。那么我們來看下在R語言中有哪些并行的包:隱式并行:OpenBLAS,Intel MKL,NVIDIA cuBLA…

cansina 目錄_dirmap - 一個高級web目錄、文件掃描工具-華盟網

Dirmap一個高級web目錄掃描工具,功能將會強于DirBuster、Dirsearch、cansina、御劍需求分析經過大量調研,總結一個優秀的web目錄掃描工具至少具備以下功能:并發引擎能使用字典能純爆破能爬取頁面動態生成字典能fuzz掃描自定義請求自定義響應結…

唯有自己變得強大_物競天擇,適者生存,唯有強大自己,方能百毒不侵

物競天擇,適者生存,這是亙古不變的道理。面對生活中的困難,人生路上的挫折,我們只有足夠堅強,足夠勇敢,足夠強大,才能戰勝這一切。人活著要明白,你所有的負面,都源于你的…

樹莓派c語言運行_樹莓派完成簡單的編程(四)

在上一篇文章中,我們學習了Vi文本編輯器,那么用它可以實現什么功能呢?樹莓派python以及c語言編程這里我選擇了最簡單和很流行的兩種編程語言:C語言和Python。實現最簡單的功能,輸出hello world。Python編程簡介Python是…

mysql 讀寫引擎_揭秘MySQL存儲引擎spider

轉自:興趣部落?buluo.qq.com導讀: Spider是為MySQL/MariaDB開發的一個特殊引擎,具有內嵌分片功能。現在它已經被集成到MariaDB10.0及以上版本中,作為MariaDB的一個新的主要性。Spider的主要功能是將數據分散到多個后端節點&#…

python中的與或非_「Python基礎」 While 循環語句

Python 編程中 while 語句用于循環執行程序,即在某條件下,循環執行某段程序,以處理需要重復處理的相同任務。其基本形式為:while 判斷條件:執行語句……執行語句可以是單個語句或語句塊。判斷條件可以是任何表達式&…

lamp mysql大小限制_LAMP 調優之:MySQL 服務器調優

關于 MySQL 調優有 3 種方法可以加快 MySQL 服務器的運行速度,效率從低到高依次為:替換有問題的硬件。對 MySQL 進程的設置進行調優。對查詢進行優化。替換有問題的硬件通常是我們的第一考慮,主要原因是數據庫會占用大量資源。不過這種解決方…

go定時器 每天重復_Go語言學習基礎-定時器、計時器

Timer計時器如果希望在將來的某個時間點執行Go代碼,或者在某個時間間隔重復執行Go代碼,使用Go內置的timer和ticker功能。先看定時器timer,然后再看計時器ticker。定時器代表未來的單個事件。告訴定時器需要等待多長時間,它返回一個…