概述:
在人工智能來臨的今天,數據顯得格外重要。在互聯網的浩瀚大海洋中,隱藏著無窮的數據和信息。因此學習網絡爬蟲是在今天立足的一項必備技能。本路線專門針對想要從事Python網絡爬蟲的同學而準備的,并且是嚴格按照企業的標準定制的學習路線。路線從最基本的Python基礎開始講起,到如何借助代碼發起網絡請求以及將請求回來的數據解析,到后面的分布式爬蟲,讓你能夠系統的學習到一個專業的網絡爬蟲工程師所具備的所有技能。課程講解通俗易懂,實戰案例豐富,技術棧貼近企業需求。學完后可無縫轉移到企業開發中
大綱:
一、爬蟲基礎:
1.爬蟲介紹及其應用場景。
2.chrome瀏覽器抓包工具介紹。
3.http協議。
4.urllib網絡請求模塊。
5.實戰:使用urllib技術實現拉勾網爬蟲實戰。
6.cookie技術和cookiejar模塊。
7.實戰:使用cookiejar技術實現模擬登錄爬蟲實戰。
8.ProxyHandler和ip代理。
9.requests網絡請求庫。
10.xpath語法和lxml解析。
11.實戰:使用xpath技術實現電影天堂爬蟲實戰。
12.BeautifulSoup解析庫。
13.實戰:使用BeautifulSoup實現中國天氣網爬蟲實戰。
14.正則表達式和re模塊。
15.實戰:使用正則表達式實現中國古詩文網爬蟲實戰。
16.json文件處理。
17.csv文件處理。
18.excel文件處理。
二、爬蟲進階:
1.多線程與threading模塊。
2.實戰:使用多線程技術實現快速下載圖片爬蟲實戰。
3.ajax異步獲取技術介紹。
4.Selenium+PhantomJS獲取ajax異步加載的數據。
5.實戰:使用Selenium+PhantomJS技術實現簡書爬蟲實戰。
6.圖形驗證碼自動識別技術。
7.實戰:使用圖形驗證碼自動識別技術模擬登錄知乎網站。
三、Scrapy框架:
1.Scrapy框架介紹。
2.Scrapy Shell介紹。
3.Spider爬蟲。
4.CrawlSpider爬蟲。
5.Item Pipeline。
6.Request和Response對象。
7.隨機請求頭和ip代理池。
8.實戰:使用Scrapy技術實現知名新聞網爬蟲實戰。
9.實戰:使用Scrapy技術實現知名問答平臺爬蟲實戰。
10.Redis鍵值對數據庫詳解。
11.Scrapy-redis分布式組件介紹。
12.實戰:使用Scrapy-redis技術實現知名房源網爬蟲實戰。
13.部署Scrapy爬蟲。
學習建議:
建議學習過程中,每看一個視頻就自己動手實踐。把這個視頻的知識點學習后再繼續下一個知識點。課程內容多而且有深度,切不可為了追求速度而忽略了對知識點的理解。預計學習20天。