寫在前面
你想成為Python爬蟲的高手么?你想爬取你想要的高質量數據么?
那么你得需要進行爬蟲項目的演練,那樣你才有可能在Python爬蟲的道路上走的更遠
小編在這里精心總結了20個爬蟲項目的演練,是目前爬蟲高手一直專注的領域。
小編將為大家提供這些項目的源碼供大家參考練習!!致敬奮斗的你!!

需要項目源碼的小伙伴關注、轉發文章,私信小編“007”即可獲取這些項目的源碼
需要項目源碼的小伙伴關注、轉發文章,私信小編“007”即可獲取這些項目的源碼
需要項目源碼的小伙伴關注、轉發文章,私信小編“007”即可獲取這些項目的源碼
項目名稱及介紹
注意:因為名稱涉及太多互聯網電商平臺的大佬,所以企業關鍵字小編用拼寫代替
1、【WechatSogou】- weixin公眾號爬蟲。基于weixin搜索的weixin公眾號爬蟲接口,可以擴展成基于搜狗搜索的爬蟲,返回結果是列表,每一項均是公眾號具體信息字典。
2、【DouBanSpider】- douban讀書爬蟲。可以爬下豆瓣讀書標簽下的所有圖書,按評分排名依次存儲,存儲到Excel中,可方便大家篩選搜羅,比如篩選評價人數>1000的高分書籍;可依據不同的主題存儲到Excel不同的Sheet ,采用User Agent偽裝為瀏覽器進行爬取,并加入隨機延時來更好的模仿瀏覽器行為,避免爬蟲被封。
3、【zhihu_spider】- zhihu爬蟲。此項目的功能是爬取zhihu用戶信息以及人際拓撲關系,爬蟲框架使用scrapy,數據存儲使用mongo
4、【bilibili-user】- Bilibili用戶爬蟲。總數據數:20119918,抓取字段:用戶id,昵稱,性別,頭像,等級,經驗值,粉絲數,生日,地址,注冊時間,簽名,等級與經驗值等。抓取之后生成13站用戶數據報告。
5、【SinaSpider】- xinlang微博爬蟲。主要爬取xinlang微博用戶的個人信息、微博信息、粉絲和關注。代碼獲取xinlang微博Cookie進行登錄,可通過多賬號登錄來防止xinlang的反扒。主要使用 scrapy 爬蟲框架。
6、【distribute_crawler】- 小說下載分布式爬蟲。使用scrapy,Redis, MongoDB,graphite實現的一個分布式網絡爬蟲,底層存儲mongodb集群,分布式使用redis實現,爬蟲狀態顯示使用graphite實現,主要針對一個小說站點。
7、【CnkiSpider】- 知網爬蟲。設置檢索條件后,執行src/CnkiSpider.py抓取數據,抓取數據存儲在/data目錄下,每個數據文件的第一行為字段名稱。
8、【LianJiaSpider】- 鏈家網爬蟲。爬取北京地區鏈家歷年二手房成交記錄。涵蓋鏈家爬蟲一文的全部代碼,包括鏈家模擬登錄代碼。
9、【scrapy_jingdong】-jingdong爬蟲。基于scrapy的京東網站爬蟲,保存格式為csv。
10、【QQ-Groups-Spider】- QQ 群爬蟲。批量抓取 QQ 群信息,包括群名稱、群號、群人數、群主、群簡介等內容,最終生成 XLS(X) / CSV 結果文件。
11、【wooyun_public】-烏云爬蟲。 烏云公開漏洞、知識庫爬蟲和搜索。全部公開漏洞的列表和每個漏洞的文本內容存在mongodb中,大概約2G內容;如果整站爬全部文本和圖片作為離線查詢,大概需要10G空間、2小時(10M電信帶寬);爬取全部知識庫,總共約500M空間。漏洞搜索使用了Flask作為web server,bootstrap作為前端。
12、【QunarSpider】- 去哪兒網爬蟲。 網絡爬蟲之Selenium使用代理登陸:爬取去哪兒網站,使用selenium模擬瀏覽器登陸,獲取翻頁操作。代理可以存入一個文件,程序讀取并使用。支持多進程抓取。
13、【findtrip】- 機票爬蟲(qunaer+xiecheng網)。Findtrip是一個基于Scrapy的機票爬蟲,目前整合了國內兩大機票網站(qunaer+xiecheng網)。
14、【163spider】 - 基于requests、MySQLdb、torndb的網易客戶端內容爬蟲
15、【doubanspiders】- douban電影、書籍、小組、相冊、東西等爬蟲集
16、【QQSpider】- QQ空間爬蟲,包括日志、說說、個人信息等,一天可抓取 400 萬條數據。
17、【baidu-music-spider】- baidu_mp3全站爬蟲,使用redis支持斷點續傳。
18、【tbcrawler】- taobao的爬蟲,可以根據搜索關鍵詞,物品id來抓去頁面的信息,數據存儲在mongodb。
19、【stockholm】- 一個股票數據(滬深)爬蟲和選股策略測試框架。根據選定的日期范圍抓取所有滬深兩市股票的行情數據。支持使用表達式定義選股策略。支持多線程處理。保存數據到JSON文件、CSV文件。
20、【BaiduyunSpider】-baiduyun盤爬蟲。
特別提醒:大家也不要隨隨便便多線程爬取網頁數據,因為會造成服務器的崩潰。還有雖然爬蟲這個技術無罪,但是勸告大家不要用于商業用途、以及侵犯個人隱私,做項目練練手可以,別被關進小黑屋了,切記!!
寫在最后
小伙伴們,看了這篇文章還有為了沒有爬蟲項目練手而慌張么?獲取項目源碼看圖片下方的獲取方式哦~希望小編的文章能夠幫助到學爬蟲的你。
最后,致敬正在奮斗的你們!!!!