自己幫別人寫的網站可以公開源碼嗎_專注爬蟲：20個精心總結爬蟲項目，爬蟲技術這里強（附源碼）...

寫在前面

你想成為Python爬蟲的高手么？你想爬取你想要的高質量數據么？

那么你得需要進行爬蟲項目的演練，那樣你才有可能在Python爬蟲的道路上走的更遠

小編在這里精心總結了20個爬蟲項目的演練，是目前爬蟲高手一直專注的領域。

小編將為大家提供這些項目的源碼供大家參考練習！！致敬奮斗的你！！

需要項目源碼的小伙伴關注、轉發文章，私信小編“007”即可獲取這些項目的源碼
需要項目源碼的小伙伴關注、轉發文章，私信小編“007”即可獲取這些項目的源碼
需要項目源碼的小伙伴關注、轉發文章，私信小編“007”即可獲取這些項目的源碼

項目名稱及介紹

注意：因為名稱涉及太多互聯網電商平臺的大佬，所以企業關鍵字小編用拼寫代替

1、【WechatSogou】- weixin公眾號爬蟲。基于weixin搜索的weixin公眾號爬蟲接口，可以擴展成基于搜狗搜索的爬蟲，返回結果是列表，每一項均是公眾號具體信息字典。

2、【DouBanSpider】- douban讀書爬蟲。可以爬下豆瓣讀書標簽下的所有圖書，按評分排名依次存儲，存儲到Excel中，可方便大家篩選搜羅，比如篩選評價人數>1000的高分書籍；可依據不同的主題存儲到Excel不同的Sheet ，采用User Agent偽裝為瀏覽器進行爬取，并加入隨機延時來更好的模仿瀏覽器行為，避免爬蟲被封。

3、【zhihu_spider】- zhihu爬蟲。此項目的功能是爬取zhihu用戶信息以及人際拓撲關系，爬蟲框架使用scrapy，數據存儲使用mongo

4、【bilibili-user】- Bilibili用戶爬蟲。總數據數：20119918，抓取字段：用戶id，昵稱，性別，頭像，等級，經驗值，粉絲數，生日，地址，注冊時間，簽名，等級與經驗值等。抓取之后生成13站用戶數據報告。

5、【SinaSpider】- xinlang微博爬蟲。主要爬取xinlang微博用戶的個人信息、微博信息、粉絲和關注。代碼獲取xinlang微博Cookie進行登錄，可通過多賬號登錄來防止xinlang的反扒。主要使用 scrapy 爬蟲框架。

6、【distribute_crawler】- 小說下載分布式爬蟲。使用scrapy,Redis, MongoDB,graphite實現的一個分布式網絡爬蟲,底層存儲mongodb集群,分布式使用redis實現,爬蟲狀態顯示使用graphite實現，主要針對一個小說站點。

7、【CnkiSpider】- 知網爬蟲。設置檢索條件后，執行src/CnkiSpider.py抓取數據，抓取數據存儲在/data目錄下，每個數據文件的第一行為字段名稱。

8、【LianJiaSpider】- 鏈家網爬蟲。爬取北京地區鏈家歷年二手房成交記錄。涵蓋鏈家爬蟲一文的全部代碼，包括鏈家模擬登錄代碼。

9、【scrapy_jingdong】-jingdong爬蟲。基于scrapy的京東網站爬蟲，保存格式為csv。

10、【QQ-Groups-Spider】- QQ 群爬蟲。批量抓取 QQ 群信息，包括群名稱、群號、群人數、群主、群簡介等內容，最終生成 XLS(X) / CSV 結果文件。

11、【wooyun_public】-烏云爬蟲。烏云公開漏洞、知識庫爬蟲和搜索。全部公開漏洞的列表和每個漏洞的文本內容存在mongodb中，大概約2G內容；如果整站爬全部文本和圖片作為離線查詢，大概需要10G空間、2小時(10M電信帶寬)；爬取全部知識庫，總共約500M空間。漏洞搜索使用了Flask作為web server，bootstrap作為前端。

12、【QunarSpider】- 去哪兒網爬蟲。網絡爬蟲之Selenium使用代理登陸：爬取去哪兒網站，使用selenium模擬瀏覽器登陸，獲取翻頁操作。代理可以存入一個文件，程序讀取并使用。支持多進程抓取。

13、【findtrip】- 機票爬蟲(qunaer+xiecheng網)。Findtrip是一個基于Scrapy的機票爬蟲，目前整合了國內兩大機票網站(qunaer+xiecheng網)。

14、【163spider】 - 基于requests、MySQLdb、torndb的網易客戶端內容爬蟲

15、【doubanspiders】- douban電影、書籍、小組、相冊、東西等爬蟲集

16、【QQSpider】- QQ空間爬蟲，包括日志、說說、個人信息等，一天可抓取 400 萬條數據。

17、【baidu-music-spider】- baidu_mp3全站爬蟲，使用redis支持斷點續傳。

18、【tbcrawler】- taobao的爬蟲,可以根據搜索關鍵詞,物品id來抓去頁面的信息，數據存儲在mongodb。

19、【stockholm】- 一個股票數據(滬深)爬蟲和選股策略測試框架。根據選定的日期范圍抓取所有滬深兩市股票的行情數據。支持使用表達式定義選股策略。支持多線程處理。保存數據到JSON文件、CSV文件。

20、【BaiduyunSpider】-baiduyun盤爬蟲。

特別提醒：大家也不要隨隨便便多線程爬取網頁數據，因為會造成服務器的崩潰。還有雖然爬蟲這個技術無罪，但是勸告大家不要用于商業用途、以及侵犯個人隱私，做項目練練手可以，別被關進小黑屋了，切記！！

寫在最后

小伙伴們，看了這篇文章還有為了沒有爬蟲項目練手而慌張么？獲取項目源碼看圖片下方的獲取方式哦~希望小編的文章能夠幫助到學爬蟲的你。

最后，致敬正在奮斗的你們！！！！

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/533498.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/533498.shtml
英文地址，請注明出處：http://en.pswp.cn/news/533498.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！