新人不會自己搭建代理池?快來引用大佬的
對于新人學習爬蟲來說,雖然不會爬取太難的網站,但是有時候爬取的數據量過大的時候,也會遇到返回不了數據的問題,這時候打開網頁一看.可能會看到"你的ip訪問頻率太高"這樣的提示,出現這種問題的原因可能是,你被封ip啦.
但是爬蟲不是還得繼續不是嗎?這時候就需要借助代理來突破自己ip訪限制或者隱藏自己的ip來防止被封鎖,關于代理則可以搭建代理池來解決,讓網站防不勝防,但是都說了咱是新人!!!怎么會搭建代理池那玩意,這時候就需要像牛頓學習,站在巨人的肩膀上,借用他人的代理池來完成爬蟲.
在這里我們借用了崔大寫的開源代理池代理池地址 ,具體的運行方法崔大已經寫好了,在這里我就想把自己運行這個代理池所遇到的問題做個總結
注:我在這里用的是windows系統.
1 關于代理池的下載前提
下載代理池 首先你需要創建一個github賬號然后安裝git,具體的流程請看git,因為git的安裝在官網下載那簡直是龜速,這里我分享我的網盤鏈接給大家,鏈接:https://pan.baidu.com/s/1gb6mPItCl9OLOAWSlryZMA
提取碼:q1o4
(這個版本不是最新的)
2 關于代理池的下載
安裝好git了我們打開cmd運行命令符,移動到想安裝的盤,然后做出輸入git clone https://github.com/Python3WebSpider/ProxyPool.git ,這樣代理池就下載到本地啦,具體步驟如下圖
3 關于運行所需要的條件
在這里我選擇的是常規方式運行,沒有用到docker,關于常規方式運行,需要滿足以下條件
1.Python>=3.6
2. Redis
3. 安裝依賴包
關于python的下載在這里推薦anaconda下載,安裝最新的anaconda就好啦(雖然后面無法安裝tensorflow,不過我們只爬蟲的嘛),anaconda的安裝教程地址是https://blog.csdn.net/weixin_43715458/article/details/100096496,當然如果你安裝過anaconda或者python請略過這步,但是請確保你的python版本.后面打開代理池我用的是pycharam所以在這里在放一個鏈接關于anaconda安裝與pycharm的配置anaconda與pycharm配置,啥都沒有安裝的請從次鏈接開始.
關于Redis的安裝教程請參考此此鏈接Redis安裝
另外redis常用的可視化工具 Redis Desktop Manager,但是0.9.4以上要給錢的,不過這里有免費的版本,鏈接redis可視化工具下載
關于依賴包的安裝需要在虛擬環境下安裝,這里我使用的是conda創建的虛擬環境,虛擬環境的安裝請參考此鏈接conda安裝虛擬環境,在這里繼續強調你的python版本不能低于3.6,虛擬環境安裝好了 請開啟你的虛擬環境 然后移動到你代理池的文件位置,運行這個命令
pip3 install -r requirements.txt(安裝了anaconda的命令為pip install -r requirements.txt),具體情況如下圖所示
注:這里yu是我的虛擬環境名稱 我已經安裝好了依賴包了 這里做了個演示.
4 關于運行
關于運行其實也沒啥好說的了,打開你的pycharm打開前面下載的代理池文件就好啦,這里對崔大寫的一些做下解釋,
關于這里 其實就在你的setting.py文件里的這里
你可以根據自己的情況進行修改,
關于這里
同樣在setting.py文件里的
你可以根據自己的需要修改測試地址,構建專屬于你所爬網站的代理池.
最后,打開你的 run.py文件點運行就能愉快的開啟代理池啦.
原文鏈接:https://blog.csdn.net/weixin_48257295/article/details/107707037