系列學習筆記參考:python3網絡爬蟲開發實戰
requests
# pip install requests
import requests
selenium
Selenium是一個自動化測試工具,利用它我們可以驅動瀏覽器執行特定的動作,如點擊、下拉等 操作 。 對于一些 JavaScript誼染的頁面來說,這種抓取方式非常有效.
# pip install selenium
import selenium
ChromDriver
點擊 Chrome菜單“幫助”→“關于 GoogleChrome”,即可查看 Chrome 的版本號.
在網站:http://chromedriver.chromium.org/downloads下載對應版本的文件,下載后解壓文件到/usr/bin 里面
解決方法參考:https://www.cnblogs.com/silentdoer/p/8946946.html,感覺挺靠譜,不過我本機上沒成功,沒敢在搗鼓
嘗試其他方式:
將當前可執行文件放在/usr/local/chromedriver 目錄下(沒有就自己新建一個),接下來可以修改~/.profile文件,?
export PATH=” $PATH:/usr/local/chromedriver" 保存后執行如下命令:
source ~/. profile?
報錯:
解決參考:https://stackoverflow.com/questions/40157445/mac-terminal-error-bash-users-tim-profile-no-such-file-or-directory
touch ~/.profile
?配置完成后,就可以在命令行下直接執行 chromedriver命令了:
chromedriver?
在python編輯器上執行
from selenium import webdriver
browser = webdriver.Chrome()
閃退,報錯,提示版本對不上(之前裝過73版本的,在/usr/bin路徑上),需要把該路徑上的文件刪除了。
解決方法,修改/usr/bin 下面的權限,參考:https://www.jianshu.com/p/c658973eb122,修改后重啟,記得修改回來,修改回來腳本:csrutil enable
替換掉舊的就可以了
?
GeckoDriver?
Firefox來說, 也可以使用同樣的方式完成 Selenium的對接,這時需要安裝另一個驅動GeckoDriver
下載地址:https://github.com/mozilla/geckodriver/releases
步驟和上面一樣,也是修改/usr/bin 的權限
from selenium import webdriver
brower = webdriver.Firefox()
?
PhantomJS
PhantomJS是一個無界面的、可腳本編程的 WebKit瀏覽器引擎,它原生支持多種 Web標準: DOM操作、 css選擇器、 JSON、 Canvas以及 SVG。
Selenium支持 PhantomJS,這樣在運行的時候就不會再彈出 一個瀏覽器了
不過鑒于目前selenium不在支持PhantomJS,這里不在進行安裝。
相關新聞查看:http://www.sohu.com/a/224999034_100122143?
?pyquery
pyquery同樣是一個強大的網頁解析工具,它提供了和jQuery類似的語法來解析HTML文梢, 支 持 css選擇器。
pip install pyquery
?
tesserocr
在 Mac下,我們首先使用 Homebrew安裝 ImageMagick和 tesseract庫 :
brew install imagemagick
brew install tesseract --all-languages
接下來再安裝 tesserocr即可: pip3 install tesserocr pillow
這樣我們便完成了 tesserocr的安裝
在用homebrew 安裝的時候如果遇到update brew,解決方式參考:https://learnku.com/articles/18908
安裝好后,試驗下下面的圖片,圖片地址:
https://raw.githubusercontent.com/Python3WebSpider/TestTess/master/image.png
到圖片路徑下面,執行:
tesseract image.png result -l eng && cat result.txt?
結果:
?
?
嗷嗷
?
?