很多你需要的信息數據都是在網站內,雖然有些網站的數據會以整潔、結構化的形式呈現,但大部分網站卻無法做到這樣。因此,當你想要獲得一些數據的時候,你需要一些爬蟲工具幫助抓取,然后再對其進行分析。今天,將介紹一些很棒的Python爬蟲工具
1、PyRailgun
首先推薦的是PyRailgun,它是一個Web爬蟲工具,具有強大的 WebUI 和腳本編輯器、任務監控和項目管理和結果查看。它支持拓展、支持任務優先級、重試、定期抓取,Pyspider同時支持Python 2和Python 3,為了更快地爬行,可以使用分布式格式,同時使用多個爬行器。
PyRailgun 有一個全面的文檔記錄了它的基本用法,包括示例代碼片段,你可以通過在線演示了解它的UI界面,根據Apache 2 許可。(GitHub地址:https://github.com/binux/pyspider)
2、MechanicalSoup
MechanicalSoup是一個爬蟲庫,它是圍繞非常流行、通用的HTML解析庫Beautiful Soup構建的。如果你的爬行需求非常簡單,只需要選中幾個框或輸入一些文本,并且你不想構建一個自己的爬行器,那么這是一個很好的選擇。
MechanicalSoup獲得了麻省理工學院的許可。有關如何使用它的更多信息,可以查看GitHub上的源文件示例,不過,該項目目前沒有特別全面的文檔。(GitHub地址:https://github.com/hickford/MechanicalSoup)
3、Scrapy
Scrapy 是一個由活躍社區維護的爬蟲框架,你可以使用它創建自己的抓取工具,除了抓取和解析,它還可以輕松導出以JSON或CSV等多種格式收集的數據,并將數據存儲在你選擇的后端。它還提供了許多用于cookie處理、限制爬行深度等任務的內置擴展,以及用于擴展的API。(GitHub地址:https://scrapy.org/)
4、Cola
Cola是一個分布式的爬蟲框架,用戶只需編寫幾個特定的函數,而無需關注分布式運行的細節。任務會自動分配到多臺機器上,整個過程對用戶是透明的。如果你正在尋找一個支持Python 2的爬蟲框架,那它是個不錯的選擇,但是,它已經兩年多沒有更新了。(詳情:https://github.com/chineking/cola)
5、Portia
Portia是scrapyhub開源的一款可視化的爬蟲規則編寫工具。它提供可視化的Web頁面,你只需要通過點擊標注頁面上你需要提取的數據,不需要任何編程知識也可以完成有規則的開發。這些規則可以在#Scrapy#中使用,用于抓取頁面。(詳情:https://github.com/scrapinghub/portia)
6、Newspaper
Newspaper可以用來提取新聞、文章和內容分析。使用多線程,支持10多種語言并且unicode編碼,它還可以提取和檢測語言,如果你沒有指定語言它還會自動檢測。Newspaper 是一個Python 3 爬蟲庫,已經棄用了Python 2 的分支。(GitHub地址:https://github.com/codelucas/newspaper)
7、Grab
Grab是一個python web抓取框架。Grab提供了許多有用的方法來執行網絡請求,抓取網站并處理已刪除的內容:
IDN支持
使用Web表單工具
靈活定制的HTTP請求
自動字符集檢測
......(GitHub地址:https://github.com/lorien/grab)
●本文編號472,輸入編號直達本文
●輸入m獲取文章目錄