參考文獻:
Python爬蟲入門(一)(適合初學者)-CSDN博客
一、常用爬蟲工具包
-
Scrapy
- 語言: Python
- 特點: 高效、靈活的爬蟲框架,適合大型爬蟲項目。
-
BeautifulSoup
- 語言: Python
- 特點: 用于解析HTML和XML,簡單易用。
-
Selenium
- 語言: Python/Java/C#
- 特點: 支持瀏覽器自動化,適合處理JavaScript渲染的網頁。
-
Requests
- 語言: Python
- 特點: 簡單的HTTP請求庫,適合輕量級爬蟲。
-
Puppeteer
- 語言: JavaScript
- 特點: 無頭瀏覽器工具,適合處理動態網頁內容。
-
Node.js + Request/Axios
- 語言: JavaScript
- 特點: 適合構建快速、高效的爬蟲。
-
wget
- 語言: 命令行工具
- 特點: 簡單的文件下載工具,適合抓取靜態資源。
-
curl
- 語言: 命令行工具
- 特點: 用于發送HTTP請求,適合測試和簡單抓取。
-
rapyuta.io
- 特點: 在線爬蟲工具,支持多種網站的抓取和分析。
二、Scrapy 學習
參考:
Scrapy爬蟲框架實戰_scrapy實戰-CSDN博客
1、創建一個scrapy項目
上文中是一個電子書網站
(1)安裝scrapy?
使用命令行工具?
pip install Scrapy
(2)創建項目 項目名稱可以改變 這里的項目名稱是getbooks
scrapy startproject XXX
(3)創建一個爬蟲,比如目標網站kgbook.com,注意要先轉到剛才的項目 目錄下
cd getbooks
scrapy genspider getkgbook kgbook.com