文章目錄
- 3.8 CrawlSpider介紹
- 3.9 CrawlSpider爬取讀書網案例
- 3.9.1 創建項目
- 3.9.2 定義要爬取的數據結構
- 3.9.3 獲取數據
- 3.9.4 保存數據到本地
- 3.9.5 保存數據到mysql數據庫
- 3.9.6 完整項目下載
3.8 CrawlSpider介紹
CrawlSpider
是 Scrapy 框架中 最常用的高級爬蟲類之一,用于構建“自動跟蹤鏈接、層層爬取”的爬蟲,尤其適用于爬取整站、分頁、欄目等類型的網站。
相比普通的 Spider
,CrawlSpider
可以 自動根據規則跟隨鏈接跳轉頁面,你只需要定義“從哪里來”、“去哪里”、“誰來處理”,它就會自己爬完整個站點,非常適合結構清晰的站點。
?? 小貼士
- 所有的解析函數(如
parse_item
)的名字 必須是字符串形式寫在callback='xxx'
中。CrawlSpider
默認不會使用parse()
方法,請使用自定義的callback
方法來處理頁面內容。- 你可以設置多個
Rule()
,爬不同類型的鏈接。
使用方式: