目錄
第1章:Scrapy是個啥?為什么它是你爬蟲路上的最佳拍檔?
1.1 Scrapy的核心亮點
1.2 啥時候用Scrapy?
1.3 安裝Scrapy
第2章:動手寫你的第一個Scrapy爬蟲
2.1 創建Scrapy項目
2.2 定義數據結構(Items)
2.3 編寫爬蟲邏輯
2.4 運行爬蟲
2.5 小技巧:調試爬蟲
第3章:Scrapy的核心組件與工作流程
3.1 Scrapy的五大核心組件
3.2 數據流轉過程
3.3 為什么這對反爬重要?
3.4 配置優化
第4章:初探反爬蟲技術:從User-Agent到請求頻率
4.1 常見的反爬機制
4.2 應對User-Agent檢測
4.3 控制請求頻率
4.4 實戰:爬取一個帶簡單反爬的網站
第5章:代理池:突破IP封禁的利器
5.1 為什么需要代理?
5.2 代理的種類
5.3 在Scrapy中配置代理
5.3.1 手動設置單一代理
5.3.2 動態代理池
5.3.3 實戰:抓取需要代理的網站
5.4 小心踩坑
第6章:搞定動態加載:用Scrapy-Splash對抗JavaScript渲染
6.1 什么是Scrapy-Splash?
6.2 安裝與配置Splash
6.3 編寫動態爬蟲
6.4 高級玩法:模擬用戶操作
6.5 性能優化
第7章:實戰案例:爬取一個動態加載的電商網站
7.1 項目準備
7.2 配置settings.py
7.3 編寫爬蟲
7.4 運行與調試
7.5 保存到數據庫
7.6 成果展示
第8章:破解驗證碼:從簡單到復雜的應對策略
8.1 驗證碼的類型
8.2 應對圖片驗證碼
8.2.1 人工打碼
8.2.2 OCR識別
8.2.3 實戰:爬取帶驗證碼的網站
8.3 滑塊驗證碼與行為驗證碼
8.4 驗證碼應對的注意事項
第9章:用Selenium/Playwright硬剛復雜反爬
9.1 Selenium vs Playwright
9.2 集成Playwright到Scrapy
9.3 應對行為分析
9.4 性能優化
第10章:分布式爬蟲:讓Scrapy飛起來
10.1 Scrapy-Redis:分布式爬蟲神器
10.2 部署分布式爬蟲
10.3 Scrapyd:管理你的爬蟲集群
10.4 分布式爬蟲的注意事項
第11章:對抗AI行為分析:讓爬蟲更像“人”
11.1 AI行為分析的套路
11.2 用Playwright模擬人類行為
11.3 偽裝設備指紋
11.4 小心踩坑
第12章:破解加密參數:逆向JS的硬核玩法
12.1 常見的加密參數
12.2 逆向JS的步驟
12.3 實戰:破解Token加密
12.4 高級玩法:用PyExecJS執行JS
12.5 破解加密的注意事項
第13章:綜合實戰:打造一個無敵的Scrapy爬蟲
13.1 項目規劃
13.2 項目搭建
13.3 爬蟲代碼
13.4 數據存儲
13.5 運行與部署
13.6 成果與優化
第1章:Scrapy是個啥?為什么它是你爬蟲路上的最佳拍檔?
Scrapy,簡單來說,就是Python生態里一個超級強大的爬蟲框架。它不是那種“拿來即用”的小工具,而是像一個裝備精良的戰艦,適合從簡單抓取到復雜分布式爬蟲的各種場景。相比用r