Scrapy框架之【Scrapy-Redis】分布式爬蟲詳解

Scrapy-Redis 介紹

Scrapy-Redis 是一個基于 Redis 實現的 Scrapy 分布式爬蟲組件。Scrapy 本身是一個強大的 Python爬蟲框架,但它默認是單進程單線程的,在面對大規模數據抓取任務時效率不高。Scrapy-Redis 則解決了這一問題,它允許你將 Scrapy爬蟲擴展到多個機器上運行,從而實現分布式爬蟲的功能。

Scrapy-Redis 主要提供了以下幾個核心功能:在這里插入圖片描述

1.調度器(Scheduler)Scrapy-Redis 提供了一個基于 Redis 的調度器,用于管理待爬取的請求隊列。不同的爬蟲實例可以從這個共享的隊列中獲取請求,避免了請求的重復抓取。
2.去重過濾器(DupeFilter):使用 Redis 的集合(set)數據結構實現了請求去重的功能,確保每個請求只被處理一次。
3.管道(Pipeline):支持將爬取到的數據存儲到 Redis 中,方便后續的處理和分析。
4.分布式爬蟲:多個爬蟲實例可以同時從 Redis 中獲取任務,并行地進行數據抓取,大大提高了爬蟲的效率。

Scrapy-Redis 使用步驟

1. 安裝 Scrapy-Redis

pip install scrapy-redis

2. 創建 Scrapy 項目

scrapy startproject myproject
cd myproject
scrapy genspider myspider example.com

3. 配置 Scrapy 項目
settings.py 文件中進行以下配置:

# ///
# 啟用 Redis 調度器
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
# 確保所有爬蟲共享相同的去重過濾器
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
# 允許暫停和恢復爬蟲,請求隊列會保存在 Redis 中
SCHEDULER_PERSIST = True
# 配置 Redis 服務器地址
REDIS_HOST = 'localhost'
REDIS_PORT = 6379
# REDIS_URL = 'redis://localhost:6379' # 或者這樣
# 配置管道,將數據存儲到 Redis 中
ITEM_PIPELINES = {'scrapy_redis.pipelines.RedisPipeline': 300
}
# ///

4. 修改爬蟲代碼
myspider.py 中,讓你的爬蟲繼承自 RedisSpider

import scrapy
from scrapy_redis.spiders import RedisSpiderclass MySpider(RedisSpider):name = 'myspider'# 從 Redis 中獲取起始 URL 的鍵名redis_key = 'myspider:start_urls'def parse(self, response):# 解析響應內容item = {'url': response.url}yield item

5. 啟動 Redis 服務器
確保你的 Redis 服務器已經啟動:

redis-server

6. 向 Redis 中添加起始 URL
使用 Redis 客戶端向 Redis 中添加起始 URL:

redis-cli lpush myspider:start_urls http://example.com

7. 啟動爬蟲
在項目目錄下啟動爬蟲:

scrapy crawl myspider

爬取目標

目標網址:https://movie.douban.com/top250?start=0&filter=
爬取豆瓣電影的Top250

在這里插入圖片描述

Redis 中的起始 URL 列表(douban:start_urls)添加第一頁的URL

lpush douban:start_urls https://movie.douban.com/top250?start=0&filter=

在這里插入圖片描述

順便配置一下記錄數據的爬取時間的管道

from datetime import datetimeclass DoubanScrapyPipeline:def process_item(self, item, spider):item['crawled_time'] = datetime.now().strftime("%Y-%m-%d %H:%M:%S")item['spider'] = spider.namereturn item

爬蟲代碼

class DoubanSpider(RedisSpider):name = 'douban'# 從 Redis 中獲取起始 URL 的鍵名redis_key = 'douban:start_urls'def parse(self, response: HtmlResponse, **kwargs):print(f"Extracted URL: {response.url}")# 解析響應內容li_list = response.xpath('//ol[@class="grid_view"]/li')for li in li_list:item = dict()item['title'] = li.xpath('.//span[@class="title"]/text()').get()item['rating'] = li.xpath('.//span[@class="rating_num"]/text()').get()item['quote'] = li.xpath('.//p[@class="quote"]/span/text()').get()yield item

運行爬蟲之后,redis中就會多一個items
在這里插入圖片描述

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/78198.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/78198.shtml
英文地址,請注明出處:http://en.pswp.cn/web/78198.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Gradio全解20——Streaming:流式傳輸的多媒體應用(3)——實時語音識別技術

Gradio全解20——Streaming:流式傳輸的多媒體應用(3)——實時語音識別技術 本篇摘要20. Streaming:流式傳輸的多媒體應用20.3 實時語音識別技術20.3.1 環境準備和開發步驟1. 環境準備2. ASR應用開發步驟(基于Transform…

使用xlwings將兩張順序錯亂的表格進行數據核對

有如下一個excel表,姓名列的內容相同,順序不同;月薪有部分內容不同。 目的:要找出哪幾條月薪不同。 通常的做法,要使用excel的高級篩選。 在此,使用xlwings實現,在不同的內容上涂色。 代碼如…

2025大模型安全研究十大框架合集(10份)

2025大模型安全研究十大框架合集的詳細介紹: Anthropic AI信任研究框架 Anthropic于2024年10月更新的《安全責任擴展政策》(RSP),提出了一個靈活的動態AI風險治理框架。該框架規定當AI模型達到特定能力時,將自動升級安全措施,如…

Qt/C++開發監控GB28181系統/云臺控制/獲取預置位信息/添加刪除調用預置位

一、前言 之前用onvif已經完美實現了設備的云臺控制和預置位的功能,這個基礎功能在監控系統中是使用頻率很高的,所有gb28181肯定也提供了這樣的功能,很多人以為是通過包含xml數據,對應節點指定對應的動作來實現,其實不…

第T8周:貓狗識別

● 語言環境:Python3.8.8 ● 編譯器:Jupyter Lab ● 深度學習環境:TensorFlow2.4.1 貓狗識別 一、前期工作1. 設置GPU 二、數據預處理1. 加載數據2.再次檢查數據3.配置數據集 三、構建VG-16網絡四、編譯五、訓練模型六、模型評估七、預測八、…

主流微前端框架比較

主流微前端框架比較 以下表格列出了當前主流微前端框架的核心對比信息,包括基本介紹、核心特性、適用場景、技術棧兼容性、優缺點、社區維護情況和典型應用案例等: 框架基本介紹核心特性與機制適用場景技術棧兼容性優缺點社區維護情況典型應用案例qiankun螞蟻金服推出的生產…

大學生入學審核系統設計與實現【基于SpringBoot + Vue 前后端分離技術】

一、項目概述 1.1 項目背景 隨著高校的不斷擴招,傳統的入學審核管理模式已不能滿足大規模學生數據的處理需求。人工管理不僅效率低下,還容易出現疏漏。本系統通過信息化手段,提升入學審核過程中的數據管理和審批效率。 1.2 系統目標 系統…

云計算-容器云-服務網格Bookinfo

服務網格:創建 Ingress Gateway 將 Bookinfo 應用部署到 default 命名空間下,請為 Bookinfo 應用創建一個網 關,使外部可以訪問 Bookinfo 應用。 上傳ServiceMesh.tar.gz包 [rootk8s-master-node1 ~]# tar -zxvf ServiceMesh.tar.gz [rootk…

Spring 分批處理 + 冷熱數據分離:歷史訂單高效遷移與數據清理實戰

在實際業務中,隨著時間推移,訂單量持續增長,若未及時進行數據治理,會造成數據庫膨脹、查詢緩慢、性能下降等問題。為了實現數據分層管理和系統高性能運行,我們在項目中采用了“冷熱數據分離 分批遷移 數據清理”的綜…

新手SEO優化核心步驟

內容概要 對于SEO新手而言,建立系統化的優化框架是突破入門瓶頸的關鍵。SEO的核心在于通過技術手段與內容策略的結合,提升網站在搜索引擎中的可見性與用戶價值。具體而言,新手需優先掌握關鍵詞研究,明確目標用戶的搜索意圖&#…

C++ 之 【list的簡介、list 的構造函數、iterator、容量操作、元素訪問、增刪查改與迭代器失效】

目錄 1.list的介紹 2.list的使用 2.1 構造函數 2.2 iterator 的使用 2.3 容量操作 2.4 元素訪問 2.5 增刪查改 2.5.1頭插頭刪與尾插尾刪 2.5.2 insert 、erase 函數 2.5.3 clear、swap函數 2.5.4 關于find函數 3.迭代器失效 1.list的介紹 (1)list的底層通常實現為帶…

Laravel Octane 項目加速與靜態資源優化指南

Laravel Octane 項目加速與靜態資源優化指南 一、Octane 核心加速配置 擴展安裝與環境配置 composer require laravel/octane # 安裝核心擴展?php artisan octane:install # 生成配置文件(選擇 Swoole/RoadRunner 等服務器)?服務器參數調優? …

高露潔牙膏是哪個國家的品牌?高露潔牙膏哪一款最好?

高露潔是來自于美國一個比較有知名度的品牌,在1806年的時候創立。總部是在美國紐約公園大道,在1873年時,高露潔就已經開始銷售罐裝牙膏。 在1896年時期推出可折疊管牙膏,在口腔護理產品發展的過程中擁有著不容忽視的地位。在1992…

【Python爬蟲詳解】第八篇:突破反爬體系的工程實踐

當矛與盾的較量進入白熱化,突破反爬需要的不只是技巧,更是一套完整的工程化解決方案——本文將揭示對抗現代反爬體系的九大核心戰術。 一、JavaScript混淆的深度破解 1. AST(抽象語法樹)解混淆 案例:某電商平臺商品價…

【Linux調整FTP端口】

Linux調整FTP端口 一、確保新端口未被占用在修改端口之前,可以使用以下命令檢查端口是否被占用: 二、修改vsftpd配置文件1. 打開vsftpd配置文件2. 找到并修改端口配置3. 保存并退出4. 重啟vsftpd服務 三、配置防火墻 在Linux系統中修改FTP端口&#xff0…

npm打包內存不足- JavaScript heap out of memory

直接貼出報錯信息 <--- Last few GCs --->[30904:0000010F60FE58E0] 22090 ms: Scavenge 2037.4 (2069.4) -> 2036.4 (2074.2) MB, 2.5 / 0.0 ms (average mu 0.228, current mu 0.216) allocation failure [30904:0000010F60FE58E0] 22101 ms: Scavenge 2…

AI大語言模型破譯“未知未知”的密鑰:開源情報、被動收入與智能體協作的深層機理與實踐

在人類認識世界的漫長征程中&#xff0c;信息與知識的獲取和運用一直是核心驅動力。我們從“一無所知”的狀態&#xff0c;逐漸積累“已知已知”&#xff0c;并在此基礎上識別“已知未知”&#xff0c;設定目標去探索解答。然而&#xff0c;真正能夠帶來范式轉變、顛覆現有格局…

kubelet 清理資源以緩解磁盤壓力

kubelet 資源清理緩解磁盤壓力指南 在 Kubernetes 集群中&#xff0c;當節點磁盤壓力過大時&#xff0c;可通過以下幾種方式利用 kubelet 清理資源&#xff0c;從而緩解磁盤壓力。 一、鏡像垃圾回收 自動回收 kubelet 內置了鏡像垃圾回收機制&#xff0c;其行為由配置參數控…

SPOJ 11576 TRIP2 - A Famous King’s Trip 【Tarjan+歐拉回路】

自我吐槽 &#xff08;哭 題目傳送門 SPOJ 洛谷 題目大意 讓你在簡單無向圖上刪去2條邊&#xff0c;使該圖聯通并存在歐拉回路 輸出字典序最小的一對邊 思路 考慮到存在歐拉回路的充要條件&#xff0c;即 i n x ≡ 0 ( m o d 2 ) ? i ( 1 ≤ i ≤ n ) in_x\equiv 0 (\m…

藏文情感分析器入門學習實踐

&#x1f3af; 項目目標&#xff1a; 輸入一段藏文短句。自動分析這句話的情感傾向&#xff1a;積極&#xff08;正面&#xff09;/消極&#xff08;負面&#xff09;/中立。 &#x1f50d; 技術原理簡介 情感分析是什么&#xff1f; 情感分析&#xff08;Sentiment Analysi…