scrapy框架的理解

scrapy框架的理解

news/2025/8/7 14:18:04/文章來源:https://blog.csdn.net/weixin_30312659/article/details/99489588

　　在每一次學習一個新東西之前，需要知道的幾個問題。這個東西是什么(what),怎么使用(how)，為什么(why)

scrapy的概念：Scrapy是一個為了爬取網站數據，提取結構性數據而編寫的框架。

scrapy的作用：通過少量代碼實現快速抓取。

scrapy一共有5個模塊和2個中間件，模塊分別是Spider爬蟲模塊，engine引擎模塊，scheduler調度器模塊，Downloader下載器模塊，Pipeline管道模塊。中間件分別是Downloader--Middlewares(下載器中間件)，

Spider-Middlewares(爬蟲中間件)。

engine引擎模塊：負責數據和信號在不同模塊間的傳遞。

scheduler調度器模塊：實現一個隊列，存放引擎發過來的request請求對象。

Downloader下載器模塊：發送引擎發過來的request請求，獲取響應，并將response傳遞給引擎。

Spider爬蟲模塊：處理引擎發過來的response，提取數據，提取url，并交給引擎。

Pipeline管道模塊：處理引擎傳遞過來的數據，比如存儲。格式可以是csv、json、mongodb、redis、mysql.

下載中間件(downloader middleware)：可以自定義的下載擴展，比如設置代理Ip。

爬蟲中間件(spider middleware)：可以自定義request請求和進行response過濾。

?

scrapy的工作原理流程：

1.spider---request---engine

2.engine---request---scheduler

3.scheduler---request---engine

4.engine---request---downloader

5.downloader---response---engine

6.engine---response---spider

7.spider---new_url---engine

重復1-6

8.spider---data---engine

9.engine---data---pipeline

?

scrapy框架的運行流程以及數據傳遞過程：

調度器把requests-->引擎-->下載中間件--->下載器
下載器發送請求，獲取響應---->下載中間件---->引擎--->爬蟲中間件--->爬蟲
爬蟲提取url地址，組裝成request對象---->爬蟲中間件--->引擎--->調度器
爬蟲提取數據--->引擎--->管道
管道進行數據的處理和保存

?

轉載于:https://www.cnblogs.com/hjl666/p/10882737.html

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/386782.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/386782.shtml
英文地址，請注明出處：http://en.pswp.cn/news/386782.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！

相關文章

MAC配置JCO，與找不到sapjco3異常

MAC配置JCO，與找不到sapjco3異常

①到jco官網下載jco壓縮包，解壓 ②把libsapjco3.jnilib 放到一個文件夾中把該路徑配置到環境變量中 ③項目運行有可能會出現異常：找不到 sapjco3 ； 第一種解決方式：配置虛擬機參數：-Djava.library.path之前環境變量路…

閱讀更多...

You must install pydot and graphviz for plotmodel to work報錯如何處理

You must install pydot and graphviz for plotmodel to work報錯如何處理

本文主要記錄windows-anaconda環境下關于使用tensorflow.keras.utils.plot_model()方法時提示安裝pydot 和 graphviz的解決方法。 pydot的安裝非常簡單，進入anaconda python環境中，用pip進行安裝就可以了。 graphviz包的安裝就要稍顯復雜一些。首先我們…

閱讀更多...

Java高并發之BlockingQueue

Java高并發之BlockingQueue

前言碎語當系統流量負載比較高時，業務日志的寫入操作也要納入系統性能考量之內，如若處理不當，將影響系統的正常業務操作，之前寫過一篇《spring boot通過MQ消費log4j2的日志》的博文，采用了RabbitMQ消息中間件來存儲抗…

閱讀更多...

python中文字符串轉list

python中文字符串轉list

本文主要記錄了將中文字符串轉換為list的過程，其中我們使用了keras preprocessing中的text_to_word_sequence方法。這個方法是完全適配中文的。需要注意的是，中文語料一般字符之間是沒有空格分割的，這與英文是不同的。如下所示，如…

閱讀更多...

IP通信基礎回顧2(第三周)

IP通信基礎回顧2(第三周)

1.TCP報文序號字段占4個字節。TCP連接中傳送的數據流中每一個字節都編上一個序號。序號字段的值則是本報文段所發送的數據第一個字節的序號。確認序號占4個字節。是期望收到的對方的下一個報文段字節胡序號。首部長度占4個字節。指出TCP首部長度在20-60字節之間，所…

閱讀更多...

ThreadPoolExecutor線程池 + Queue隊列

ThreadPoolExecutor線程池 + Queue隊列

1：BlockingQueue繼承關系 java.util.concurrent 包里的 BlockingQueue是一個接口， 繼承Queue接口，Queue接口繼承 Collection BlockingQueue----->Queue-->Collection 圖： 隊列的特點是：先進先出（FIFO…

閱讀更多...

python list pop方法

python list pop方法

通過使用pop方法可以直接刪除列表中的某一個對應元素并返回該元素值 s [a, b, c, d] # 通過使用pop方法可以移除list中的一個元素并返回它的值 result s.pop(1) print(result) print(s)結果如下 b [a, c, d]

閱讀更多...

linux基礎文件管理軟硬鏈接

linux基礎文件管理軟硬鏈接

一、文件系統的基本結構 1、文件和目錄被組成一個單根倒置樹目錄結構 2、文件系統從根目錄下開始，用“/”表示 3、根文件系統（rootfs）：root filesystem文件名區分大小寫 4、以 . 開頭的文件為隱藏文件 5、路徑用/隔離 6文件有兩類…

閱讀更多...

mybatis動態更新xml文件后熱部署,不重啟應用的方法

mybatis動態更新xml文件后熱部署,不重啟應用的方法

mybatis應用程序，由于是半自動化的sql, 有大量的sql是在xml文件中配置的，而在開發程序的過程中，通常需要邊寫sql變調試應用。但在默認情況下，xml文件里配置的sql語句是被放入到緩存中去了，每次更改有sql語句的xml文件&…

閱讀更多...

Leetcode 反轉字符串 II python解法

Leetcode 反轉字符串 II python解法

題干： 給定一個字符串 s 和一個整數 k，從字符串開頭算起，每計數至 2k 個字符，就反轉這 2k 字符中的前 k 個字符。如果剩余字符少于 k 個，則將剩余字符全部反轉。如果剩余字符小于 2k 但大于或等于 k 個，…

閱讀更多...

下拉插件 (帶搜索) Bootstrap-select 從后臺獲取數據填充到select的 option中用法詳解...

下拉插件 (帶搜索) Bootstrap-select 從后臺獲取數據填充到select的 option中用法詳解...

今天收到了客戶的需求，要求在新增停車場ID的時候要從數據庫查出來對應的停車場名稱然后顯示在界面上。保存的時候按照停車場ID進行保存。自己首先把后臺的部分寫完了，測試了接口數據。成功的拿到了ajax數據。接下來，自己用了select下拉標簽…

閱讀更多...

pytorch tensorboard基本用法整理

pytorch tensorboard基本用法整理

from torch.utils.tensorboard import SummaryWriterif __name__ __main__:aa SummaryWriter(logs) # 創建保存了summarywriter的log目錄for i in range(100):aa.add_scalar(y x, i, i) # 后兩個參數先y軸后x軸 x軸往往是global step y軸用于輸出loss或者其他需要觀察的變量…

閱讀更多...

php 支付寶付款接口測試

php 支付寶付款接口測試

詳細去這里：https://blog.csdn.net/suprezheng/article/details/84931225 轉載于:https://www.cnblogs.com/LF-place/p/10898357.html

閱讀更多...

spring boot mybatis攔截器

spring boot mybatis攔截器

mybaits攔截器 package com.chinamobile.scm.masterdata.interceptor;import com.alibaba.fastjson.JSON; import lombok.extern.slf4j.Slf4j; import org.apache.ibatis.executor.Executor; import org.apache.ibatis.executor.parameter.ParameterHandler; import org.apach…

閱讀更多...

Linux自有服務(2)-Linux從入門到精通第六天(非原創）

Linux自有服務(2)-Linux從入門到精通第六天(非原創）

文章大綱一、設置主機名二、chkconfig三、ntp服務四、防火墻服務五、rpm管理（重點）六、cron/crontab計劃任務（重點）七、學習資料下載八、參考文章自有服務，即不需要用戶獨立去安裝的軟件的服務，而是當系統…

閱讀更多...

Spring 事務以及攔截器的前后關系實驗 Mybatis 日志攔截

Spring 事務以及攔截器的前后關系實驗 Mybatis 日志攔截

背景：當一個線程中，如果需要攔截所有當SQL日志，然后統一發送到一個同步器，就可以實現多個數據庫實現同步主庫，在進行紅綠上線，或者灰度部署時候，可以實現生產庫與測試庫實時同步，從而…

閱讀更多...

四級翻譯常用詞匯

四級翻譯常用詞匯

ancient 古老的；古代的　　　　　　 achieve 獲得 v attract 吸引 v　　　　　　　　　　　　achievement 成就 n attractive 吸引人的　　　　　　　　　advanced 先進的 account for 對....負有責任；占比　　　approach 接近；處理&#…

閱讀更多...

一般攔截器 serviceImpl部分

一般攔截器 serviceImpl部分

一般攔截器 serviceImpl部分 package com.chinamobile.scm.masterdata.interceptor;import com.chinamobile.framework.common.context.InvokeTracer; import com.chinamobile.framework.common.context.RequestContext; import com.chinamobile.framework.utils.CollectionUt…

閱讀更多...

營銷-營銷方式：營銷方式

營銷-營銷方式：營銷方式

ylbtech-營銷-營銷方式：營銷方式營銷方式是指營銷過程中所有可以使用的方法。包括服務營銷、體驗營銷、知識營銷、情感營銷、教育營銷、差異化營銷、直銷、網絡營銷等。要有好的營銷方式首先要創造行之有效的營銷工具。但這并不意味著要把預算的75%都花在印制宣傳資…

閱讀更多...

以后可能用到的一些OQL

以后可能用到的一些OQL

Visual VM對OQL的支持上面我們學會了如何查看堆內存快照，但是，堆內存快照十分龐大，快照中的類數量也很多。Visual VM提供了對OQL（對象查詢語言）的支持，以便于開發人員在龐大的堆內存數據中，快…

閱讀更多...

最新文章