Python 實現大文件的高并發下載

項目背景

基于一個 scrapy-redis 搭建的分布式系統,所有item都通過重寫 pipeline 存儲到 redislist 中。這里我通過代碼演示如何基于線程池 + 協程實現對 item 的中文件下載。

  • Item 結構

    目的是為了下載 item 中 attachments 保存的附件內容。

    {"crawl_time":"20221017 12:00:00","version":"20221017 12:00:00","data": [{"title": "","attachments": [{"ori_url": "https://www.baidu.com",	# 文件地址"path": "",	# 文件本地保存路徑"filename": "xxx"	# 文件名稱}]}]
    }
    

一、批量獲取 item

為了能夠提高數據的存儲效率,選擇從 redis 中彈出多個 item,但當前部署的 redis 版本為 5.0lpop 不支持同時彈出多個數據,需要通過 LRANGELTRIM 命令實現,但是兩個命令執行不是原子操作,在多線程的情況下會導致數據異常,因此通過 lua 腳本執行批量彈出多個 item

1.1 lua 腳本

在這里插入圖片描述

1.2 讀取數據

設定好批量讀取的大小,執行 lua 腳本,獲取數據。
在這里插入圖片描述

二、并發

2.1 線程池

使用線程池去管理這么多 item 下載任務的原因:

  • 減少頻繁創建和銷毀線程的開銷
  • 控制并發數量,防止不斷創建線程導致資源耗盡
  • 復用線程,減少線程切換開銷

將獲取到的 data 進行分片,分片后的數據交給多個線程去下載,提高并發效率。
在這里插入圖片描述

2.2 協程任務

每個線程新建一個事件循環對象 loop,用來管理分片后的 data 協程任務。

為了復用 TCP 連接和 session,選擇讓分片 data 共享一個 TCPConnectorClientSession 對象。這是基于 data 分片大小大概率是同一個網站的數據設計的,可以降低連接創建會話管理的的資源消耗。
在這里插入圖片描述

2.3 協程并發

通過 asyncio.gather 實現協程并發。
在這里插入圖片描述

三、大文件分塊

下載文件時,如果文件比較大,網絡又不穩定的情況下,很容易導致下載失敗,因此這里通過將文件分塊下載優化流程。

3.1 分塊

對文件分塊之前,先要獲取文件大小。向服務器發送一個預請求 head,來獲取文件長度,這樣可以避免獲取整個文件,減少網絡傳輸耗時。
在這里插入圖片描述
然后對文件進行分塊處理,在傳輸中,需要平衡 網絡擁塞請求頻次 導致的消耗,這里選擇將文件分為 1024 * 1024 也就是 1 MB 的塊大小。

使用 asyncio.Semaphore 控制 同時進行的下載任務數量,避免過多并發導致服務器崩潰。
在這里插入圖片描述

3.2 下載

修改 headers 中的 Range 獲取文件指定塊大小的內容。

通過裝飾器實現文件的斷點續傳功能,防止因網絡不穩定導致文件內容缺失。
在這里插入圖片描述
當文件的某個塊下載失敗,超出重試次數時,取消所有該文件塊的下載任務,暫時放棄該文件,記錄到失敗下載隊列中保存,避免因為問件本就損壞這種情況導致不斷重試。
在這里插入圖片描述
異步裝飾器的實現
在這里插入圖片描述

3.3 拼接

result 按順序返回請求的結果,將請求的文件塊拼接完成。
在這里插入圖片描述

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/897981.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/897981.shtml
英文地址,請注明出處:http://en.pswp.cn/news/897981.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

MySQL與Canal、RabbitMQ集成指南

MySQL 部分 1. 查看是否開啟 binlog MySQL 8 默認開啟 binlog。可以通過以下命令查看是否開啟: SHOW VARIABLES LIKE log_bin;如果返回結果為 ON,則表示 binlog 已開啟。 Variable_nameValuelog_binON 2. 若未開啟 binlog,則需手動配置 …

X86 RouterOS 7.18 設置筆記十:上海電信IPTV使用msd_lite實現組播轉單撥

X86 j4125 4網口小主機折騰筆記五:PVE安裝ROS RouterOS X86 RouterOS 7.18 設置筆記一:基礎設置 X86 RouterOS 7.18 設置筆記二:網絡基礎設置(IPV4) X86 RouterOS 7.18 設置筆記三:防火墻設置(IPV4) X86 RouterOS 7.18 設置筆記四…

Select 選擇器選項位置偏移的解決方案

Select 選擇器選項位置偏移的解決方案 在使用 Select 組件時,可能會遇到下拉選項位置偏移的問題。這通常由 CSS 樣式、組件 渲染方式 或 父級元素的影響 造成。以下是詳細的排查步驟和解決方案。 一、常見原因 position: relative; 或 overflow: hidden; 影響下拉菜…

LeetCode 解題思路 17(Hot 100)

解題思路: 找到鏈表中點: 使用快慢指針法,快指針每次移動兩步,慢指針每次移動一步。當快指針到達末尾時,慢指針指向中點。遞歸分割與排序: 將鏈表從中點處分割為左右兩個子鏈表,分別對這兩個子…

數學建模歷程之初見

第一次接觸數學建模是在上大學前,當時只是聽過。起源于我在大學的老鄉群里聊天,由于當時年輕有點傻,說的話太多了,什么都問哈哈哈哈哈。 后來有個學長從老鄉群里加我,問我怎么話那么多,你們懂當時對我幼小…

Python 科學計算與機器學習入門:NumPy + Scikit-Learn 實戰指南

Langchain系列文章目錄 01-玩轉LangChain:從模型調用到Prompt模板與輸出解析的完整指南 02-玩轉 LangChain Memory 模塊:四種記憶類型詳解及應用場景全覆蓋 03-全面掌握 LangChain:從核心鏈條構建到動態任務分配的實戰指南 04-玩轉 LangChai…

「自動駕駛背后的數學:從傳感器數據到控制指令的函數嵌套」—— 揭秘人工智能中的線性函數、ReLU 與復合函數

引言 自動駕駛技術是人工智能領域的一個重要應用,其核心在于如何將傳感器數據轉化為車輛控制指令。這一過程涉及大量的數學知識,包括線性函數、激活函數(如 ReLU)以及復合函數的嵌套使用。本文將深入探討自動駕駛中的數學原理&am…

詳解SQL數據定義功能

數據定義 1. 數據庫模式(Schema)的定義與刪除定義模式刪除模式 2. 基本表的定義、修改與刪除定義表約束1. NOT NULL 約束2. DEFAULT 約束3. UNIQUE 約束4. PRIMARY KEY 約束多列主鍵示例: 5. FOREIGN KEY 約束6. CHECK 約束7. AUTO_INCREMENT…

Redis超高并發分key實現

Redis扛并發的能力是非常強的,所以高并發場景下經常會使用Redis,但是Redis單分片的寫入瓶頸在2w左右,讀瓶頸在10w左右,如果在超高并發下即使是集群部署Redis,單分片的Redis也是有可能扛不住的,如下圖所示&a…

AI Agent 時代開幕-Manus AI與OpenAI Agent SDK掀起新風暴

【本周AI新聞: AI Agent 時代開幕-Manus AI與OpenAI Agent SDK掀起新風暴】 https://www.bilibili.com/video/BV1bkQyYCEvQ/?share_sourcecopy_web&vd_source32ed33e1165d68429b2e2eb4749f3f26 最近AI圈子里最火的話題非Manus莫屬!這款由中國武漢創業公司“蝴…

多時間尺度的配電網深度強化學習無功優化策略的Python示例代碼框架

以下是一個簡單的多時間尺度的配電網深度強化學習無功優化策略的Python示例代碼框架,用于幫助你理解如何使用深度強化學習(以深度Q網絡 DQN 為例)來處理配電網的無功優化問題。在實際應用中,你可能需要根據具體的配電網模型和需求…

劍指 Offer II 081. 允許重復選擇元素的組合

comments: true edit_url: https://github.com/doocs/leetcode/edit/main/lcof2/%E5%89%91%E6%8C%87%20Offer%20II%20081.%20%E5%85%81%E8%AE%B8%E9%87%8D%E5%A4%8D%E9%80%89%E6%8B%A9%E5%85%83%E7%B4%A0%E7%9A%84%E7%BB%84%E5%90%88/README.md 劍指 Offer II 081. 允許重復選擇…

Webpack 前端性能優化全攻略

文章目錄 1. 性能優化全景圖1.1 優化維度概覽1.2 優化效果指標 2. 構建速度優化2.1 緩存策略2.2 并行處理2.3 減少構建范圍 3. 輸出質量優化3.1 代碼分割3.2 Tree Shaking3.3 壓縮優化 4. 運行時性能優化4.1 懶加載4.2 預加載4.3 資源優化 5. 高級優化策略5.1 持久化緩存5.2 模…

虛擬電商-數據庫分庫分表(二)

本文章介紹:使用Sharding-JDBC實現數據庫分庫分表,數據庫分片策略,實現數據庫按月分表 一、Sharding-JDBC使用 1.1.準備環境 步驟一:分庫分表sql腳本導入 創建了兩個數據庫:chongba_schedule0 和chongba_schedule1…

向量數據庫對比以及Chroma操作

一、向量數據庫與傳統類型數據庫 向量數據庫(Vector Storage Engine)與傳統類型的數據庫如關系型數據庫(MySQL)、文檔型數據庫(MongoDB)、鍵值存儲(Redis)、全文搜索引擎&#xff0…

python列表基礎知識

列表 創建列表 1.列表的定義:可變的,有序的數據結構,可以隨時添加或者刪除其中的元素 2.基本語法:字面量【元素1,元素2,元素3】使用[]創建列表 定義變量:變量名稱【元素1,元素2&…

Node.js 的模塊作用域和 module 對象詳細介紹

目錄 代碼示例 1. 創建模塊文件 module-demo.js 2. 導入模塊并使用 module-demo.js 運行結果 總結 在 Node.js 中,每個文件都是一個獨立的模塊,具有自己的作用域。與瀏覽器 JavaScript 代碼不同,Node.js 采用模塊作用域,這意味…

美暢物聯丨WebRTC 技術詳解:構建實時通信的數字橋梁

在互聯網技術飛速發展的今天,實時通信已成為數字生活的核心需求。WebRTC作為一個開源項目,憑借卓越的技術實力與創新理念,為網頁和移動應用帶來了顛覆性的實時通信能力。它突破了傳統通信方式的限制,實現了音頻、視頻和數據在用戶…

excel中兩個表格的合并

使用函數: VLOOKUP函數 如果涉及在excel中兩個工作表之間進行配對合并,則: VLOOKUP(C1,工作表名字!A:B,2,0) 參考: excel表格中vlookup函數的使用方法步驟https://haokan.baidu.com/v?pdwisenatural&vid132733503560775…

單引號與雙引號在不同編程語言中的使用與支持

在編程語言中,單引號和雙引號是常見的符號,它們通常用來表示字符和字符串。然而,如何使用這兩種符號在不同的編程語言中有所不同,甚至有一些語言并不區分單引號和雙引號的用途。本文將詳細介紹不同編程語言中單引號與雙引號的支持…