python爬蟲 線程,進程,協程

0x00 線程

線程是一個執行單位,是在一個進程里面的,是共享進程里面的提供的內存等資源,使用多個線程時和使用多個進程相比,多個線程使用的內存等資源較少。進程像一座“房子”(獨立資源),線程是房子里的“房間活動”(共享資源但獨立執行)。

進程是一個資源單位,比如說各種運行的應用程序,每個應用程序就是一個進程。
多進程會占用較多的內存資源,一般適用cpu密集型操作,如圖像處理,視頻編碼等,這里不做介紹了。
下面的代碼是一個單線程運行的

import requests
url=''
requests.get(url)

多線程的使用

import threading
def task(a):print(f"a子線程")
if __name__ == '__main__':s=threading.Thread(target=task, kwargs={"a":"bbb"})#通過字典傳遞函數的參數s.run()print("aaa")

創建一個線程為50的線程池

from concurrent.futures import ThreadPoolExecutor
def task():for i in range(1,1000):print(i)
if __name__ == '__main__':#創建一個50線程的with ThreadPoolExecutor(50) as t:t.submit(task)

實例爬取菜價在這里插入圖片描述
通過分析,發現源碼里面并沒有,network 格式選擇xhr,找到了最終的數據,通過分析發現是post提交的數據,current等于幾就是第幾頁
在這里插入圖片描述

from concurrent.futures import ThreadPoolExecutor
import requests
url='http://www.xinfadi.com.cn/getPriceData.html'
def download(count):data={"current":count,"limit":"20"}rep=requests.post(url=url,data=data)dic=rep.json()for i in range(0,20):#注意這里是字典夾雜著列表name=dic['list'][i ]['prodName']price=dic['list'][i]['avgPrice']with open("4.csv","a+") as f:f.write(f"菜名:{name}")f.write(f"平均價:{price}")f.write("\n")
if __name__ == '__main__':with ThreadPoolExecutor(50) as t:for i in range(1,50):t.submit(download,count=i)

在這里插入圖片描述

0x01協程

協程(Coroutine) 是一種用戶態的輕量級線程,通過協作式多任務實現高效并發,一般多用于io密集型操作,網絡請求、文件讀寫等。
多線程:通過操作系統調度多個線程并行執行,屬于并發的一種形式。
異步:單線程內通過事件循環調度多個任務,屬于并發模型,特點是單線程高并發。

#定義協程
import asyncio
async def fetch_data():print("發起請求...")await asyncio.sleep(1)  # 模擬異步I/Otime.sleep(1)#同步錯誤用法print("數據返回")return {"data": 42}

案列爬取小說
分析網頁,發現內容都在源代碼中,這里選用xpath解析器,將小說內容保存到txt文件中去

import aiohttp
import asyncio
from lxml import etree
import osheaders = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"
}
async def fetch(url):async with aiohttp.ClientSession() as session:async with session.get(url, headers=headers) as response:response.encoding = "utf-8"return await response.text()
async def parse_down(url):text = await fetch(url)html=etree.HTML(text)title=html.xpath("//h1/text()")contents=html.xpath("//div[@id='chaptercontent']/text()")os.makedirs("novels", exist_ok=True)filename = f"{title[0]}.txt"filepath = os.path.join("novels", filename)with open(filepath,"w+",encoding='utf-8') as f:f.write(title[0]+'\n\n')for content in contents:f.write(content.strip().replace("請收藏本站:https://www.bibie.cc。筆趣閣手機版:https://m.bibie.cc", "")+'\n')
async def main():tasks = []for i in range(1, 517):url = f'https://www.bibie.cc/html/229506/{i}.html'tasks.append(parse_down(url))await asyncio.gather(*tasks)print("爬取完成")
if __name__ == '__main__':try:asyncio.run(main())except Exception as e:print("")

在這里插入圖片描述

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/902183.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/902183.shtml
英文地址,請注明出處:http://en.pswp.cn/news/902183.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

ES|QL,知道嗎,專為搜索而生 —— 推出評分和語義搜索

作者:來自 Elastic Ioana Tagirta 在 Elasticsearch 8.18 和 9.0 中,ES|QL 支持評分、語義搜索以及更多的 match 函數配置選項,還有一個新的 KQL 函數。 使用 ES|QL 搜索 在 Elasticsearch 8.18 和 9.0 中,ES|QL 增加了一系列新功…

MIT6.S081-lab4

MIT6.S081-lab4 注:本篇lab的前置知識在《MIT6.S081-lab3前置》 1. RISC-V assembly 第一個問題 Which registers contain arguments to functions? For example, which register holds 13 in main’s call to printf? 我們先來看看main干了什么: …

一文總結通信電路中LC諧振回路中各公式以及對深入解讀品質因數Q

目錄 前言 一、基本公式總結 1.并聯諧振回路 2.串聯諧振回路 二、淺談品質因數 1.衡量諧振回路能量存儲與能量損耗之比的無量綱參數,用于描述諧振電路的頻率選擇性 2.當受到振蕩驅動力時,諧振腔的中心頻率與其帶寬的比值 3.為什么諧振時電容上的…

Linux:文件系統

一.認識硬件–磁盤 1. 物理結構 1.2 存儲結構 ?如何定位?個扇區呢? 可以先定位磁頭(header)——》確定磁頭要訪問哪?個柱?(磁道)(cylinder)——》 定位?個扇區(sector)。 柱?(cylinder&#xff09…

數字孿生廢氣處理工藝流程

圖撲數字孿生廢氣處理工藝流程系統。通過精準 3D 建模,對廢氣收集、預處理、凈化、排放等全流程進行 1:1 數字化復刻,實時呈現設備運行參數、污染物濃度變化等關鍵數據。 借助圖撲可視化界面,管理者可直觀掌握廢氣處理各環節狀態&#xff0c…

Scratch——第18課 列表接龍問題

在四級的考級中,接龍的題目雖然在CIE中只出現過兩次,但是這類題目對字符串的知識點考察相對全面。 一、接龍游戲的判斷方法 接龍的內容對應的字符數 ? 已接龍內容的字符數 滿足條件>接龍內容的第一個字符數 ? 上一項接龍的最后一個字符 滿足條件…

webgl入門實例-向量在圖形學中的核心作用

在圖形學中,向量是描述幾何、光照、運動等核心概念的基礎工具。以下是向量在圖形學中的關鍵應用和深入解析: 1. 向量的核心作用 幾何表示:描述點、方向、法線、切線等。空間變換:平移、旋轉、縮放等操作依賴向量運算。光照計算&a…

Redis 是如何保證線程安全的?

Redis 是如何保證線程安全的? Redis 是一個高性能的鍵值數據庫,廣泛應用于緩存、消息隊列、實時分析等場景。由于其性能優勢,Redis 已經成為許多系統的核心組件之一。然而,很多開發者在使用 Redis 時,常常會問&#x…

Img2img-turbo 在2080Ti上的測試筆記

1. 介紹 [img2img-turbo]是[pytorch-CycleGAN-and-pix2pix]推薦的更新的圖像變換的代碼實現; 2. 配置信息 Conda環境名稱:img2img-turbo 3. 問題描述 當前在我們嘗試使用了官方推薦的訓練命令在2080Ti上進行訓練, 3.1 出現了 CUDA out …

代碼隨想錄算法訓練營第三十五天|416. 分割等和子集、698.劃分為k個相等的子集、473.火柴拼正方形

今日題目 416. 分割等和子集 題目鏈接:416. 分割等和子集 - 力扣(LeetCode) 思考:本題要將數組分為兩個子數組,且兩個子數組和相等,因此首先可以想到的條件就是數組可分為兩個,這要求數組元素數…

純CSS實現自動滾動到底部

<!DOCTYPE html> <html lang"zh-CN"><head><meta charset"UTF-8" /><meta name"viewport" content"widthdevice-width, initial-scale1.0" /><title>自動滾動到底部</title><style>*…

【新人系列】Golang 入門(十五):類型斷言

? 個人博客&#xff1a;https://blog.csdn.net/Newin2020?typeblog &#x1f4dd; 專欄地址&#xff1a;https://blog.csdn.net/newin2020/category_12898955.html &#x1f4e3; 專欄定位&#xff1a;為 0 基礎剛入門 Golang 的小伙伴提供詳細的講解&#xff0c;也歡迎大佬們…

AI大模型發展現狀與MCP協議誕生的技術演進

1. 大模型能力邊界與用戶痛點&#xff08;2023年&#xff09; 代表模型&#xff1a;GPT-4&#xff08;OpenAI&#xff09;、Claude 3&#xff08;Anthropic&#xff09;、通義千問&#xff08;阿里云&#xff09;等展現出強大的生成能力&#xff0c;但存在明顯局限&#xff1a…

深入理解Linux中的線程控制:多線程編程的實戰技巧

個人主頁&#xff1a;chian-ocean 文章專欄-Linux 前言&#xff1a; POSIX線程&#xff08;Pthreads&#xff09; 是一種在 POSIX 標準下定義的線程庫&#xff0c;它為多線程編程提供了統一的接口&#xff0c;主要用于 UNIX 和類 UNIX 系統&#xff08;如 Linux、MacOS 和 BS…

(mac)Grafana監控系統之監控Linux的Redis

Grafana安裝-CSDN博客 普羅米修斯Prometheus監控安裝&#xff08;mac&#xff09;-CSDN博客 1.Redis_exporter安裝 直接下載 wget https://github.com/oliver006/redis_exporter/releases/download/v1.0.3/redis_exporter-v1.0.3.linux-amd64.tar.gz 解壓 tar -xvf redis_…

鴻蒙應用元服務開發-Account Kit未成年人模式訂閱和處理用戶信息變更

一、概述 通過訂閱用戶信息變更&#xff0c;您可以接收有關用戶及其賬戶的重要更新。當用戶取消元服務的授權信息、注銷華為賬號時&#xff0c;華為賬號服務器會發送通知到元服務&#xff0c;元服務可以根據通知消息進行自身業務處理。 二、用戶信息變更事件介紹 三、訂閱用…

buildroot構建根文件系統報錯(已解決大部分問題)

title: buildroot構建根文件系統報錯(set FORCE_UNSAFE_CONFIGURE1) author: cbus categories: 小知識 tags:小知識 abbrlink: 53691 date: 2025-04-20 08:03:00 錯誤1 set FORCE_UNSAFE_CONFIGURE1 在使用buildroot構建根文件系統時&#xff0c;一切按照文檔的配置&#xff0…

7.QT-常用控件-QWidget|font|toolTip|focusPolicy|styleSheet(C++)

font API說明font()獲取當前widget的字體信息.返回QFont對象.setFont(const QFont& font)設置當前widget的字體信息. 屬性說明family字體家族.?如"楷體",“宋體”,"微軟雅?"等.pointSize字體??weight字體粗細.以數值?式表?粗細程度取值范圍為[…

通過面向目標的獎勵彌合人與機器人的靈活性差距

24年10月來自紐約大學的論文“Bridging the Human to Robot Dexterity Gap through Object-Oriented Rewards”。 直接通過人類視頻訓練機器人是機器人技術和計算機視覺領域的一個新興領域。盡管雙指機械手在雙指夾持器方面取得了顯著進展&#xff0c;但以這種方式讓多指機械手…

C++入門篇(下)

目錄 1、引用 1.1 引用概念 1.2 引用特性 1.3 常引用 1.4 使用場景 1.4.1 引用做參數 1.4.2 引用做返回值 1.5 引用和指針的區別 2、內聯函數 2.1 概念 2.2 特性 3、auto關鍵字 4、基于范圍的for循環 5、指針空值nullptr 5.1 C98 中的指針空值處理 5.2 C11 …