數據分布是如何影響目標檢測精度的

在這里插入圖片描述

文章目錄

  • 一、研究背景與目標
    • 模型效果提升
    • 數據集優化
  • 二、研究問題明細
        • 各方向的關聯性與核心邏輯
        • 1. 高質量數據集的高效篩選與主動學習應用
        • 2. 基于推理結果的數據補充與增強方向優化
        • 3. 多類別場景下目標尺度與模型精度的關聯性
        • 4. 損失函數與數據增強對精度的量化影響
        • 5. 目標類型專用數據增強的有效性驗證
        • 6. 目標位置分布對檢測精度的影響
        • 7. 網球檢測標簽的細分化探索
        • 8. 新型優化器(Muon)在YOLO中的適配與效果
        • 9. 邊界框(Box)質量的評價標準與精度影響
        • 10. 球類目標的參數簡化方案驗證
  • 數據量越多越好?訓練時間和精度的權衡
    • 實驗:
    • 邊緣效應
    • 結果指導
  • 定義數據集質量指標,
    • 標注質量
    • 數據本身
        • 冗余度(Redundancy)
        • 難例比例(Hard Case Ratio)
    • 任務適配
        • 1. 覆蓋度(Coverage)
        • 1. 分布相似度(Distribution Similarity)
        • 2. 目標密度適配性(Density Adaptability)
  • 篩選高質量數據

一、研究背景與目標

模型效果提升

在目標檢測任務中,首先評價一個訓練好的模型在測試集上表現得好不好的指標很簡單,看準確率類(如Acc、Recall、mAP等)和速度類的指標(如FPS)。
但想提升測試集上的表現,打個比方,把模型看做是學生,訓練階段就是在考前刷題,推理階段就是上場考試。訓練集是 “練習題”,驗證集是 “模擬考試”,測試集是 “最終大考”,標簽則是 “標準答案”。想要考得高,可以提高學生的學習能力,用科學的學習和復習方法,這是改進模型本身。還有是練習時用的例題質量足夠高,這是。

有以下思路:

  • 增加推理時進入模型前對圖片預處理(如去噪、增強對比度),降低模型面對的任務復雜度。
  • 改進模型本身(參數量,深度,結構),提升特征提取能力
  • 在訓練時,用更好的優質數據集,讓模型學習更有效的知識。

以上思路比較淺顯,我們希望

  • 進一步量化對標檢測任務模型精度的影響因素,用來更好的理解優化我們的訓練流程。
  • 知道通用的yolo訓練中什么步驟帶來了最大的提升和最小的時間開銷。找到訓練yolo同時在精度提高跟多,時間開銷更增加更少的影響因素。

數據集優化

這里重點看數據集的改進。對于數據集的改進的首先想到的就是增加數量,力大飛磚,大力出奇跡,題海戰術。一般情況下,數據集越多,測試集精度就越高,但是會增加訓練時的時間成本。而且加入低質量的數據集(如標注錯誤、冗余樣本、極端噪聲數據,甚至 “數據投毒”等),會降低模型的精度。
所以提出一些問題:

  • 性價比最大化:能否在訓練YOLO時以最小的投入(數據集內存占用量,訓練時間)獲取最大的回報(測試集上精度)。也就是通過的篩選或者改進出一小批高質量的數據集進行訓練,來在測試集上精度接近(甚至超越)全量數據集訓練的效果。
  • 數據質量的量化:如何定義和量化所謂的高質量,量化評價一批數據集質量的各個標準。
  • 高質量數據的獲取:這部分高質量數據應該通過什么方法獲得。
  • 最小數據量:數據集質量提高到極致后,最少多少數據集量可以擬合出較好的性能?

二、研究問題明細

  • 專用數據集:空中目標檢測數據集
    • A:遙感多目標數據集
    • B:無人機檢測數據集
  • 通用數據集:coco數據集
  • 目標數據集:網球目標檢測數據集

更具體的研究問題如下:
1:如何通過訓練一個部分的高質量數據集來獲得與全量數據相近的精度,主動學習找到信息量大的標本
2:如何通過分析模型的推理結果來確定后續的補充數據和選擇數據增強的方向
3:多類別下,小目標和大目標的精度差距是相關的嗎?如果減少大目標的類別,能否提高小目標的精度。或者說如果針對每個類別訓練一個單獨的模型會比合在一起的精度更高嗎?
4:損失函數/數據增強是如何影響模型的精度的。
5:針對目標類型設計增強數據,能否有效。
6:目標的位置會影響最終的精度嗎
7:進一步分析球檢測的標簽能否進一步細分。前后半場,擊球,彈起?
8:優化器muon引入yolo的效果實驗
9:如何評價box質量,box的質量會怎么樣影響精度。
10:對于球類運動能否引入一個圓形的目標,減少一個參數量。只需要x,y和r即可。

各方向的關聯性與核心邏輯

所有方向均圍繞“數據-模型-任務特性”的交互關系展開:

  • 數據層面(1、2、6、9)聚焦“數據分布、質量、補充策略”對精度的影響;
  • 模型層面(4、8)關注“損失函數、優化器”等組件的參數優化;
  • 任務特性層面(3、5、7、10)針對多類別、球類檢測等場景的專屬問題,探索定制化方案(如標簽細分、圓形參數化)。

通過量化各方向的實驗結果(如精度提升幅度、時間開銷),可最終形成“最小投入-最大回報”的YOLO訓練優化路徑。

圍繞“在YOLO系列模型訓練中以最小投入(時間、數據量等)獲取最大精度回報”這一核心目標,結合數據分布、模型優化、任務特性等維度,可將研究方向明確為以下10個具體且相互關聯的子方向,每個方向均聚焦于可量化、可實驗驗證的關鍵問題:

1. 高質量數據集的高效篩選與主動學習應用
  • 核心目標:通過主動學習策略從全量數據中篩選出“信息量最大”的部分高質量數據,使模型精度接近全量數據訓練效果,減少數據維護成本。
  • 關鍵問題:如何定義“信息量大的標本”(如難例、代表性樣本)?通過詞向量嵌入、相似度聚類(如Kmeans)、置信度分析等方法篩選數據的效果差異如何?
2. 基于推理結果的數據補充與增強方向優化
  • 核心目標:利用模型推理結果(如邊界框質量、置信度、漏檢/誤檢區域)反向指導數據補充策略(如增加某類樣本)和數據增強方向(如針對薄弱區域設計增強)。
  • 關鍵問題:推理結果中的哪些指標(如低置信度區域、密集目標漏檢)可直接關聯數據缺陷?如何將這些指標轉化為具體的數據集擴充或增強方案?
3. 多類別場景下目標尺度與模型精度的關聯性
  • 核心目標:探究多類別中“小目標與大目標精度差距”的內在關聯,以及類別拆分對精度的影響。
  • 關鍵問題:減少大目標類別是否能提升小目標精度?為每個類別單獨訓練模型是否比聯合訓練精度更高?(本質是分析類別競爭、尺度差異對模型注意力的影響)
4. 損失函數與數據增強對精度的量化影響
  • 核心目標:量化不同損失函數(如CIoU、Focal Loss)和數據增強方法(如翻轉、縮放、馬賽克)對模型精度的提升幅度及時間開銷。
  • 關鍵問題:哪些損失函數/增強方法在YOLO訓練中性價比最高(提升大且耗時少)?不同數據集(如通用COCO、專用遙感數據)對損失函數/增強的敏感度是否有差異?
5. 目標類型專用數據增強的有效性驗證
  • 核心目標:驗證“針對特定目標類型設計增強”的效果(如網球的運動模糊、旋轉增強)。
  • 關鍵問題:為球類、空中目標等設計專屬增強(如模擬飛行軌跡、擊球動態)是否比通用增強更能提升精度?
  • MMYOLO中的實驗證明了多個數據增強的影響。
6. 目標位置分布對檢測精度的影響
  • 核心目標:分析目標在圖像中的位置(如邊緣、中心、密集區域)與檢測精度的關聯。
  • 關鍵問題:是否存在“模型對特定位置目標檢測能力較弱”的現象?如何通過數據分布優化(如平衡位置分布)改善這一問題?
7. 網球檢測標簽的細分化探索
  • 核心目標:針對網球任務,驗證標簽細分(如前后半場位置、擊球/彈起狀態)對檢測精度或任務擴展性的提升。
  • 關鍵問題:細分標簽是否能讓模型學習到更精細的運動特征?細分化帶來的標簽成本增加與精度提升是否平衡?
8. 新型優化器(Muon)在YOLO中的適配與效果
  • 核心目標:測試優化器Muon替代YOLO默認優化器(如SGD、Adam)后的訓練效率(收斂速度)和最終精度。
  • 關鍵問題:Muon在處理球類、小目標等場景時,是否能減少震蕩、提升收斂穩定性?與原有優化器的時間開銷對比如何?
9. 邊界框(Box)質量的評價標準與精度影響
  • 核心目標:定義“邊界框質量”的量化指標(如與真實框的交并比、標注完整性),分析其對模型精度的直接影響。
  • 關鍵問題:低質量框(如標注偏移、漏標)對小目標/密集目標檢測的危害是否更大?如何通過清洗低質量框提升模型魯棒性?
10. 球類目標的參數簡化方案驗證
  • 核心目標:針對球類(圓形目標),測試用“圓心(x,y)+半徑(r)”替代傳統矩形框(x,y,w,h)的可行性,減少模型參數量。
  • 關鍵問題:圓形參數化是否能提升球類檢測的精度(如減少形狀擬合誤差)?對模型推理速度的提升效果如何?

數據量越多越好?訓練時間和精度的權衡

實驗:

  • 假設 “數據質量分布平均”,排除了數據質量差異對結果的干擾,能單純聚焦 “數據量” 與 “精度” 的關系。
  • 固定訓練超參數,所有實驗組(不同數據量)采用相同的訓練輪次、學習率調度(如余弦退火)、優化器(如Adam)、batch size,僅改變數據量。 符合實驗設計的單一變量原則。
  • 多次實驗取均值:如果時間允許,同一數據量下重復訓練3次(避免隨機種子影響),取精度均值繪制曲線,減少偶然誤差。

逐步添加數據,并測試記錄測試集上分數。繪制曲線。

  • 針對“全量數據”:指不區分目標類型,單純增加整體數據集的規模時,模型精度的變化趨勢。
  • 針對“小目標(像素少)、密集目標(數量多、相互遮擋)”:專門針對“小目標”或“密集目標”樣本增加數據量時,模型在這類目標上的精度變化趨勢。

明確添加數據的“添加方式”:若隨機添加,可能因偶然引入大量冗余樣本(如重復場景),導致曲線低估 “有效數據” 的邊際效益;若按規則添加,需明確規則并保持一致性

  • 添加策略:采用“分層隨機抽樣”,確保每次新增數據的場景分布(如光照、角度、背景)與初始數據集一致,避免因新增數據分布偏移影響曲線真實性。
  • 數據量梯度:設置合理的梯度間隔(如按初始數據量的20%、40%、60%、80%、100%、120%遞增),避免梯度太粗(如僅3個點)導致曲線形態失真,或太細(如20個點)增加實驗成本。

效率指標:同步記錄“每單位數據量的精度提升”(ΔAP/新增數據量)和“每單位精度提升的時間成本”(Δ訓練時間/ΔAP),直接量化“權衡關系”

邊緣效應

曲線量化“數據量增加”與“模型性能提升”之間的關系

邊緣效應:隨著數據量不斷增加,模型性能的提升幅度會逐漸減弱(甚至趨于停滯)的規律。

  • 初期:數據量較少時,新增數據(尤其是代表性樣本)能顯著提升模型性能(曲線陡峭上升)。
  • 中期:數據量達到一定規模后,新增數據的邊際收益開始下降(曲線變平緩)。
  • 后期:數據量極大時,新增數據幾乎不再提升性能(曲線趨于水平)。

曲線形態:通常是一條“先快速上升,后逐漸平緩”的曲線,橫軸為“數據量”,縱軸為“模型精度(如mAP)”。

結果指導

對全量數據曲線:明確“數據量與精度的性價比臨界點”,指導實際訓練中“投入多少數據最劃算”。個人認為圖像拐點處。

對小目標/密集目標曲線:判斷“此類目標是否受數據量限制”(如曲線始終陡峭,說明需優先擴充;若快速平緩,需轉向模型優化,如改進小目標檢測頭)。

定義數據集質量指標,

評價一批數據集質量的指標類別:

  • 標注質量:人工復審等
  • 數據本身特性(如多樣性、代表性)
  • 與任務適配性(如對模型薄弱環節的覆蓋度)

標注質量

都是人標記的,而且就是復審也是人標記的,一張圖人人標記的都不一樣,不好客觀量化。

數據本身

冗余度(Redundancy)
  • 定義:數據集中高度相似樣本的占比(冗余樣本會增加訓練時間,對精度提升無意義)。
  • 量化方法
    • 計算所有樣本對的特征向量余弦相似度,設定閾值(如0.95,認為相似度≥0.95為冗余)。
    • 冗余度 = 冗余樣本對數 / 總樣本對數(取值0~1,越接近0越好)。
  • 優化:通過篩選冗余樣本,可在減少數據量的同時保持覆蓋度(如冗余度從0.3降至0.1,數據量減少20%,精度不變)。
難例比例(Hard Case Ratio)
  • 定義:數據集中包含“模型難識別樣本”的比例(如小目標、遮擋目標、罕見角度目標),此類樣本對提升模型泛化能力至關重要。
  • 量化方法
    • 用預訓練模型(如YOLOv5)對數據集進行推理,計算每個樣本的預測損失(如邊界框損失+分類損失)。
    • 設定損失閾值(如取損失前20%的樣本為“難例”),難例比例 = 難例樣本數 / 總樣本數(需結合任務調整,并非越高越好,通常10%~30%為宜)。

任務適配

與任務適配性指標:反映數據與“測試集/任務需求”的匹配度

1. 覆蓋度(Coverage)
  • 定義:數據集覆蓋測試集所有場景/目標類型的程度(如不同光照、角度、背景下的目標),避免關鍵場景缺失。
  • 量化方法
    • 用圖像嵌入模型(如谷歌MediaPipe)將所有樣本(訓練集+測試集)轉化為特征向量,通過K-means聚類將測試集分為N類(如N=20,覆蓋所有典型場景)。
    • 計算訓練集中覆蓋測試集聚類中心的比例:覆蓋度 = 訓練集包含的測試集聚類中心數 / 測試集總聚類中心數(取值0~1,越接近1越好)。
  • 示例:若測試集聚類為“白天晴天”“夜晚燈光”“雨天模糊”3類,訓練集包含前兩類,則覆蓋度=2/3≈0.67。
1. 分布相似度(Distribution Similarity)
  • 定義:訓練集與測試集在“目標尺度、位置、類別”等關鍵特征上的分布差異(差異越小,模型在測試集上的表現越穩定)。
  • 量化方法
    • 目標尺度分布:將目標按面積分為小(<32×32)、中(32×32~96×96)、大(>96×96)三檔,計算訓練集與測試集各檔占比的KL散度:KL散度越小,分布越相似(KL散度<0.1為高適配)。
    • 位置分布:將圖像劃分為9個網格(如3×3),統計目標在各網格的占比,計算訓練集與測試集的JS散度(取值0~1,<0.2為高適配)。
2. 目標密度適配性(Density Adaptability)
  • 定義:訓練集中密集目標樣本與測試集密集場景的匹配程度(針對密集目標檢測任務)。
  • 量化方法
    • 定義“密集樣本”為單張圖目標數>10個,計算訓練集與測試集的密集樣本占比:密集占比差 = |訓練集密集占比 - 測試集密集占比|(差值<5%為適配,否則需補充分集樣本)。

篩選高質量數據

方向是主動學習。實驗主要是區分為兩部分

  • 數據驅動:通過模型對圖片進行詞向量嵌入,構造詞向量的數據集。對向量相似度進行對比,將相似度高的數據進行篩選。使用谷歌的嵌入庫。
  • 結果驅動:通過對結果的box大小和區域以及置信度的分析,增加類似的數據集。

參考思路:

  • 1.1: 對現有數據集進行Kmeans聚類,對選取聚類個數,聚類中心結果進行實驗,數據的數量,大小和位置分布

  • 1.2:選取和驗證集的數據最相似的N個數據加入網絡訓練數據,觀察收斂曲線,增加數據的數量,大小和位置分布

  • 1.3:先隨機選擇K個數據,再刪除和這些數據相似度大于一定值的數據,觀察收斂曲線,數據的數量,大小和位置分布

  • 1.4:訓練數據集結果中,根據置信度對數據進行刪除,刪除按照某個線性函數,高多刪低的保留,觀察收斂曲線,數據的數量,大小和位置分布

  • 1.5:根據某個規則重新挑選數據,保證訓練和測試數據集的標簽的分布和位置盡量的相似

  • 1.6:對于驗證集的偽標簽,是否全加入訓練是最好的,如果需要挑選,要挑選什么樣的數據。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/89412.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/89412.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/89412.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Python 網絡爬蟲 —— 代理服務器

一、會話&#xff08;Session&#xff09;&#xff08;一&#xff09;核心邏輯HTTP 本身無記憶&#xff0c;每次請求獨立。會話&#xff08;Session&#xff09; 就是為解決這問題&#xff0c;讓客戶端&#xff08;瀏覽器&#xff09;和服務器 “記住” 交互狀態&#xff08;比…

Vue在線預覽Excel和Docx格式文件

前提&#xff1a;本次示例基于Vue2.x&#xff0c;所用插件為Vue-Office。 一、Vue-Office 插件簡介 Vue-Office 是一個一站式解決方案&#xff0c;支持多種 Office 文件格式的在線預覽&#xff0c;包括&#xff1a; Word&#xff08;.docx&#xff09;Excel&#xff08;.xlsx、…

提升(Boosting)及 Python 示例

咱們結合這張圖&#xff0c;把 “提升” 想象成 “做錯題本 請老師補課” 的過程&#xff1a;第一波數據&#xff08;最上面的圓圈&#xff09;&#xff1a;“第一次作業”假設你第一次做 100 道數學題&#xff08;圖中圓圈里的綠點白點代表不同的題&#xff09;&#xff0c;做…

【生產實踐】Linux中NAS掛載丟失后提示“過舊的文件句柄”錯誤解決

太長不看版&#xff1a; 問題&#xff1a;nas掛載在系統里掉了&#xff0c;使用df或ls訪問目錄提示過舊的文件句柄解決過程&#xff1a; 和機房聯系&#xff0c;發現NAS服務器重啟了重新執行mount發現掛不上先umount掉當前掛載&#xff0c;再重新執行mount命令問題解決 umount …

JUnit4

JUnit4 介紹JUnit 是 Java 編程語言的單元測試框架&#xff0c;用于編寫和運行可重復的自動化測試。JUnit 特點&#xff1a;JUnit 是一個開放的資源框架&#xff0c;用于編寫和運行測試。提供注解來識別測試方法。提供斷言來測試預期結果。JUnit 測試允許你編寫代碼更快&#x…

Python-TCP編程-UDP編程-SocketServer-IO各種概念及多路復用-asyncio-學習筆記

序 欠4前年的一份筆記 &#xff0c;獻給今后的自己。 網絡編程 Socket介紹 Socket套接字 Python中提供socket.py標準庫&#xff0c;非常底層的接口庫。 Socket是一種通用的網絡編程接口&#xff0c;和網絡層次沒有一一對應的關系。 協議族 AF表示Address Family&#xff0c;用于…

Mybatis-開發一個類似mybatisplus的mybatis擴展,該怎么入手?

開發一個類似mybatisplus的mybatis擴展&#xff0c;該怎么入手&#xff1f; 要開發一個類似于 MyBatis-Plus 的 MyBatis 擴展框架&#xff0c;你需要從以下幾個核心方面入手&#xff0c;逐步構建出一個功能完整、易用性強、兼容性好的增強型 MyBatis 框架。&#x1f9f1; 一、整…

深入了解linux系統—— 信號的捕捉

前言 信號從產生到處理&#xff0c;可以分為信號產生、信號保存、信號捕捉三個階段&#xff1b;了解了信號產生和保存&#xff0c;現在來深入了解信號捕捉。 信號捕捉 對于1-31號普通信號&#xff0c;進程可以立即處理&#xff0c;也可以不立即處理而是在合適的時候處理&#x…

twikitFKS: 基于 twikit 2.3.1 的改進版本

twikitFKS: 基于 twikit 2.3.1 的改進版本 項目概述 關于 twikit twikit 是一個優秀的 Twitter API 爬蟲庫&#xff0c;它的核心優勢在于無需 API Key即可訪問 Twitter 功能。通過網頁爬蟲技術&#xff0c;twikit 實現了&#xff1a; 發布推文和媒體內容搜索推文和用戶獲取…

C Primer Plus 第6版 編程練習——第9章(下)

7.編寫一個函數&#xff0c;從標準輸入中讀取字符&#xff0c;直到遇到文件結尾。程序要報告每個字符是否是字母。如果是&#xff0c;還要報告該字母在字母表中的數值位置。例如&#xff0c;c和C在字母表中的位置都是3。合并一個函數&#xff0c;以一個字符作為參數&#xff0c…

如何用文思助手改好一篇爛材料

在日常工作中&#xff0c;我們常常會遇到這樣的問題&#xff1a;因為工作要使用到之前寫的文章再看發現內容雜亂無章、或者收到的一些返稿內容質量差&#xff0c;不修改無法使用。但其實它們可能只是缺少了系統性的梳理與打磨。今天我們就來聊一聊&#xff0c;如何對一些不滿意…

VSCODE常規設置

摘要&#xff1a;用于新下載的vscode設置一些個人化的操作在 "Files: Auto Save" 下拉菜單中&#xff0c;選擇你想要的自動保存模式。常見的選項包括&#xff1a;"off"&#xff1a;禁用自動保存。 "afterDelay"&#xff1a;在你停止編輯一段時間…

2025秋招突圍戰:AI智能監考如何重構遠程筆試公平防線?

2025秋招季即將來臨&#xff0c;企業校招規模預計突破百萬量級&#xff0c;遠程筆試成為主流篩選方式。然而&#xff0c;傳統監考模式暴露出作弊行為難追溯、人力成本過高、數據維度單一等痛點&#xff0c;讓HR陷入“效率與公平”的兩難困境。牛客AI智能監考系統&#xff0c;通…

Python 基礎語法與數據類型(十三) - 實例方法、類方法、靜態方法

文章目錄1. 實例方法 (Instance Methods)1.1 特點與語法1.2 實例方法示例2. 類方法 (Class Methods)2.1 特點與語法2.2 類方法示例3. 靜態方法 (Static Methods)3.1 特點與語法3.2 靜態方法示例4. 三種方法的對比總結總結練習題練習題答案創作不易&#xff0c;請各位看官順手點…

Wireshark的安裝和基本使用

文章目錄一、Wireshark介紹二、Wireshark安裝三、Wireshark講解1.界面介紹&#xff08;1&#xff09;分組列表&#xff08;2&#xff09;分組詳情&#xff08;3&#xff09;分組字節流一、Wireshark介紹 Wireshark 是一款開源的網絡協議分析工具&#xff0c;能夠捕獲、過濾和分…

[yotroy.cool] Git 歷史遷移筆記:將 Git 項目嵌入另一個倉庫子目錄中(保留提交記錄)

個人博客https://www.yotroy.cool/&#xff0c;感謝關注&#xff5e; 圖片資源可能顯示不全&#xff0c;請前往博客查看哦&#xff01; 說來慚愧&#xff0c;這篇是AI幫助我解決實際問題后&#xff0c;又生成的一篇博客&#xff0c;效率特別高。 在開發中&#xff0c;我們常會…

91套商業策劃創業融資計劃書PPT模版

創業融資計劃書PPT模版&#xff0c;商業項目技術書PPT模版&#xff0c;商業創業計劃書&#xff0c;商業融資企業宣傳PPT模版&#xff0c;活動策劃方案書PPT模版&#xff0c;IOS風格商業計劃書PPT模版 91套商業策劃創業融資計劃書PPT模版&#xff1a;https://pan.quark.cn/s/739…

探秘阿里云通義九子:解鎖AI無限可能

通義九子初印象在當今人工智能飛速發展的時代&#xff0c;阿里云通義九子宛如一顆璀璨的明星&#xff0c;閃耀在 AI 的浩瀚天空中。作為阿里云推出的一系列強大的人工智能模型&#xff0c;通義九子在自然語言處理、圖像生成、智能客服等多個領域展現出了卓越的能力&#xff0c;…

Python網絡爬蟲之requests庫

目錄 一.網絡爬蟲的介紹 1.網絡爬蟲庫 2.robot.txt規則 二.requests庫 1.requests庫的安裝 2.get()函數 3.Response對象 Response的屬性 設置編碼 返回網頁內容 text() content() 三.提交信息到網頁 post()函數 四.會話與代理服務器 一.網絡爬蟲的介紹 1.網絡爬蟲…

區塊鏈技術詳解:從原理到應用

引言 區塊鏈作為一項顛覆性技術&#xff0c;已從加密貨幣的基石演變為重塑多個行業的創新引擎。本文旨在深入解析其核心原理、關鍵特性、技術架構、主流應用及未來挑戰。一、 區塊鏈核心概念&#xff1a;超越加密貨幣的分布式賬本 本質定義&#xff1a; 區塊鏈是一個去中心化、…