Data Augmentation數據增強

目錄

數據增強是什么

為什么數據增強

數組增強分類

有監督數據增強

無監督數據增強


數據增強是什么

數據增強又稱數據擴增,是一種通過應用合理且隨機的變換(例如圖像位移、旋轉)來增加訓練集多樣性的技術。讓有限的數據產生等價于更多數據的價值,并避免不相關性特征。

例如針對車型識別模型,合理隨機變換同車型/不同車型圖片的主體大小、位置、視角、色彩等不相關特征,避免特征提取的不相關傾向性,但不接受垂直飛天側身超高曝汽車圖片。

為什么數據增強

一方面大部分實際項目難以獲得充足的數據,需要充分利用已有數據進行數據增強。另一方面,卷積神經網絡需要提取合理而有效的特征,而非集中不相關特征。

例如針對鳥類識別模型,原數據集中A品種和B品種鳥類占比各50%,羽毛顏色為兩類品種的不相關特征,但受限數據獲取難度,原數據集中A品種鳥均體現藍色,B品種鳥均體現紅色,使用顏色變換隨機擴充各品種顏色比例至50%左右,可以有效避免提取顏色為顯著特征。

數組增強分類

數據增強可以分為,有監督數據增強和無監督數據增強。

有監督數據增強

有監督數據增強還可以分為單樣本數據增強和多樣本數據增強。

  • 單樣本數據增強:增強一個樣本時,完全圍繞樣本本身進行操作,如幾何變換、顏色變換等。
  • 多樣本數據增強:利用多個樣本來產生新的樣本,如SMOTE合成少數過采樣,SamplePairing樣本配對,mixup混合線性插值等

簡單集合變換進行增強示例:

train_transformer = transforms.Compose([# 隨機水平翻轉,翻轉概率為0.5transforms.RandomHorizontalFlip(p=0.5),  # 隨機垂直翻轉,翻轉概率為0.5transforms.RandomVerticalFlip(p=0.5),  transforms.ToTensor(),transforms.Normalize([meanR, meanG, meanB], [stdR, stdG, stdB])])

無監督數據增強

無監督數據增強還可以分為隨機生成擴增和學習策略增強。

  • 隨機生成擴增:學習數據分布,隨機生成與分布一致的圖片,例如GAN生成對抗網絡。
  • 學習策略增強:通過模型學習出適合任務的數據增強策略,例如AutoAugment自動增強。

GAN(generative adversarial networks)包含兩個網絡,生成網絡和對抗網絡:

  1. 生成網絡接收隨機噪聲z,通過噪聲生成圖片,記做G(z) 。
  2. 對抗網絡判別圖片是否由G生成的,訓練好的生成網絡能生成以假亂真的圖片。

AutoAugment是Google提出的自動選擇最優數據增強方案的研究,使用增強學習從數據本身尋找最佳圖像變換策略,針對不同的任務學習出不同的增強方法,核心思想:

  1. 準備16個常用的數據增強操作。
  2. 選擇n個操作,隨機產生使用概率和幅度,稱為一個sub-policy,共產生5個sub-policy。
  3. 訓練過程每一個batch的圖片隨機采用5個sub-policy操作中的一種。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/97928.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/97928.shtml
英文地址,請注明出處:http://en.pswp.cn/web/97928.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

OpenCV:特征提取

目錄 一、特征提取核心概念:什么是圖像特征? 二、實戰 1:Harris 角點檢測 1.1 角點的物理意義 1.2 Harris 算法原理 1.3 OpenCV 實戰代碼與解析 1.4 結果分析 三、實戰 2:SIFT 特征提取 3.1 SIFT 算法核心優勢 3.2 SIFT…

MySQL的查找加速器——索引

文章目錄 目錄 前言 一、基礎概念:什么是 MySQL 索引? 二、底層數據結構:為什么 InnoDB 偏愛 B 樹? B 樹的結構特點(以短鏈接表short_link的short_code索引為例): B 樹的優勢&#xff1a…

【Vue2手錄11】Vue腳手架(@vue_cli)詳解(環境搭建+項目開發示例)

一、前言:為什么需要 Vue 腳手架? 手動搭建 Vue 項目存在諸多痛點(原筆記提及): 依賴管理復雜:需手動下載 Vue、Babel、Webpack 等工具,處理版本兼容性。配置繁瑣:Webpack 配置、E…

自簽發、CA機構簽發、SSH、SCP、RSYNC,SUDO詳解

一、為什么? 1. 自建CA為什么比Lets Encrypt強? 不能把CA放公網!Lets Encrypt是給公網服務用的(比如10.0.0.30的Web服務),但內網服務(比如OpenVPN)必須用自簽CA。 CA私鑰必須物理隔…

【Python】Python解決阿里云DataWorks導出數據1萬條限制的問題

【Python】Python解決阿里云DataWorks導出數據1萬條限制的問題一、前言二、腳本功能概述三、核心代碼解析**1. 環境配置與安全設置****2. 用戶配置區****3. 數據清洗函數****4. 核心邏輯**四、完整代碼演示五、總結一、前言 在日常數據分析工作中,團隊經常需要從阿…

計算機網絡(一)基礎概念

本篇文章為計算機網絡相關知識點整理及擴展 基于B站計算機網絡課程:https://www.bilibili.com/video/BV1p69tYZEvN/?spm_id_from333.1007.top_right_bar_window_history.content.click 如有錯誤,還望大家不吝指正 URL(統一資源定位符&…

Git的工作區域和文件結構

Git的工作區域和文件結構 1. Git的工作區域2. Git的文件結構 打開.git文件,.git的文件結構如下: objects 存放已經提交的文件,也就是使用 git commit 進行操作后的文件。 index 存放已暫存的文件,也就是使用了 git add 進行操作后…

前端開發易錯易忽略的 HTML 的 lang 屬性

前言本文主要記錄:前端開發中,一個本人錯了好幾年,看似無關緊要的小錯誤:HTML 的 lang 屬性設置。正文HTML 的 lang 屬性在HTML中,lang屬性用于指定文檔的語言。這對于搜索引擎優化(SEO)、屏幕閱…

【GD32】 GPIO 超詳細總結 (江科大風格課件版)

GD32 GPIO 超詳細總結 (江科大風格課件版)第一部分:GPIO 是什么? 名稱:GPIO General Purpose Input/Output (通用輸入輸出口)作用:MCU與外部世界交互的橋梁。通過程序控制引腳輸出高、低電平,或者讀取引腳的電平狀態。…

《嵌入式硬件(八):基于IMX6ULL的點燈操作》

一、IMX6ULL啟動代碼.global _start_start:ldr pc, _reset_handlerldr pc, _undefine_handlerldr pc, _svc_handlerldr pc, _prefetch_abort_handlerldr pc, _data_abort_handlerldr pc, _reserved_handlerldr pc, _irq_handlerldr pc, _fiq_handler_undefine_handler:ldr pc, …

Spring Boot 調度任務在分布式環境下的坑:任務重復執行與一致性保證

前言在實際業務開發中,調度任務(Scheduled Task) 扮演著重要角色,例如:定時同步第三方數據;定時清理過期緩存或日志;定時發送消息或報告。Spring Boot 提供了非常方便的 Scheduled 注解&#xf…

剖析ReAct:當大模型學會“邊想邊做”,智能體的進化之路

你是否曾驚嘆于大語言模型(LLM)強大的推理能力,卻又對其“紙上談兵”、無法真正與世界交互而感到遺憾?你是否好奇,如何讓AI不僅能“說”,更能“做”,并且在做的過程中不斷思考和調整&#xff1f…

小型無人機傳感器仿真模型MATLAB實現方案

一、系統架構設計 無人機傳感器仿真模型需集成多物理場建模與數據融合模塊,典型架構包含: 動力學模型:六自由度剛體運動方程傳感器模型:IMU/GNSS/視覺/氣壓計數學建模數據融合層:卡爾曼濾波/EKF算法實現環境交互模塊&a…

hadoop集群

ssh-keygen -t rsassh-copyid 用戶名遠程服務器地址start-dfs.sh chown [選項] 新所有者[:新所屬組] 目標文件/目錄常用選項:-R:遞歸修改目錄下所有文件和子目錄的所有者(處理目錄時常用)-v:顯示修改過程的詳細信息-c&…

大模型入門實踐指南

大模型入門教程:從概念到實踐 大模型(Large Language Model, LLM)是當前人工智能領域的核心技術,其本質是通過大規模數據訓練、具備復雜語言理解與生成能力的深度學習模型。本教程將從基礎概念出發,帶你理解大模型的核心邏輯,并通過可直接跑通的代碼示例,快速上手大模型…

貓頭虎開源AI分享:一款CSV to Chat AI工具,上傳CSV文件提問,它可以即時返回統計結果和可視化圖表

貓頭虎開源AI分享:一款CSV to Chat AI工具,上傳CSV文件提問,它可以即時返回統計結果和可視化圖表 摘要 本文將詳細介紹一款開源工具——CSV to Chat AI,它允許用戶上傳CSV文件并通過自然語言提問,系統會即時返回統計…

洛谷P9468 [EGOI 2023] Candy / 糖果題解

[EGOI 2023] Candy / 糖果 思路 NNN 這么小基本就是瞎打的 DP 了。 設 dpi,jdp_{i,j}dpi,j? 為操作 jjj 次后前 iii 項的和最大是多少。 考慮轉移,我們可以枚舉 iii 并考慮將其移動到 ppp 位置,總共操作 kkk 次,那么就有 dpp,kmin?(dpp,…

AI智能體(Agent)大模型入門【3】--基于Chailit客服端實現頁面AI對話

目錄 前言 安裝chailint 創建中文語言環境 創建chailint頁面客戶端 前言 本篇章將會基chailit框架實現頁面進行AI對話。 若沒有自己的本地模型對話,需要查看專欄內的文章,或者點擊鏈接進行學習部署 AI智能體(Agent)大模型入…

【高并發內存池——項目】定長內存池——開胃小菜

提示:高并發內存池完整項目代碼,在主頁專欄項目中 文章目錄 提示:高并發內存池完整項目代碼,在主頁專欄項目中 先設計一個定長的內存池 一、為什么需要定長內存池? 🏢 傳統內存分配的痛點 🏭 內…

6-獲取磁盤分區信息

觀察文件 獲取server端電腦里面存在哪些盤符 int MakeDriveInfo() { //1>A 2>B &#xff08;原本屬于軟盤的 &#xff09;3>C ... 26>Zstd::string result;for (int i 1; i < 26; i) { //讓其循環if (_chdrive(i) 0) //改變當前的驅動,_chdrive函數(c和c中)應…