【論文閱讀筆記】序列數據的數據增強方法綜述

【論文閱讀筆記】序列數據的數據增強方法綜述

摘要

?這篇論文探討了在深度學習模型中由于對精度的要求不斷提高導致模型框架結構變得更加復雜和深層的趨勢。隨著模型參數量的增加,訓練模型需要更多的數據,但人工標注數據的成本高昂,且由于客觀原因,獲取特定領域的數據可能變得困難。為了緩解數據不足的問題,作者提出了數據增強的概念,通過人為生成新的數據來增加數據量。

?論文指出,數據增強方法在計算機視覺領域取得了顯著的成果,并探討了這些方法是否可以應用在序列數據上。除了在時間域進行增強的方法(如翻轉、裁剪)外,論文還描述了在頻率域實現數據增強的方法。此外,除了基于經驗或知識設計的方法,還詳細論述了一系列基于生成對抗網絡(GAN)的通過機器學習模型自動生成數據的方法。

?論文對應用在自然語言文本、音頻信號和時間序列等多種序列數據上的數據增強方法進行了介紹,并涉及了它們在醫療診斷、情緒判斷等問題上的表現。盡管這些數據類型不同,論文總結了應用在它們上的數據增強方法背后的相似設計思路。最后,論文以這一思路為線索,梳理了應用在各類序列數據類型上的多種數據增強方法,并進行了一定的討論和展望

Introduction

  • 線下增強:訓練之前,將整個數據集進行整體操作,再把增強之后的數據集喂入模型中
  • 線上增強:更為常用的是線上增強(online augmentation),對即將送入到模型的每一批(batch)數據執行轉換,不必顯式地占用磁盤空間

基礎方法

  • 如變換取值維度的翻轉、縮放(scaling)或 變 換 時 間 維 度 的 窗 口 規 整

  • 窗口切片:滑動窗口在時序數據不斷采樣,切片需要隨機性

  • 添加噪聲:對于數值型序列數據,可以對每一個取值隨機地添加一定的噪聲來生成新的序列[4,8],且不影響序列的整體性質和標簽信息

在這里插入圖片描述

  • 通過對時間域數據進行傅里葉變換得到頻率域的振幅譜和相位譜
  • 在振幅譜上隨機選擇區間,用基于原始振幅的統計參數重新生成一段信號替換,如圖2[9](b)所示;在相位譜上隨機選擇區間并添加白噪聲

在這里插入圖片描述

頻率域變換

  • 首先對時序數據進行短時傅里葉變換,得到時序關系的譜特征,
  • 再在普特征上面使用兩種數據增強的方法,一種是對每一個屬性做局部平均,將局部平均序列接在原始序列的后面
  • 二是打亂順序,以增加數據的方差,這種方法會使得數據尺寸發生變化
  • 由于STFT變換得到的普特征仍然是具有時序關系,這種數據增強方法也被認為是時間-頻率域進行的
  • AAFT:賦值調整傅里葉變換可以實現只在頻率域進行數據增強

基于分解或混合的方法


STL方法的應用:使用STLSeasonal and Trend Decomposition using Loess)方法將時間序列分解為基礎項、趨勢項、季節項和殘差項。
基礎項、趨勢項和季節項被認為是確定性部分,包含了原始序列的絕大部分信息。
Kegel等人基于相似矩陣和最近鄰搜索等方法為不同成分分配權重,以組合新的時間序列。
隨機的殘差項通過重新建模生成,利用其分布特征和自相關特征。Bergmeir等人的簡單方法:對時間序列信號進行分解,得到趨勢項和季節項之外的剩余項。
對剩余項進行有放回的重復采樣(bootstrap),生成新的剩余項序列,然后與前兩者混合成新的時間序列。
在M3數據集上的實驗證明,這種方法在月頻數據上對預測精度的提升較為顯著,但在長度較短的序列數據上表現一般。
  • 第一種方法以數據集為單位產生新的序列,而第二種方法以序列為單位產生新的序列。

  • 第一種方法更能利用數據集整體的分布特征進行數據增強,避免可能發生在第二種方法中對不典型序列進行增強的情況。

異常標簽擴展

  • 對異常檢測任務的數據增強方法,稱為異常標簽擴展(label expansion)。該方法旨在解決類別不平衡的問題,尤其是為了增加數量較少的異常標簽。
    在這里插入圖片描述

基于深度學習的序列數據增強方法

  • 使用生成對抗網絡生成數據

  • GAN由生成器和判別器組成

  • 判別器判斷樣本是原始數據集的還是模型生成的,而生成器盡可能地最大化判別器判斷錯誤的概率,整個模型的優化是一個二元極大極小博弈

在這里插入圖片描述

總結

在這里插入圖片描述

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/210603.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/210603.shtml
英文地址,請注明出處:http://en.pswp.cn/news/210603.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

將RK3399的挖掘機開發板在Android10下設置系統默認為24小時制

將RK3399的挖掘機開發板在Android10下設置系統默認為24小時制 2023/12/9 22:07 應該也可以適用于RK3399的Android12系統 --- a/frameworks/base/packages/SettingsProvider/res/values/defaults.xml b/frameworks/base/packages/SettingsProvider/res/values/defaults.xml -2…

MagicAnimate

簡介 新加坡國立大學 Show 實驗室和字節聯合做了一項類似的研究。他們提出了一個基于擴散的框架 MagicAnimate,旨在增強時間一致性、忠實地保留參考圖像并提升動畫保真度。并且,MagicAnimate 項目是開源的,目前推理代碼和 gradio 在線 demo …

python程序大全(9)——鼠標亂動惡搞小病毒(有資源)

目錄 🏆一、前言 🏆二、程序第一版 🏆三、程序大魔改 🚩1、基礎改動 🚩2、打包 🚩3、F12保護機制 🚩4、添加開機自啟項 🚩5、自己也不懂的線程魔改 🏆四、最終代碼 &…

排列游戲 --- 動態規劃 --- 題解

目錄 排列游戲 題目描述 輸入描述: 輸出描述: 輸入 輸出 備注: 思路: 代碼: 排列游戲 K-排列游戲_牛客競賽動態規劃專題班習題課 (nowcoder.com) 時間限制:C/C 1秒,其他語言2秒 空間限制:C/C 262144K&#…

外包干了三年,我承認我確實廢了……

沒錯,我也干過外包,一干就是三年,三年后,我廢了…… 雖說廢的不是很徹底,但那三年我幾乎是出差了三年、玩了三年、荒廢了三年,那三年,我的技術能力幾乎是零成長的。 說起這段三年的外包經歷&a…

vue中滾輪縮放事件

在Vue中&#xff0c;可以使用原生JS的滾輪事件監聽來實現滾輪縮放&#xff1a; 首先在模板中給需要監聽滾輪事件的元素添加一個ref屬性&#xff0c;用于在Vue中獲取元素節點。 <template><div ref"scale"><!-- 需要縮放的內容 --></div> &…

Ubuntu中編譯出Windows的可執行程序(.exe)

1、前言 在嵌入式開發中&#xff0c;交叉編譯是很常見的情況&#xff0c;如果你把Windows電腦也看做一塊高性能的開發板&#xff0c;那在Ubuntu中編譯出Windows上運行的可執行程序也是很好理解的行為。 2、安裝mingw64環境 sudo apt-get install mingw-w64 3、測試編譯鏈是否安…

【力扣100】5.盛水最多的容器

添加鏈接描述 我的題解&#xff1a; class Solution:def maxArea(self, height: List[int]) -> int:# 兩層for循環&#xff0c;保存最大值temp0res0for i in range(len(height)-1):for j in range(i1,len(height)):tempmin(height[i],height[j])*(j-i)# print(temp)resmax…

Linux壓縮命令tar之排除不需要的文件或者目錄(--exclude)

tar 中–exclude的簡單用法 # 首先創建一個如下的目錄結構和測試文件 mydir/ ├── myfile ├── zidir1 │ ├── file1 │ └── file2 ├── zidira │ └── filea └── zidirA├── fileA└── fileB3 directories, 6 files# 上面在 mydir 目錄下有三個子…

C++知識點總結(8):尺取法

尺取法 一、復習枚舉算法1. 算法三要素2. 最小公倍數公式3. 時間復雜度 二、算法優化初級1. 概念2. 例題(1) 最長小寫子串Ⅰ 初步算法Ⅱ 認識尺取法Ⅲ 尺取法程序 (2) 最長遞增子串(3) 最小子串和Ⅰ 偽代碼Ⅱ 完整代碼 (4) 最短字符串包含Ⅰ 偽代碼 Ⅱ 代碼 一、復習枚舉算法 …

打破常規思維:Scrapy處理豆瓣視頻下載的方式

概述 Scrapy是一個強大的Python爬蟲框架&#xff0c;它可以幫助我們快速地開發和部署各種類型的爬蟲項目。Scrapy提供了許多方便的功能&#xff0c;例如請求調度、數據提取、數據存儲、中間件、管道、信號等&#xff0c;讓我們可以專注于業務邏輯&#xff0c;而不用擔心底層的…

MongoDB簡介與安裝

目錄 1. MongoDB簡介 2. 安裝MongoDB 3. 基本命令行操作 4. Java代碼實踐 MongoDB是一種NoSQL數據庫&#xff0c;以其靈活的文檔存儲模型和高度可擴展性而聞名。這篇文章將簡單介紹一下MongoDB的基本概念&#xff0c;包括其特點和優勢&#xff0c;并提供安裝MongoDB的步驟。…

MapReduce的執行過程(以及其中排序)

Map階段(MapTask)&#xff1a; 切片(Split)-----讀取數據(Read)-------交給Mapper處理(Map)------分區和排序(sort) Reduce階段(ReduceTask): 拷貝數據(copy)------排序(sort)-----合并(reduce)-----寫出(write) 1、Map task讀取&#xff1a; 框架調用InputFormat類的子類讀取…

Vue2與Vue3的語法對比

Vue2與Vue3的語法對比 Vue.js是一款流行的JavaScript框架&#xff0c;通過它可以更加輕松地構建Web用戶界面。隨著Vue.js的不斷發展&#xff0c;Vue2的語法已經在很多應用中得到了廣泛應用。而Vue3于2020年正式發布&#xff0c;帶來了許多新的特性和改進&#xff0c;同時也帶來…

rpc原理與應用

IPC和RPC&#xff1f; RPC 而RPC&#xff08;Remote Procedure Call&#xff09;&#xff0c;又叫做遠程過程調用。它本身并不是一個具體的協議&#xff0c;而是一種調用方式。 gRPC 是 Google 最近公布的開源軟件&#xff0c;基于最新的 HTTP2.0 協議&#xff0c;并支持常見…

【SQLite】SQLite3約束總結

前面學習了SQLite數據庫的常見使用方法&#xff0c;其中包含許多約束&#xff0c;常見的如NOT NULL、DEFAULT、UNIQUE、PRIMARY KEY&#xff08;主鍵&#xff09;、CHECK等 本篇文章主要介紹這些約束在SQLite中的使用 目錄 什么是約束NOT NULL 約束DEFAULT約束UNIQUE約束PRIMA…

【設計模式-3.2】結構型——適配器模式

說明&#xff1a;本文介紹設計模式中結構型設計模式中的&#xff0c;適配器模式&#xff1b; 插頭轉換器 適配器模式屬于結構型設計模式&#xff0c;設計思想體現在結構上的。以插頭轉換器為例&#xff0c;當你需要給手機充電&#xff0c;但是眼前只有一個三孔插座&#xff0…

Java基本類型的高級使用方法詳解

引言 Java中的基本數據類型&#xff08;primitive types&#xff09;是構建程序的基礎&#xff0c;包括整型、浮點型、字符型、布爾型等。除了直接使用這些基本類型外&#xff0c;Java還提供了一些高級的使用方法&#xff0c;使得我們能夠更靈活地處理基本類型數據。本文將深入…

二叉樹結點個數、葉子結點個數、樹的高度、第k層結點個數的計算(C語言)

目錄 前言 分治算法 模擬二叉樹代碼 結點個數計算 錯誤方法 不便利方法 基于分治思想的方法 葉子結點個數 樹的高度 第k層結點的個數 前言 在鏈式二叉樹的前序、中序、后續遍歷中我們模擬了一棵二叉樹&#xff0c;并實現了它的前、中、后序遍歷&#xff0c;現在我們來…

UE4 .ini文件使用

在需要給配置文件的類中加上config標簽&#xff0c;當然變量也要加 在項目的Config下&#xff0c;新建一個Default類的UCLASS中config等于的名字&#xff0c;這里結合上面截圖就是DefaultTest 在下面寫入 [/Script/項目名/類名] 然后寫變量以及對應的值即可