使用多模態大語言模型進行深度學習的圖像、文本和語音數據增強

在過去的五年里，研究方向已從傳統的機器學習（ML）和深度學習（DL）方法轉向利用大語言模型（LLMs），包括多模態方法，用于數據增強，以提高泛化能力，并在訓練深度卷積神經網絡時防止過擬合。然而，現有的綜述文章主要集中于機器學習和深度學習技術或有限的模態（如文本或圖像），在涵蓋LLM方法的最新進展和多模態應用方面仍存在空白。本文通過探索利用多模態LLMs進行圖像、文本和語音數據增強的最新文獻，填補了這一空白，提供了對這些過程的全面理解。我們概述了在基于LLM的圖像、文本和語音增強中使用的各種方法，并討論了當前方法中存在的局限性。此外，我們還從文獻中識別了潛在的解決方案，以增強使用多模態LLMs進行數據增強的效果。本文為未來的研究奠定了基礎，旨在改進和擴展多模態LLMs在提高深度學習應用數據集質量和多樣性方面的使用。論文GitHub鏈接：https://github.com/WSUAgRobotics/data-aug-multi-modal-llm。

附加關鍵詞：數據增強、大語言模型（LLMs）、生成式人工智能、圖像增強、文本增強、語音增強、深度學習

1. 引言

數據增強是機器學習（ML）中的一項基礎技術，通過生成現有數據樣本的修改版本來增加訓練數據集的大小和多樣性[1, 2]。這一實踐使用各種轉換函數（TFs），如旋轉圖像或改變文字等方法，調整原始數據以產生新的變體，如圖1所示。數據操作專家曾手動應用這些TFs生成新的示例，幫助更有效地訓練深度學習模型。具體來說，圖像旋轉、Gaussian模糊、放大/縮小（圖1）等TFs能夠將一張來自果園的蘋果圖像轉換成多個不同的方向，從而有效地增加針對圖像處理模型的訓練數據集大小。類似的文本和語音數據的TFs，如隨機插入和特定的音頻修改，分別擴大了自然語言處理（NLP）和音頻分析應用的數據集[3, 4]。這些增強策略不僅增加了用于訓練的數據量，還引入了模型可能在現實場景中遇到的各種變異，從而增強了模型的魯棒性和泛化能力。圖1a通過可視化展示了數據增強的基礎實踐，以旋轉的蘋果圖像為例。

傳統上，數據增強是手動執行的，但隨著長短期記憶（LSTM）網絡的出現，它變得更加自動化和廣泛應用[5, 6]。LSTM使得在各種應用中自動生成合成數據成為可能，包括時間序列預測、自然語言處理（NLP）和人體活動識別[7]。這一轉變減少了對手動數據創建的依賴，如圖1b所示，圖中展示了基于LSTM的數據增強的過渡過程。

基于LSTM的增強方法成為數據驅動領域的基石，直到大語言模型（LLMs）和生成式人工智能的出現。隨著ChatGPT等創新的流行，LLMs開始重新定義數據增強，尤其是通過集成和自動化跨模態合成。如圖1c所示，這個新時代利用多模態LLMs的上下文智能來執行數據增強。這些方法不僅超越了傳統和基于LSTM的方法，還通過提供跨多種數據類型的更復雜、上下文相關的合成數據生成，進一步提升了數據增強的能力。

數據增強對于提高深度學習（DL）模型在計算機視覺、NLP和語音識別等各個領域的魯棒性和性能至關重要。在計算機視覺中，諸如隨機裁剪和翻轉等技術通常用于通過促進不同方向和表達方式的泛化來防止過擬合[8]。類似地，在NLP中，同義詞替換和釋義重述幫助模型在多樣的詞匯和語言結構中實現泛化，這對于情感分析和聊天機器人等應用至關重要[2, 9]。在語音識別領域，噪聲注入等策略使模型能夠在噪聲環境中可靠運行，通過模擬各種聲學場景[10, 11]。

數據增強使模型能夠在多種條件下進行訓練，例如自動駕駛中的光照或醫學影像中的情境，減少了對昂貴數據收集的依賴[12–15]。它還解決了類別不平衡問題，并增強了數據集的多樣性，這對于需要在現實環境中實現高準確度的任務，如機器翻譯和聲音識別至關重要[16, 17]。數據增強通過合成增加訓練數據，降低成本，加快開發，并最大化數據資源的投資回報率[2, 18]。

在現有數據增強方法的基礎上，多模態LLMs的出現為該領域帶來了許多變化。這些模型不僅超越了機器翻譯和情感分析等傳統應用，還引入了用于分類的偽數據生成和回歸分析的數據集增強[19, 20]。這一轉變引入了更動態和功能性的增強技術，這些技術不僅豐富了可用的方法，還加深了我們對模型訓練和性能的理解[21]。

本綜述的必要性
盡管已有眾多關于AI研究中數據增強的綜述文章探討了各種技術，但大多數集中于傳統的機器學習和深度學習方法[4–6, 8, 15, 18, 22–30]，包括基于GAN的方法[14, 31–33]。然而，這些研究通常聚焦于單一模態，如NLP或圖像處理。本文旨在填補這一空白，探討涵蓋圖像、文本和語音三種模態的ML和DL技術，并關注LLMs和生成式AI方法的最新進展。本文批判性地評估了過去五年中出現的多種數據增強方法。特別是，隨著LLMs自2020年以來的快速發展，數據增強方法發生了重大變化。我們重點關注多模態LLMs在數據增強中的應用，特別是在生成連貫且具有上下文相關性的合成數據方面。

主要貢獻
本文的主要貢獻總結如下：

多模態和基于LLM的數據增強方法的覆蓋：據我們所知，這是首篇全面涵蓋機器學習研究中的三種關鍵模態：圖像、文本和語音的綜述。并且，本文深入探討了在這些模態中，使用LLMs進行數據增強的技術方法。我們還討論了當前基于LLM的數據增強技術在所有三種數據模態中的局限性和挑戰。
倫理AI研究的實施：本文遵循倫理AI研究原則，確保研究過程中的透明度、公平性、問責制和誠信。我們通過精心收集文獻、尊重版權法律，并設計了完全可復現的研究，保持這些標準。
分析、挑戰與解決方案：我們分別呈現了每個模態的文獻研究結果，突出了局限性和挑戰，并提出了可能的解決方案，旨在推動該領域的發展。

本文結構如下：第二部分概述了方法論；第三部分簡要介紹了背景，將數據增強技術分為傳統方法（1990–2010）和ML/DL方法（2010–2020）；第四部分，結果與討論，展示了圖像、文本和語音模態的發現，分析了基于LLM的增強技術、其局限性以及潛在的解決方案；最后，第六部分，結論，總結了見解，討論了未來的研究方向，并突出了LLM應用在數據增強中的演變。

2. 數據增強的背景與演進

2.1 傳統數據增強方法（1990-2010）

在1990年代至2010年期間，數據增強主要依賴于手動設計的變換函數。這些方法雖然簡單且計算量小，但在增強數據集規模和多樣性的同時，也帶來了一些局限性。例如，圖像旋轉和翻轉可能會導致重要信息的丟失，縮放操作可能導致像素化和分辨率下降，顏色抖動可能使圖像顯得不自然。

2.1.1 圖像數據增強

傳統的圖像數據增強方法主要包括幾何變換（如旋轉、翻轉、縮放）和顏色變換（如顏色抖動、直方圖均衡化）。這些方法雖然能夠有效增加數據集的多樣性，但在處理復雜場景時往往表現不佳，尤其是在需要保留圖像細節和語義信息的任務中。

2.1.2 文本數據增強

文本數據增強的早期方法包括同義詞替換、隨機刪除、隨機插入和回譯等。這些方法雖然能夠增加文本的多樣性，但在處理復雜的語義和上下文時往往表現不佳，容易引入不恰當的詞匯或破壞文本的語法結構。

2.1.3 語音數據增強

語音數據增強的早期方法主要包括噪聲注入、音高變換和時間拉伸等。這些方法雖然能夠模擬不同的聲學環境，但在處理復雜的語音信號時往往表現不佳，容易引入失真或過度擬合特定的噪聲類型。

2.2 機器學習和深度學習驅動的數據增強（2010-2020）

隨著機器學習和深度學習技術的快速發展，數據增強方法也變得更加自動化和智能化。特別是生成對抗網絡（GANs）和變分自編碼器（VAEs）等生成模型的引入，使得數據增強能夠生成更加逼真和多樣化的數據。

2.2.1 圖像數據增強

在2010年至2020年期間，基于深度學習的圖像數據增強方法得到了廣泛應用。例如，MixUp技術通過混合圖像和標簽來防止過擬合，風格遷移和GANs能夠生成風格各異的合成圖像，從而豐富訓練數據集。這些方法在醫學影像、自動駕駛和農業等領域取得了顯著成果。

2.2.2 文本數據增強

基于深度學習的文本數據增強方法包括n-gram重排、詞嵌入替換和神經風格遷移等。這些方法能夠生成更加多樣化和語義一致的文本數據，從而提升自然語言處理模型的性能。

2.2.3 語音數據增強

深度學習技術的引入使得語音數據增強方法變得更加復雜和多樣化。例如，噪聲注入和時間拉伸等方法能夠模擬不同的聲學環境，從而提升語音識別系統的魯棒性。

2.3 多模態大語言模型驅動的數據增強（2020年至今）

隨著多模態大語言模型（如GPT-4、DALL-E等）的出現，數據增強技術迎來了新的變革。這些模型不僅能夠處理單一模態的數據，還能夠跨模態生成更加復雜和多樣化的數據。例如，DALL-E能夠根據文本描述生成逼真的圖像，GPT-4能夠生成高質量的文本數據。

3. 基于多模態大語言模型的圖像數據增強

3.1 技術流程

基于多模態大語言模型的圖像數據增強通常包括以下幾個步驟：

圖像編碼：將原始圖像轉換為可計算的格式，通常使用視覺編碼器將圖像信息提取為特征向量。

提示生成：大語言模型根據編碼后的圖像生成文本描述，這些描述將作為后續增強步驟的指導。

增強指令生成：根據文本描述生成詳細的變換指令，如圖像旋轉、縮放、裁剪等。

自然語言到代碼轉換：將生成的指令轉換為可執行的代碼。

代碼執行：將生成的代碼應用于原始圖像，實現所需的增強操作。

質量評估：評估增強后的圖像質量，確保其符合高質量標準。

元數據生成：記錄增強操作的詳細信息，便于后續分析和復現。

數據集集成：將增強后的圖像和元數據集成到訓練數據集中，提升模型的魯棒性和泛化能力。

3.2 方法與技術

基于多模態大語言模型的圖像數據增強方法多種多樣，主要包括以下幾種：

圖像到文本合成：通過大語言模型生成圖像的文本描述，從而增強圖像的語義信息。例如，DF-GAN模型通過簡化生成過程，提高了文本與圖像語義的一致性。

語義內容遷移：將語義相關的對象插入到現有圖像中，從而增強模型的泛化能力。例如，SemAug方法通過動態插入語義相關的對象，顯著提升了對象檢測模型的性能。

圖像描述生成：通過大語言模型生成詳細的圖像描述，從而增強圖像與文本的對齊。例如，FuseCap方法通過結合機器視覺和大語言模型的輸出，生成了更加豐富的圖像描述。

條件圖像生成：根據復雜的文本和圖像輸入生成圖像。例如，UNIMO-G模型通過多模態條件擴散框架，生成了更加詳細的圖像。

上下文對象插入：在圖像中插入上下文相關的對象，從而增強模型的檢測能力。例如，SemAug方法通過計算和插入新的對象，顯著提升了模型的mAP（平均精度）。

交互式編輯：結合用戶輸入和大語言模型，對圖像進行交互式編輯。例如，Visual Editing GPT 3.5模型通過蒸餾方法，顯著提升了實時視覺編輯任務的性能。

場景補全：通過大語言模型和擴散模型生成高質量的訓練圖像，從而增強語義分割模型的性能。例如，Image Augmentation Agent（IAA）模型通過生成多樣化的訓練圖像，顯著提升了語義分割的準確性。

自動裁剪：通過大語言模型智能裁剪圖像，突出圖像的關鍵部分。例如，DIAGen模型通過高斯噪聲和類別特定的文本提示，優化了圖像的焦點。

屬性生成：通過修改圖像的特定屬性或插入新屬性，從而增加數據集的多樣性。例如，DIAGen模型通過類別特定的需求增強屬性，提升了分類性能。

圖像增強：通過大語言模型提升圖像的質量和細節，從而增強模型的性能。例如，Med-MLLM模型通過多模態大語言模型增強了放射影像的表示，提升了疾病診斷的準確性。

對抗樣本生成：通過生成對抗樣本，測試和提升模型的魯棒性。例如，T2Vid模型通過生成合成的視頻樣本來增強視頻理解能力。

多模態數據融合：通過融合文本、音頻和圖像等多模態信息，生成更加豐富和多樣化的訓練數據集。例如，MISTRA系統通過融合圖像和文本數據，提升了仇恨言論檢測的準確性。

語義分割增強：通過大語言模型提升語義分割的準確性。例如，Image Augmentation Agent（IAA）模型通過生成多樣化的訓練圖像，顯著提升了語義分割的準確性。

合成缺陷引入：通過大語言模型生成帶有缺陷的圖像，從而訓練模型進行質量控制和缺陷檢測。例如，DIAGen模型通過高斯噪聲和類別特定的文本提示，模擬了圖像中的缺陷。

時間上下文建模：通過大語言模型理解和建模圖像序列中的時間動態，從而增強視頻分析和活動識別任務的性能。例如，T2Vid模型通過生成合成的視頻樣本來增強視頻理解能力。

3.3 局限性與潛在解決方案

盡管基于多模態大語言模型的圖像數據增強技術取得了顯著進展，但仍面臨一些挑戰和局限性：

模糊性和不現實的輸出：由于大語言模型依賴于文本提示生成圖像，如果提示不夠具體，生成的圖像可能會缺乏細節或與上下文不符。解決方案包括增強文本提示的細節和上下文描述，以及引入多模態訓練方法。

上下文和語義錯位：大語言模型在處理復雜的視覺上下文時可能會出現錯位，導致生成的圖像與場景不符。解決方案包括增強大語言模型的上下文感知能力，以及引入注意力機制和對比學習技術。

用戶依賴性：大語言模型的輸出質量高度依賴于輸入提示的質量。解決方案包括引入自適應學習算法和反饋機制，以及增強自然語言理解能力。

過度專業化和動作復雜性：大語言模型在處理大規模數據集或復雜多模態輸入時，計算量較大，難以實時處理。解決方案包括優化模型架構和算法，以及引入邊緣計算技術。

模型完整性和對齊問題：大語言模型與現有技術框架的集成可能存在對齊問題。解決方案包括引入模塊化集成策略和持續訓練方法，以及實施嚴格的驗證和測試協議。

過擬合和預測挑戰：大語言模型在處理缺乏多樣性的數據集時，可能會過度擬合特定模式。解決方案包括增強訓練數據集的多樣性，以及引入正則化技術和集成方法。

4. 基于多模態大語言模型的文本數據增強

4.1 技術流程

基于多模態大語言模型的文本數據增強通常包括以下幾個步驟：

文本編碼：將原始文本數據轉換為機器可讀的格式，通常使用分詞和嵌入技術。

提示生成：大語言模型根據編碼后的文本生成提示，指導后續的增強操作。

增強指令生成：根據提示生成具體的增強指令，如同義詞替換、句子重述等。

自然語言到任務特定轉換：將增強指令轉換為任務特定的文本變換。

文本變換執行：根據生成的指令對文本進行變換，生成新的文本版本。

質量評估：評估增強后的文本質量，確保其符合語法、連貫性和任務相關性等標準。

數據集集成：將增強后的文本和元數據集成到訓練數據集中，提升自然語言處理模型的性能。

4.2 方法與技術

基于多模態大語言模型的文本數據增強方法多種多樣，主要包括以下幾種：

同義詞替換：通過替換文本中的同義詞，增加文本的詞匯多樣性。例如，BERT-based TTEC模型通過同義詞替換和對比學習，提升了假新聞檢測的準確性。

回譯：將文本翻譯成另一種語言后再翻譯回原語言，從而增加文本的句法多樣性。例如，SwissADT系統通過回譯技術，提升了多語言音頻描述的翻譯質量。

文本擴展：通過擴展現有文本，生成更加詳細和豐富的文本數據。例如，LLM Mix-Up AAC模型通過混合文本描述，提升了音頻字幕生成的性能。

角色扮演：通過模擬不同的角色或視角，生成多樣化的文本響應。例如，LLM-Based Civic Issues Detection模型通過角色扮演，提升了社交媒體分析的準確性。

文本簡化：通過簡化文本的復雜性，生成更加易于理解的文本數據。例如，LLM-Based Equity Enhancement模型通過文本簡化，提升了審稿人分配的準確性。

文本蘊含生成：通過生成文本蘊含對，提升自然語言理解任務的性能。例如，CEAN模型通過多模式重述，提升了事件抽取的準確性。

噪聲注入：通過引入噪聲（如拼寫錯誤、語法錯誤等），提升模型的魯棒性。例如，LAMBADA模型通過噪聲注入，提升了情感分析的魯棒性。

上下文變化：通過改變文本的上下文或擴展其敘述，生成多樣化的文本數據。例如，LLM-Assisted DLP模型通過上下文變化，提升了中文對話解析的準確性。

控制生成：根據特定的指導或約束生成文本，確保生成的文本符合特定的風格或主題。例如，LLM-PTM模型通過控制生成，提升了患者-試驗匹配的準確性。

4.3 局限性與潛在解決方案

盡管基于多模態大語言模型的文本數據增強技術取得了顯著進展，但仍面臨一些挑戰和局限性：

上下文丟失：大語言模型在生成新樣本時，可能會丟失原始文本的上下文信息。解決方案包括引入領域特定的微調策略和混合上下文訓練方法。

語義漂移風險：大語言模型在生成文本時，可能會引入不恰當的詞匯或語義錯誤。解決方案包括引入自然語言推理模型和擴展訓練數據集的多樣性。

冗余和真實性問題：大語言模型生成的文本可能會包含冗余信息或缺乏真實性。解決方案包括引入模型壓縮技術和高級過濾機制。

過度簡化風險：大語言模型生成的文本可能會過度簡化，導致重要信息的丟失。解決方案包括引入多樣化的訓練數據和復雜的生成策略。

精度損失和邏輯不一致：大語言模型在生成文本時，可能會出現邏輯不一致或精度損失。解決方案包括引入精確的增強指令和高質量的示例數據。

過度噪聲：大語言模型在生成文本時，可能會引入過多的噪聲。解決方案包括引入噪聲控制機制和課程學習方法。

多樣性有限：大語言模型生成的文本可能缺乏足夠的多樣性。解決方案包括引入多樣化的訓練數據和混合生成方法。

5. 基于多模態大語言模型的語音數據增強

5.1 技術流程

基于多模態大語言模型的語音數據增強通常包括以下幾個步驟：

音頻預處理：對原始音頻數據進行采樣、歸一化和分段處理，確保數據質量。

特征提取：將標準化后的音頻轉換為特征向量，通常使用MFCC（梅爾頻率倒譜系數）和頻譜圖等技術。

傳統音頻增強：應用噪聲注入、時間拉伸、音高變換等傳統音頻增強技術，增加音頻數據的多樣性。

多模態上下文嵌入與合成語音生成：通過多模態大語言模型生成音頻的文本描述，并利用變分自編碼器或生成對抗網絡生成合成語音。

精煉與過濾：對生成的合成語音進行精煉和過濾，確保其符合高質量標準。

數據集集成：將增強后的音頻數據集成到訓練數據集中，提升語音識別系統的魯棒性和準確性。

5.2 方法與技術

基于多模態大語言模型的語音數據增強方法多種多樣，主要包括以下幾種：

背景噪聲添加：通過添加不同類型的背景噪聲，提升語音識別系統在嘈雜環境中的性能。例如，AudiosetMix模型通過添加復雜的背景噪聲，顯著提升了語音識別的環境適應性。

幅度縮放：通過調整語音的音量，模擬不同的說話和聽音條件。例如，ER-PTM-LLM-TTS模型通過幅度縮放，提升了情感識別的準確性。

時間拉伸：通過改變語音的播放速度，模擬不同的語速。例如，Speech De-Id NER模型通過時間拉伸，提升了語音去識別的準確性。

音高變換：通過調整語音的音高，模擬不同的說話者。例如，LLM-Assisted模型通過音高變換，提升了語音識別的多樣性。

文本錯誤校正：通過大語言模型識別和校正語音到文本過程中的錯誤。例如，Speech De-Id NER模型通過文本錯誤校正，提升了語音去識別的準確性。

查詢變換器（Q-former）：通過引入查詢機制，提升語音識別系統對復雜查詢的理解能力。例如，AR-GPT-4模型通過查詢變換器，提升了緊急響應任務的效率。

音頻混合生成：通過混合多個音頻源，生成復合音頻數據。例如，AudiosetMix模型通過音頻混合生成，提升了語音識別的魯棒性。

低秩適應（LoRA）：通過修改少量模型參數，高效地微調大語言模型。例如，ER-PTM-LLM-TTS模型通過低秩適應，提升了情感識別的準確性。

音頻-文本對生成：通過生成匹配的音頻和文本對，提升多模態大語言模型的訓練效果。例如，AudiosetMix模型通過音頻-文本對生成，提升了音頻字幕生成的準確性。

一致集成蒸餾（CED）：通過集成多個模型的輸出，提升語音識別的準確性。例如，ER-PTM-LLM-TTS模型通過一致集成蒸餾，提升了情感識別的魯棒性。

5.3 局限性與潛在解決方案

盡管基于多模態大語言模型的語音數據增強技術取得了顯著進展，但仍面臨一些挑戰和局限性：

時間失真：大語言模型在處理語音信號的時間動態時可能會出現失真。解決方案包括引入時間注意力機制和混合模型。

音色損失：大語言模型在處理語音信號時可能會丟失音色信息。解決方案包括引入聯合建模方法和條件流匹配解碼器。

特征混淆：大語言模型在處理語音信號時可能會混淆重要特征。解決方案包括引入差分隱私技術和對抗訓練方法。

信號退化：大語言模型在處理語音信號時可能會導致信號質量下降。解決方案包括引入高級音頻處理技術和動態范圍壓縮。

合成不真實：大語言模型生成的語音數據可能缺乏真實性。解決方案包括引入條件生成對抗網絡和多模態訓練數據。

對齊問題：大語言模型在處理語音信號時可能會出現對齊問題。解決方案包括引入音頻特定的適應技術和多模態訓練數據。

高計算量：大語言模型在處理大規模語音數據時，計算量較大。解決方案包括引入模型剪枝和量化技術，以及邊緣計算技術。

細節丟失：大語言模型在處理語音信號時可能會丟失細節信息。解決方案包括引入高分辨率信號處理技術和多模態學習方法。

上下文限制：大語言模型在處理語音信號時可能無法準確理解上下文信息。解決方案包括引入上下文感知訓練方法和情感神經網絡。

6. 結論與未來展望

基于多模態大語言模型的圖像、文本和語音數據增強技術在近年來取得了顯著進展，顯著提升了深度學習模型的性能和魯棒性。然而，這些技術仍面臨一些挑戰和局限性，如模糊性、上下文錯位、用戶依賴性、高計算量等。未來的研究方向包括優化模型架構、引入多模態訓練數據、增強上下文感知能力、以及開發更加高效的算法和硬件加速技術。

隨著多模態大語言模型的不斷發展，數據增強技術將在更多領域得到廣泛應用，如醫療、自動駕駛、機器人等。未來的研究應重點關注如何進一步提升數據增強的質量和多樣性，以及如何在實際應用中有效集成這些技術，從而推動人工智能技術的進一步發展。