探索在生成擴散模型中基于RAG增強生成的實現與未來

概述

像 Stable Diffusion、Flux 這樣的生成擴散模型，以及 Hunyuan 等視頻模型，都依賴于在單一、資源密集型的訓練過程中通過固定數據集獲取的知識。任何在訓練之后引入的概念——被稱為知識截止——除非通過微調或外部適應技術（如低秩適應，LoRA）進行補充，否則不會出現在模型中。

因此，如果一個生成系統能夠輸出圖像或視頻，并且能夠根據需要從在線資源中獲取信息并將其納入生成過程，那就再好不過了。例如，一個對最新蘋果或特斯拉產品一無所知的擴散模型，仍然可以生成包含這些新產品的圖像。

在語言模型方面，我們大多數人都熟悉像 Perplexity、Notebook LM 和 ChatGPT-4o 這樣的系統，它們可以在檢索增強生成（RAG）模型中納入新的外部信息。

然而，在生成圖像方面，這種功能并不常見，ChatGPT 也會承認自己在這方面的局限性：

ChatGPT 4o 根據一般線條和它所解釋的描述，對一款全新手表的外觀做出了合理猜測；但它無法“吸收”并將新圖像整合到基于 DALL-E 的生成中。

將檢索到的外部數據納入生成圖像是具有挑戰性的，因為傳入的圖像必須首先被分解為標記和嵌入，然后映射到模型對主題的最近訓練知識領域。

盡管這一過程對于像 ControlNet 這樣的后訓練工具來說效果良好，但此類操作大多停留在表面，本質上是將檢索到的圖像通過渲染管道傳遞，而沒有將其深度整合到模型的內部表示中。

因此，模型缺乏像 NeRF 這樣的神經渲染系統的能力，后者能夠以真正的空間和結構理解構建場景。

一、成熟的邏輯

類似的限制也適用于大型語言模型（LLMs）中的 RAG 基查詢，例如 Perplexity。當這種類型的模型處理檢索到的外部數據時，其功能類似于一個成年人憑借一生的知識來推斷某個主題的概率。

然而，就像一個人無法將新信息追溯性地整合到塑造其基本世界觀的認知框架中——當他們的偏見和先入為主的觀念仍在形成時——LLM 也無法將其新知識無縫地整合到其預訓練結構中。

相反，它只能“影響”或并置新數據與其現有的內化知識，使用已學到的原則進行分析和推測，而不是在基礎層面上進行綜合。

在“并置”和“內化”生成之間的等效性不足，可能會在生成的圖像中比基于語言的生成中更為明顯：各種研究表明，“原生”（而非基于 RAG）生成的更深層次網絡連接和更高的創造力已被建立。

二、RAG 能力圖像生成的隱藏風險

即使在技術上可行地將檢索到的互聯網圖像無縫整合到新合成的圖像中，以 RAG 風格進行整合，安全相關的限制也會帶來額外的挑戰。

許多用于訓練生成模型的數據集已經被策劃，以盡量減少明確、種族主義或暴力內容等敏感類別的存在。然而，這一過程并不完美，殘留的關聯可能仍然存在。為了緩解這種情況，像 DALL·E 和 Adobe Firefly 這樣的系統依賴于二級過濾機制，對輸入提示和生成的輸出進行篩查，以禁止相關內容。

因此，一個簡單的 NSFW 過濾器——主要阻斷明顯露骨的內容——將不足以評估檢索到的基于 RAG 的數據的可接受性。此類內容仍可能以超出模型預定義的審核參數范圍的方式具有冒犯性或有害性，可能會引入 AI 缺乏適當評估情境意識的材料。

最近發現的 CCP 旗下的 DeepSeek 的一個漏洞，旨在壓制對禁止政治內容的討論，突顯了如何利用替代輸入路徑繞過模型的倫理保障；可以說，這也適用于從互聯網檢索到的任意新數據，當它被納入新的圖像生成時。

三、 RAG 用于圖像生成

盡管存在這些挑戰和棘手的政治方面的問題，但仍有一些項目試圖使用基于 RAG 的方法將新數據納入視覺生成中。

3.1 ReDi

2023 年的檢索式擴散（ReDi）項目是一個無學習框架，通過從預計算的知識庫中檢索類似的軌跡來加速擴散模型推理。

數據集中的值可以在 ReDi 中“借用”用于新的生成

在擴散模型的背景下，軌跡是模型從純噪聲生成圖像的逐步路徑。通常，這個過程會逐漸發生，每一步都會稍微完善圖像。

ReDi 通過跳過其中許多步驟來加速這一過程。它不是計算每一個步驟，而是從數據庫中檢索一個類似的過去軌跡，并跳到過程中的一個更晚的點。這減少了所需的計算量，使基于擴散的圖像生成速度更快，同時仍然保持高質量。

ReDi 并不修改擴散模型的權重，而是使用知識庫跳過中間步驟，從而減少采樣所需的函數估計數量。

當然，這并不等同于隨意將特定圖像納入生成請求中；但它確實與類似類型的生成有關。

ReDi 于 2022 年發布，那一年潛擴散模型吸引了公眾的想象力，ReDi 似乎是最早采用基于 RAG 方法的擴散基礎方法之一。

盡管應該提到的是，2021 年 Facebook Research 發布了實例條件 GAN，它試圖將 GAN 圖像條件化為新的圖像輸入，這種將圖像投影到潛在空間的做法在文獻中非常常見，無論是對于 GAN 還是擴散模型；挑戰在于使這樣一個過程成為訓練自由的，并在實時中發揮作用，就像專注于 LLM 的 RAG 方法一樣。

3.2 RDM

另一個早期嘗試 RAG 增強圖像生成的是檢索增強擴散模型（RDM），它引入了一種半參數化的生成圖像合成方法。與傳統擴散模型將所有學習到的視覺知識存儲在其神經網絡參數中不同，RDM 依賴于一個外部圖像數據庫：

RDM* 中說明性偽查詢檢索到的最近鄰。

在訓練過程中，模型從外部數據庫中檢索 __[最近鄰](https://www.un在訓練過程中，模型從外部數據庫中檢索 最近鄰（視覺上或語義上相似的圖像），以指導生成過程。這使得模型能夠根據真實世界的視覺實例來調整其輸出。

檢索過程由 CLIP 提供支持，旨在確保檢索到的圖像與查詢內容具有有意義的相似性，并提供新信息以改善生成效果。這種方法減少了對參數的依賴，使得模型能夠在不需要龐大訓練數據集的情況下實現具有競爭力的結果。

RDM 方法支持 事后修改：研究人員可以在推理時更換數據庫，從而實現對新風格、領域甚至完全不同任務（如風格化或類別條件合成）的零樣本適應。

RDM 的一個關鍵優勢在于，它能夠在不重新訓練模型的情況下提升圖像生成效果。通過簡單地更改檢索數據庫，模型可以泛化到從未明確訓練過的新概念。這對于存在 領域偏移 的應用場景特別有用，例如基于不斷演變的數據集生成醫學影像，或者將文本到圖像模型適應于創意應用。

然而，這種基于檢索的方法依賴于外部數據庫的質量和相關性，這使得數據策劃成為實現高質量生成的重要因素。此外，這種方法距離實現商業語言模型中典型的基于 RAG 的交互式圖像合成仍有較大差距。

3.3 ReMoDiffuse

ReMoDiffuse 是一種用于 3D 人體運動生成的檢索增強運動擴散模型。與依賴純學習表示的傳統運動生成模型不同，ReMoDiffuse 從大規模運動數據集中檢索相關的運動樣本，并將其整合到去噪過程中，其架構類似于 RDM（見上文）。

右側為 RAG 增強的 ReMoDiffuse 與先前方法的對比

這使得模型能夠生成更自然、更多樣化且在語義上忠實于用戶文本提示的運動序列。

ReMoDiffuse 采用了一種創新的 混合檢索機制，基于語義和運動學相似性選擇運動序列，以確保檢索到的運動不僅在主題上相關，而且在物理上合理地整合到新生成中。

然后，模型使用 語義調制的 Transformer 對檢索到的樣本進行細化，有選擇地整合檢索到的運動知識，同時保持生成序列的特征品質。

ReMoDiffuse 的流程架構

該模型的 條件混合 技術增強了模型在不同提示和檢索條件下的泛化能力，通過在生成過程中平衡檢索到的運動樣本與文本提示的權重，解決了擴散模型中常見的分類器自由引導技術的尺度敏感性問題。

這有助于防止不真實或重復的輸出，即使對于罕見的提示也是如此。它還解決了擴散模型中常見的尺度敏感性問題，這種問題通常出現在分類器自由引導技術中。

3.4 RA-CM3

斯坦福大學 2023 年的論文 Retrieval-Augmented Multimodal Language Modeling（RA-CM3）允許系統在推理時訪問現實世界的信息。

斯坦福大學的檢索增強多模態語言模型（RA-CM3）使用從互聯網檢索到的圖像增強生成過程，但目前仍處于原型階段，尚未公開發布

RA-CM3 將檢索到的文本和圖像整合到生成流程中，增強文本到圖像和圖像到文本的合成效果。該模型使用 CLIP 進行檢索，并以 Transformer 作為生成器，在生成輸出之前引用相關的多模態文檔。

在 MS-COCO 上的基準測試顯示，與 DALL-E 和類似系統相比，RA-CM3 實現了 12 點的 Fréchet Inception Distance（FID）降低，且計算成本更低。

然而，與其他基于檢索增強的方法一樣，RA-CM3 并沒有無縫內化其檢索到的知識。相反，它將新數據疊加在其預訓練的網絡上，類似于 LLM 通過搜索結果增強回答。雖然這種方法可以提高事實準確性，但它并不能替代在需要深度合成的領域中更新訓練的需求。

此外，目前尚未發布該系統的實際實現版本，甚至沒有通過 API 平臺提供。

3.5 RealRAG

來自中國的最新發布 Retrieval-Augmented Realistic Image Generation（RealRAG）引發了我們對 RAG 增強生成圖像系統的關注。

RealRAG 中引入的外部圖像（位于下方中間）
RealRAG 從公開可用的數據集（如 ImageNet、Stanford Cars、Stanford Dogs 和 Oxford Flowers）中檢索相關對象的實際圖像，并將其整合到生成過程中，以填補模型的知識空白。

RealRAG 的一個關鍵組件是 自反式對比學習，它訓練檢索模型找到信息豐富的參考圖像，而不僅僅是選擇 視覺上相似 的圖像。

作者指出：

“我們的關鍵見解是訓練一個檢索器，使其檢索到的圖像遠離生成器的生成空間，但接近文本提示的表示。”

“為此，我們首先根據給定的文本提示生成圖像，然后利用這些生成的圖像作為查詢，從基于真實對象的數據庫中檢索最相關的圖像。這些最相關的圖像被用作反思性負樣本。”

這種方法確保檢索到的圖像為生成過程貢獻了 缺失的知識，而不是強化模型中已有的偏見。

從左到右：檢索到的參考圖像；沒有使用 RAG 的結果；使用檢索圖像的結果

然而，對檢索質量和數據庫覆蓋范圍的依賴意味著其有效性可能會因高質量參考圖像的可用性而有所不同。如果相關圖像不存在于數據集中，模型可能仍然難以處理不熟悉的概念。

RealRAG 采用了一種非常模塊化的架構，兼容多種其他生成架構，包括基于 U-Net、DiT 和自回歸的模型。

總體而言，檢索和處理外部圖像會增加計算開銷，系統的性能取決于檢索機制在不同任務和數據集上的泛化能力。

四、總結

這是一篇關于圖像檢索多模態生成系統的代表性而非窮盡性概述。一些此類系統僅使用檢索來改善視覺理解或數據集策劃，而不是尋求生成圖像，例如 Internet Explorer。

文獻中還有許多其他基于 RAG 的項目尚未發布。只有發表研究論文的原型，例如 Re-Imagen，盡管它來自谷歌，但只能訪問本地自定義數據庫中的圖像。

此外，2024 年 11 月，百度宣布了 基于圖像檢索的增強生成（iRAG），這是一個使用“數據庫”檢索圖像的新平臺。盡管據報道 iRAG 可在 Ernie 平臺上使用，但關于檢索過程的細節似乎很少，它似乎依賴于一個 本地數據庫（即服務本地的，用戶無法直接訪問）。

此外，2024 年的論文 Unified Text-to-Image Generation and Retrieval 提供了另一種基于 RAG 的方法，使用外部圖像在生成時增強結果——同樣，這些圖像來自 本地數據庫，而不是來自 即時互聯網來源。

圍繞 RAG 增強圖像生成的興奮可能會集中在能夠直接將互聯網來源或用戶上傳的圖像整合到生成過程中的系統上，并允許用戶參與圖像的選擇或來源。

然而，這是一個重大挑戰，原因至少有兩個：首先，此類系統的有效性通常取決于在資源密集型訓練過程中形成的深度整合關系；其次，如前所述的安全性、合法性以及版權限制等問題，使得這一功能不太可能成為 API 驅動的網絡服務的特性，也不太可能在商業部署中實現。

原文地址：https://www.unite.ai/the-future-of-rag-augmented-image-generation/