探索在生成擴散模型中基于RAG增強生成的實現與未來

概述

像 Stable Diffusion、Flux 這樣的生成擴散模型,以及 Hunyuan 等視頻模型,都依賴于在單一、資源密集型的訓練過程中通過固定數據集獲取的知識。任何在訓練之后引入的概念——被稱為 知識截止——除非通過 微調 或外部適應技術(如 低秩適應,LoRA)進行補充,否則不會出現在模型中。

因此,如果一個生成系統能夠輸出圖像或視頻,并且能夠根據需要從在線資源中獲取信息并將其納入生成過程,那就再好不過了。例如,一個對最新蘋果或特斯拉產品一無所知的擴散模型,仍然可以生成包含這些新產品的圖像。

在語言模型方面,我們大多數人都熟悉像 Perplexity、Notebook LM 和 ChatGPT-4o 這樣的系統,它們可以在 檢索增強生成(RAG)模型中納入新的外部信息。

然而,在生成圖像方面,這種功能并不常見,ChatGPT 也會承認自己在這方面的局限性:

ChatGPT 4o 根據一般線條和它所解釋的描述,對一款全新手表的外觀做出了合理猜測;但它無法“吸收”并將新圖像整合到基于 DALL-E 的生成中。

將檢索到的外部數據納入生成圖像是具有挑戰性的,因為傳入的圖像必須首先被分解為標記和嵌入,然后映射到模型對主題的最近訓練知識領域。

盡管這一過程對于像 ControlNet 這樣的后訓練工具來說效果良好,但此類操作大多停留在表面,本質上是將檢索到的圖像通過渲染管道傳遞,而沒有將其深度整合到模型的內部表示中。

因此,模型缺乏像 NeRF 這樣的神經渲染系統的能力,后者能夠以真正的空間和結構理解構建場景。

一、 成熟的邏輯

類似的限制也適用于大型語言模型(LLMs)中的 RAG 基查詢,例如 Perplexity。當這種類型的模型處理檢索到的外部數據時,其功能類似于一個成年人憑借一生的知識來推斷某個主題的概率。

然而,就像一個人無法將新信息追溯性地整合到塑造其基本世界觀的認知框架中——當他們的偏見和先入為主的觀念仍在形成時——LLM 也無法將其新知識無縫地整合到其預訓練結構中。

相反,它只能“影響”或并置新數據與其現有的內化知識,使用已學到的原則進行分析和推測,而不是在基礎層面上進行綜合。

在“并置”和“內化”生成之間的等效性不足,可能會在生成的圖像中比基于語言的生成中更為明顯:各種研究表明,“原生”(而非基于 RAG)生成的更深層次網絡連接和更高的創造力已被 建立。

二、RAG 能力圖像生成的隱藏風險

即使在技術上可行地將檢索到的互聯網圖像無縫整合到新合成的圖像中,以 RAG 風格進行整合,安全相關的限制也會帶來額外的挑戰。

許多用于訓練生成模型的數據集已經被策劃,以盡量減少明確、種族主義或暴力內容等敏感類別的存在。然而,這一過程并不完美,殘留的關聯可能仍然存在。為了緩解這種情況,像 DALL·E 和 Adobe Firefly 這樣的系統依賴于二級過濾機制,對輸入提示和生成的輸出進行篩查,以禁止相關內容。

因此,一個簡單的 NSFW 過濾器——主要阻斷明顯露骨的內容——將不足以評估檢索到的基于 RAG 的數據的可接受性。此類內容仍可能以超出模型預定義的審核參數范圍的方式具有冒犯性或有害性,可能會引入 AI 缺乏適當評估情境意識的材料。

最近發現的 CCP 旗下的 DeepSeek 的一個漏洞,旨在壓制對禁止政治內容的討論,突顯了如何利用替代輸入路徑繞過模型的倫理保障;可以說,這也適用于從互聯網檢索到的任意新數據,當它被納入新的圖像生成時。

三、 RAG 用于圖像生成

盡管存在這些挑戰和棘手的政治方面的問題,但仍有一些項目試圖使用基于 RAG 的方法將新數據納入視覺生成中。

3.1 ReDi

2023 年的 檢索式擴散(ReDi)項目是一個無學習框架,通過從預計算的知識庫中檢索類似的 軌跡 來加速擴散模型推理。

數據集中的值可以在 ReDi 中“借用”用于新的生成

在擴散模型的背景下,軌跡是模型從 純噪聲 生成圖像的逐步路徑。通常,這個過程會逐漸發生,每一步都會稍微完善圖像。

ReDi 通過跳過其中許多步驟來加速這一過程。它不是計算每一個步驟,而是從數據庫中檢索一個類似的過去軌跡,并跳到過程中的一個更晚的點。這減少了所需的計算量,使基于擴散的圖像生成速度更快,同時仍然保持高質量。

ReDi 并不修改擴散模型的 權重,而是使用知識庫跳過中間步驟,從而減少采樣所需的函數估計數量。

當然,這并不等同于隨意將特定圖像納入生成請求中;但它確實與類似類型的生成有關。

ReDi 于 2022 年發布,那一年潛擴散模型 吸引了 公眾的想象力,ReDi 似乎是最早采用基于 RAG 方法的擴散基礎方法之一。

盡管應該提到的是,2021 年 Facebook Research 發布了 實例條件 GAN,它試圖將 GAN 圖像條件化為新的圖像輸入,這種將圖像投影到潛在空間的做法在文獻中非常常見,無論是對于 GAN 還是擴散模型;挑戰在于使這樣一個過程成為訓練自由的,并在實時中發揮作用,就像專注于 LLM 的 RAG 方法一樣。

3.2 RDM

另一個早期嘗試 RAG 增強圖像生成的是 檢索增強擴散模型(RDM),它引入了一種半 參數化 的生成圖像合成方法。與傳統擴散模型將所有學習到的視覺知識存儲在其神經網絡參數中不同,RDM 依賴于一個外部圖像數據庫:

RDM* 中說明性偽查詢檢索到的最近鄰。

在訓練過程中,模型從外部數據庫中檢索 __[最近鄰](https://www.un在訓練過程中,模型從外部數據庫中檢索 最近鄰(視覺上或語義上相似的圖像),以指導生成過程。這使得模型能夠根據真實世界的視覺實例來調整其輸出。

檢索過程由 CLIP 提供支持,旨在確保檢索到的圖像與查詢內容具有有意義的相似性,并提供新信息以改善生成效果。這種方法減少了對參數的依賴,使得模型能夠在不需要龐大訓練數據集的情況下實現具有競爭力的結果。

RDM 方法支持 事后修改:研究人員可以在推理時更換數據庫,從而實現對新風格、領域甚至完全不同任務(如風格化或類別條件合成)的零樣本適應。

RDM 的一個關鍵優勢在于,它能夠在不重新訓練模型的情況下提升圖像生成效果。通過簡單地更改檢索數據庫,模型可以泛化到從未明確訓練過的新概念。這對于存在 領域偏移 的應用場景特別有用,例如基于不斷演變的數據集生成醫學影像,或者將文本到圖像模型適應于創意應用。

然而,這種基于檢索的方法依賴于外部數據庫的質量和相關性,這使得數據策劃成為實現高質量生成的重要因素。此外,這種方法距離實現商業語言模型中典型的基于 RAG 的交互式圖像合成仍有較大差距。

3.3 ReMoDiffuse

ReMoDiffuse 是一種用于 3D 人體運動生成的檢索增強運動擴散模型。與依賴純學習表示的傳統運動生成模型不同,ReMoDiffuse 從大規模運動數據集中檢索相關的運動樣本,并將其整合到去噪過程中,其架構類似于 RDM(見上文)。

右側為 RAG 增強的 ReMoDiffuse 與先前方法的對比

這使得模型能夠生成更自然、更多樣化且在語義上忠實于用戶文本提示的運動序列。

ReMoDiffuse 采用了一種創新的 混合檢索機制,基于語義和運動學相似性選擇運動序列,以確保檢索到的運動不僅在主題上相關,而且在物理上合理地整合到新生成中。

然后,模型使用 語義調制的 Transformer 對檢索到的樣本進行細化,有選擇地整合檢索到的運動知識,同時保持生成序列的特征品質。

ReMoDiffuse 的流程架構

該模型的 條件混合 技術增強了模型在不同提示和檢索條件下的泛化能力,通過在生成過程中平衡檢索到的運動樣本與文本提示的權重,解決了擴散模型中常見的 分類器自由引導 技術的 尺度敏感性問題。

這有助于防止不真實或重復的輸出,即使對于罕見的提示也是如此。它還解決了擴散模型中常見的尺度敏感性問題,這種問題通常出現在分類器自由引導技術中。

3.4 RA-CM3

斯坦福大學 2023 年的論文 Retrieval-Augmented Multimodal Language Modeling(RA-CM3)允許系統在推理時訪問現實世界的信息。


斯坦福大學的檢索增強多模態語言模型(RA-CM3)使用從互聯網檢索到的圖像增強生成過程,但目前仍處于原型階段,尚未公開發布

RA-CM3 將檢索到的文本和圖像整合到生成流程中,增強文本到圖像和圖像到文本的合成效果。該模型使用 CLIP 進行檢索,并以 Transformer 作為生成器,在生成輸出之前引用相關的多模態文檔。

在 MS-COCO 上的基準測試顯示,與 DALL-E 和類似系統相比,RA-CM3 實現了 12 點的 Fréchet Inception Distance(FID)降低,且計算成本更低。

然而,與其他基于檢索增強的方法一樣,RA-CM3 并沒有無縫內化其檢索到的知識。相反,它將新數據疊加在其預訓練的網絡上,類似于 LLM 通過搜索結果增強回答。雖然這種方法可以提高事實準確性,但它并不能替代在需要深度合成的領域中更新訓練的需求。

此外,目前尚未發布該系統的實際實現版本,甚至沒有通過 API 平臺提供。

3.5 RealRAG

來自中國的最新發布 Retrieval-Augmented Realistic Image Generation(RealRAG)引發了我們對 RAG 增強生成圖像系統的關注。


RealRAG 中引入的外部圖像(位于下方中間)
RealRAG 從公開可用的數據集(如 ImageNet、Stanford Cars、Stanford Dogs 和 Oxford Flowers)中檢索相關對象的實際圖像,并將其整合到生成過程中,以填補模型的知識空白。

RealRAG 的一個關鍵組件是 自反式對比學習,它訓練檢索模型找到信息豐富的參考圖像,而不僅僅是選擇 視覺上相似 的圖像。

作者指出:

“我們的關鍵見解是訓練一個檢索器,使其檢索到的圖像遠離生成器的生成空間,但接近文本提示的表示。”

“為此,我們首先根據給定的文本提示生成圖像,然后利用這些生成的圖像作為查詢,從基于真實對象的數據庫中檢索最相關的圖像。這些最相關的圖像被用作反思性負樣本。”

這種方法確保檢索到的圖像為生成過程貢獻了 缺失的知識,而不是強化模型中已有的偏見。

從左到右:檢索到的參考圖像;沒有使用 RAG 的結果;使用檢索圖像的結果

然而,對檢索質量和數據庫覆蓋范圍的依賴意味著其有效性可能會因高質量參考圖像的可用性而有所不同。如果相關圖像不存在于數據集中,模型可能仍然難以處理不熟悉的概念。

RealRAG 采用了一種非常模塊化的架構,兼容多種其他生成架構,包括基于 U-Net、DiT 和自回歸的模型。

總體而言,檢索和處理外部圖像會增加計算開銷,系統的性能取決于檢索機制在不同任務和數據集上的泛化能力。

四、總結

這是一篇關于圖像檢索多模態生成系統的代表性而非窮盡性概述。一些此類系統僅使用檢索來改善視覺理解或數據集策劃,而不是尋求生成圖像,例如 Internet Explorer。

文獻中還有許多其他基于 RAG 的項目尚未發布。只有發表研究論文的原型,例如 Re-Imagen,盡管它來自谷歌,但只能訪問本地自定義數據庫中的圖像。

此外,2024 年 11 月,百度 宣布 了 基于圖像檢索的增強生成(iRAG),這是一個使用“數據庫”檢索圖像的新平臺。盡管據報道 iRAG 可在 Ernie 平臺上使用,但關于檢索過程的細節似乎很少,它似乎依賴于一個 本地數據庫(即服務本地的,用戶無法直接訪問)。

此外,2024 年的論文 Unified Text-to-Image Generation and Retrieval 提供了另一種基于 RAG 的方法,使用外部圖像在生成時增強結果——同樣,這些圖像來自 本地數據庫,而不是來自 即時互聯網來源

圍繞 RAG 增強圖像生成的興奮可能會集中在能夠直接將互聯網來源或用戶上傳的圖像整合到生成過程中的系統上,并允許用戶參與圖像的選擇或來源。

然而,這是一個重大挑戰,原因至少有兩個:首先,此類系統的有效性通常取決于在資源密集型訓練過程中形成的深度整合關系;其次,如前所述的安全性、合法性以及版權限制等問題,使得這一功能不太可能成為 API 驅動的網絡服務的特性,也不太可能在商業部署中實現。

原文地址:https://www.unite.ai/the-future-of-rag-augmented-image-generation/

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/897444.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/897444.shtml
英文地址,請注明出處:http://en.pswp.cn/news/897444.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

DeepSeek 助力 Vue3 開發:打造絲滑的表格(Table)之添加列寬調整功能,示例Table14基礎固定表頭示例

前言:哈嘍,大家好,今天給大家分享一篇文章!并提供具體代碼幫助大家深入理解,徹底掌握!創作不易,如果能幫助到大家或者給大家一些靈感和啟發,歡迎收藏關注哦 💕 目錄 Deep…

取反符號~

取反符號 ~ 用于對整數進行按位取反操作。它會將二進制表示中的每一位取反,即 0 變 1,1 變 0。 示例 a 5 # 二進制表示為 0000 0101 b ~a # 按位取反,結果為 1111 1010(補碼表示) print(b) # 輸出 -6解釋 5 的二…

論文閱讀分享——UMDF(AAAI-24)

概述 題目:A Unified Self-Distillation Framework for Multimodal Sentiment Analysis with Uncertain Missing Modalities 發表:The Thirty-Eighth AAAI Conference on Artificial Intelligence (AAAI-24) 年份:2024 Github:暫…

WBC已形成“東亞-美洲雙中心”格局·棒球1號位

世界棒球經典賽(WBC)作為全球最高水平的國家隊棒球賽事,參賽隊伍按實力、地域和歷史表現可分為多個“陣營”。以下是基于歷屆賽事(截至2023年)的陣營劃分及代表性隊伍分析: 第一陣營:傳統豪強&a…

django中路由配置規則的詳細說明

在 Django 中,路由配置是將 URL 映射到視圖函數或類視圖的關鍵步驟,它決定了用戶請求的 URL 會觸發哪個視圖進行處理。以下將詳細介紹 Django 中路由配置的規則、高級使用方法以及多個應用配置的規則。 基本路由配置規則 1. 項目級路由配置 在 Django 項目中,根路由配置文…

【報錯】微信小程序預覽報錯”60001“

1.問題描述 我在微信開發者工具寫小程序時,使用http://localhost:8080是可以請求成功的,數據全都可以無報錯,但是點擊【預覽】,用手機掃描二維碼瀏覽時,發現前端圖片無返回且報錯60001(打開開發者模式查看日…

柵格裁剪(Python)

在地理數據處理中,矢量裁剪柵格是一個非常重要的操作,它可以幫助我們提取感興趣的區域并獲得更精確的分析結果。其重要性包括: 區域限定:地球科學研究通常需要關注特定的地理區域。通過矢量裁剪柵格,我們可以將柵格數…

【無人機路徑規劃】基于麻雀搜索算法(SSA)的無人機路徑規劃(Matlab)

效果一覽 代碼獲取私信博主基于麻雀搜索算法(SSA)的無人機路徑規劃(Matlab) 一、算法背景與核心思想 麻雀搜索算法(Sparrow Search Algorithm, SSA)是一種受麻雀群體覓食行為啟發的元啟發式算法&#xff0…

MySQL數據庫安裝及基礎用法

安裝數據庫 第一步:下載并解壓mysql-8.4.3-winx64文件夾 鏈接: https://pan.baidu.com/s/1lD6XNNSMhPF29I2_HBAvXw?pwd8888 提取碼: 8888 第二步:打開文件中的my.ini文件 [mysqld]# 設置3306端口port3306# 自定義設置mysql的安裝目錄,即解…

軟件工程:軟件開發之需求分析

物有本末,事有終始。知所先后,則近道矣。對軟件開發而言,軟件需求乃重中之重。必先之事重千鈞,不可或缺如日辰。 汽車行業由于有方法論和各種標準約束,對軟件開發有嚴苛的要求。ASPICE指導如何審核軟件開發&#xff0…

正則表達式,idea,插件anyrule

????package lx;import java.util.regex.Pattern;public class lxx {public static void main(String[] args) {//正則表達式//寫一個電話號碼的正則表達式String regex "1[3-9]\\d{9}";//第一個數字是1,第二個數字是3-9,后面跟著9個數字…

RISC-V醫療芯片工程師復合型轉型的路徑與策略

從RISC-V到醫療芯片:工程師復合型轉型的路徑與策略 一、引言 1.1 研究背景 在科技快速發展的當下,芯片技術已然成為推動各行業進步的核心驅動力之一。其中,RISC-V 架構作為芯片領域的新興力量,正以其獨特的優勢迅速崛起,對整個芯片產業的格局產生著深遠影響。RISC-V 架…

【設計模式】掌握建造者模式:如何優雅地解決復雜對象創建難題?

概述 將一個復雜對象的構建與表示分離,使得同樣的構建過程可以創建不同的表示。 分離了部件的構造(由Builder來負責)和裝配(由Director負責)。 從而可以構造出復雜的對象。這個模式適用于:某個對象的構建過程復雜的情況。 由于實現了構建和裝配的解耦。…

量子計算對區塊鏈技術的影響:革新與挑戰

量子計算對區塊鏈技術的影響:革新與挑戰 大家好,我是你們的技術伙伴Echo_Wish。今天我們來探討一個頗具前沿性的話題——量子計算對區塊鏈技術的影響。量子計算作為新一代計算技術,其強大的計算能力為各個領域帶來了革新。然而,量…

【Java代碼審計 | 第八篇】文件操作漏洞成因及防范

未經許可,不得轉載。 文章目錄 文件操作漏洞文件讀取漏洞基于 InputStream 的讀取基于 FileReader 的讀取 文件下載漏洞文件刪除漏洞防范 文件操作漏洞 分為文件讀取漏洞、文件下載漏洞與文件刪除漏洞。 文件讀取漏洞 在Java中,文件讀取通常有兩種常見…

與rkipc通信

rkipc的通信方式 在ipcweb中,程序是通過/var/tmp/rkipc和rkipc進行通信,并且網絡和客戶端的函數封裝在luckfox-pico/project/app/ipcweb/ipcweb-backend/src/socket_client文件夾中, client.cpp是客戶端命令 socket.cpp是網絡命令 編寫rkip…

NLP常見任務專題介紹(2)-多項選擇任務(MultipleChoice)訓練與推理模板

一、 使用 BigBird 進行多項選擇任務訓練與推理 本示例展示如何使用 BigBirdForMultipleChoice 訓練一個多項選擇模型,適用于考試答題、閱讀理解、常識推理等任務。 1?? 任務描述 目標:給定一個問題和多個選項,模型預測正確答案。 數據格式:輸入包含 (問題, 選項1, 選項…

【論文解讀】MODEST 透明物體 單目深度估計和分割 ICRA 2025

MODEST是一種用于透明物體的單目深度估計和分割的方法,來自ICRA 2025。 它通過單張RGB圖像作為輸入,能夠同時預測透明物體的深度圖和分割掩碼。 由深度圖生成點云數據,然后采用GraspNet生成抓取位姿,開展透明物體抓取實驗。 論文…

【網絡安全工程】任務11:路由器配置與靜態路由配置

目錄 一、概念 二、路由器配置 三、配置靜態路由CSDN 原創主頁:不羈https://blog.csdn.net/2303_76492156?typeblog 一、概念 1、路由器的作用:通過路由表進行數據的轉發。 2、交換機的作用:通過學習和識別 MAC 地址,依據 M…

深入理解隱式類型轉換:從原理到應用

C?持內置類型隱式類型轉換為類類型對象,需要有相關內置類型為參數的構造函數。 構造函數前?加explicit就不再?持隱式類型轉換。 類類型的對象之間也可以隱式轉換,需要相應的構造函數?持。 內置類型隱式類型轉換為類類型對象 在 C 中,如果…