謝賽寧團隊提出 BLIP3-o:融合自回歸與擴散模型的統一多模態架構,開創CLIP特征驅動的圖像理解與生成新范式

BLIP3-o 是一個統一的多模態模型,它將自回歸模型的推理和指令遵循優勢與擴散模型的生成能力相結合。與之前擴散 VAE 特征或原始像素的研究不同,BLIP3-o 擴散了語義豐富的CLIP 圖像特征,從而為圖像理解和生成構建了強大而高效的架構。

此外還發布了包含 2000 萬張帶詳細標題的圖片(BLIP3o Pretrain Long Caption)和 400 萬張帶短標題的圖片(BLIP3o Pretrain Short Caption)的數據集。

亮點

  • 完全開源:完全開源訓練數據(預訓練和指令調整)、訓練方案、模型權重、代碼。

  • 統一架構:用于圖像理解和生成。

  • CLIP 特征擴散:直接擴散語義視覺特征,以實現更強的對齊和性能。

  • 最先進的性能:涵蓋廣泛的圖像理解和生成基準。

支持的任務

  • 文本 → 文本

  • 圖像→文本(圖像理解)

  • 文本→圖像(圖像生成)

  • 圖像 → 圖像(圖像編輯)

  • 多任務訓練(圖像生成和理解混合訓練)

相關鏈接

  • 論文:https://arxiv.org/pdf/2505.09568

  • 代碼:https://github.com/JiuhaiChen/BLIP3o

  • 模型:https://huggingface.co/BLIP3o/BLIP3o-Model

  • 預訓練:https://huggingface.co/datasets/BLIP3o/BLIP3o-Pretrain

  • 優化:https://huggingface.co/datasets/BLIP3o/BLIP3o-60k

論文閱讀

在近期的多模態模型研究中,統一圖像理解和生成越來越受到關注。盡管圖像理解的設計方案已被廣泛研究,但用于統一圖像生成框架的最佳模型架構和訓練方法仍未得到充分探索。

鑒于自回歸和擴散模型在高質量生成和可擴展性方面的巨大潛力,作者對它們在統一多模態環境中的應用進行了全面的研究,重點關注圖像表征、建模目標和訓練策略。基于這些研究,論文提出了一種新穎的方法,該方法使用擴散變換器來生成語義豐富的CLIP圖像特征,這與傳統的基于VAE的表征不同。這種設計既提高了訓練效率,又提升了生成質量。

此外,作者證明了統一模型的順序預訓練策略——先進行圖像理解訓練,然后再進行圖像生成訓練——在保留圖像理解能力的同時,發展強大的圖像生成能力,具有實用優勢。最后,作者精心策劃了一個高質量的指令調整數據集 BLIP3o-60k,用于圖像生成,通過為 GPT-4o 提供涵蓋各種場景、物體、人體手勢等內容的多樣化字幕。基于論文提出的創新的模型設計、訓練方案和數據集,作者開發了 BLIP3-o,這是一套最先進的統一多模態模型。BLIP3-o 在涵蓋圖像理解和生成任務的大多數熱門基準測試中均取得了卓越的性能。

BLIP3-o 的架構。 在圖像理解部分,我們使用 CLIP 對圖像進行編碼,并計算目標文本標記和預測文本標記之間的交叉熵損失。在圖像生成部分,自回歸模型首先生成一系列中間視覺特征,然后將其作為條件輸入,輸入到擴散變換器中,該變換器生成 CLIP 圖像特征,以近似真實的 CLIP 特征。通過使用 CLIP 編碼器,圖像理解和圖像生成共享相同的語義空間,從而有效地統一了這兩個任務。

統一多模態模型中圖像生成的三種設計選擇。所有設計均采用自回歸 + 擴散框架,但其圖像生成組件有所不同。對于流匹配損失,我們保持自回歸模型不變,僅對圖像生成模塊進行微調,以保留模型的語言能力。

聯合訓練 vs. 順序訓練:聯合訓練通過混合圖像理解和圖像生成數據進行多任務學習,同時更新自回歸主干網絡和生成模塊。順序訓練將兩個過程分開:首先,模型僅進行圖像理解任務的訓練;然后凍結自回歸主干網絡,并在第二階段僅訓練圖像生成模塊。

實驗結果

BLIP3-o 8B 在 1024×1024 分辨率下的可視化結果

BLIP3-o 8B 在 1024×1024 分辨率下的可視化結果

圖像理解基準測試的結果。用粗體突出顯示最佳結果。

圖像理解基準測試的結果。用粗體突出顯示最佳結果。

圖像生成基準結果

圖像生成基準結果

Janus Pro 與模型在 DPG-Bench 上的人體研究結果。

Janus Pro 與模型在 DPG-Bench 上的人體研究結果。

結論

論文首次系統地探索了用于統一多模態建模的混合自回歸和擴散架構,并評估了三個關鍵方面:圖像表征(CLIP 與 VAE 特征)、訓練目標(光流匹配與 MSE)以及訓練策略(聯合與順序)。實驗表明CLIP 嵌入與光流匹配損失相結合,能夠提高訓練效率并提升輸出質量。基于這些洞察,作者推出了 BLIP3-o,這是一系列最先進的統一模型,并基于 60k 指令集調整數據集 BLIP3o-60k 進行了增強,顯著提升了快速對齊和視覺美感。此外,作者正在積極開發該統一模型的應用,包括迭代圖像編輯、視覺對話和逐步視覺推理。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/81438.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/81438.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/81438.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

HarmonyOs開發之——— ArkWeb 實戰指南

HarmonyOs開發之——— ArkWeb 實戰指南 謝謝關注!! 前言:上一篇文章主要介紹HarmonyOs開發之———合理使用動畫與轉場:CSDN 博客鏈接 一、ArkWeb 組件基礎與生命周期管理 1.1 Web 組件核心能力概述 ArkWeb 的Web組件支持加載本地或在線網頁,提供完整的生命周期回調體…

黑馬程序員C++2024版筆記 第0章 C++入門

1.C代碼的基礎結構 以hello_world代碼為例&#xff1a; 預處理指令 #include<iostream> using namespace std; 代碼前2行是預處理指令&#xff0c;即代碼編譯前的準備工作。&#xff08;編譯是將源代碼轉化為可執行程序.exe文件的過程&#xff09; 主函數 主函數是…

日語學習-日語知識點小記-構建基礎-JLPT-N4階段(22):復習

日語學習-日語知識點小記-構建基礎-JLPT-N4階段(22):復習 1、前言(1)情況說明(2)工程師的信仰2、知識點(1)復習(2)復習3、單詞(1)日語(2)日語片假名單詞4、對話練習5、單詞辨析記錄6、總結1、前言 (1)情況說明 自己在今年,在日本留學中,目前在語言學校,…

Docker配置SRS服務器 ,ffmpeg使用rtmp協議推流+vlc拉流

目錄 演示視頻 前期配置 Docker配置 ffmpeg配置 vlc配置 下載并運行 SRS 服務 推拉流流程實現 演示視頻 2025-05-18 21-48-01 前期配置 Docker配置 運行 SRS 建議使用 Docker 配置 Docker 請移步&#xff1a; 一篇就夠&#xff01;Windows上Docker Desktop安裝 漢化完整指…

Redis——緩存雪崩、擊穿、穿透

緩存雪崩 大量緩存數據在同一時間過期或者Redis故障宕機時&#xff0c;若此時有大量請求&#xff0c;都會直接訪問到數據庫&#xff0c;導致數據庫壓力倍增甚至宕機。 大量數據同時過期解決方案&#xff1a; 1、均勻設置過期時間&#xff1a; 設置過期時間的時候可以追加一…

開源GPU架構RISC-V VCIX的深度學習潛力測試:從RTL仿真到MNIST實戰

點擊 “AladdinEdu&#xff0c;同學們用得起的【H卡】算力平臺”&#xff0c;H卡級別算力&#xff0c;按量計費&#xff0c;靈活彈性&#xff0c;頂級配置&#xff0c;學生專屬優惠。 一、開篇&#xff1a;AI芯片架構演變的三重挑戰 &#xff08;引述TPUv4采用RISC-V的行業案…

字符串相乘(43)

43. 字符串相乘 - 力扣&#xff08;LeetCode&#xff09; 解法&#xff1a; class Solution { public:string multiply(string num1, string num2) {string res "0";for (int i 0; i < num2.size(); i) {string str multiplyOneNum(num1, num2[num2.size() -…

mathematics-2024《Graph Convolutional Network for Image Restoration: A Survey》

推薦深藍學院的《深度神經網絡加速&#xff1a;cuDNN 與 TensorRT》&#xff0c;課程面向就業&#xff0c;細致講解CUDA運算的理論支撐與實踐&#xff0c;學完可以系統化掌握CUDA基礎編程知識以及TensorRT實戰&#xff0c;并且能夠利用GPU開發高性能、高并發的軟件系統&#xf…

[LevelDB]LevelDB版本管理的黑魔法-為什么能在不鎖表的情況下管理數據?

文章摘要 LevelDB的日志管理系統是怎么通過雙鏈表來進行數據管理為什么LevelDB能夠在不鎖表的情況下進行日志新增 適用人群: 對版本管理機制有開發訴求&#xff0c;并且希望參考LevelDB的版本開發機制。數據庫相關從業者的專業人士。計算機狂熱愛好者&#xff0c;對計算機的…

【C++進階篇】C++容器完全指南:掌握set和map的使用,提升編碼效率

C容器的實踐與應用&#xff1a;輕松掌握set、map與multimap的區別與用法 一. 序列式容器與關聯式容器1.1 序列式容器 (Sequential Containers)1.2 關聯式容器 (Associative Containers) 二. set系列使用2.1 set的構造和迭代器2.2 set的增刪查2.2.1 插入2.2.2 查找2.2.3 刪除 2.…

2_Spring【IOC容器中獲取組件Bean】

Spring中IOC容器中獲取組件Bean 實體類 //接口 public interface TestDemo {public void doSomething(); } // 實現類 public class HappyComponent implements TestDemo {public void doSomething() {System.out.println("HappyComponent is doing something...")…

安卓開飯-ScrollView內嵌套了多個RecyclerView,只想與其中一個RecyclerView有聯動

在 Android 開發中&#xff0c;將 RecyclerView 嵌套在 ScrollView 內通常會導致性能問題和滾動沖突&#xff0c;應盡量避免這種設計。以下是原因和替代方案&#xff1a; 為什么不推薦 RecyclerView ScrollView&#xff1f;?? 性能損耗? RecyclerView 本身已自帶高效回收復…

HTTP 請求中 Content-Type 頭部

HTTP 請求中 Content-Type 頭部可以設置的各種不同的傳輸格式。multipart/form-data 只是其中一種,主要用于傳輸包含文件的數據。 以下是一些常見的 HTTP 請求體的 Content-Type 及其用途: 常見的數據傳輸格式 (Content-Type) 列表: application/json: 描述: 用于傳輸 JSO…

【U-boot 命令使用】

文章目錄 1 查詢有哪些命令2 信息查詢命令dbinfo - 查看板子信息printenv- 輸出環境變量信息version - 輸出uboot版本信息 3 環境變量操作命令修改環境變量新建環境變量刪除環境變量 4 內存操作命令md命令nm命令mm命令mv命令cp命令cmp命令 5 網絡操作命令與網絡有關的環境變量p…

初學者如何用 Python 寫第一個爬蟲?

初學者如何用 Python 寫第一個爬蟲&#xff1f; 一、爬蟲的基本概念 &#xff08;一&#xff09;爬蟲的定義 爬蟲&#xff0c;英文名為 Web Crawler&#xff0c;也被叫做網絡蜘蛛、網絡機器人。想象一下&#xff0c;有一個勤勞的小蜘蛛&#xff0c;在互聯網這個巨大的蜘蛛網中…

IDE/IoT/搭建物聯網(LiteOS)集成開發環境,基于 VSCode + IoT Link 插件

文章目錄 概述IDE安裝安裝舊版本VSCode安裝插件安裝問題和解決手動安裝SDK包手動下載依賴工具 IoTLink配置IoTLink Home用戶設置-工具鏈-編譯器用戶設置-工具鏈-構建器用戶設置-工具鏈-燒錄器用戶設置-SDK管理工程設置-SDK配置工程設置-編譯器工程設置-調試器 創建工程Demo 源碼…

深度剖析:Dify+Sanic+Vue+ECharts 搭建 Text2SQL 項目 sanic-web 的 Debug 實戰

目錄 項目背景介紹sanic-web Dify\_service handle\_think\_tag報錯NoneType問題描述debug Dify調用不成功&#xff0c;一直轉圈圈問題描述debug 前端markdown格式只顯示前5頁問題描述debug1. 修改代碼2.重新構建1.1.3鏡像3.更新sanic-web/docker/docker-compose.yaml4. 重新部…

理想AI Talk第二季-重點信息總結

一、TL&#xff1b;DR 理想為什么要做自己的基模&#xff1a;座艙家庭等特殊VLM場景&#xff0c;deepseek/openai沒有解決理想的基模參數量&#xff1a;服務端-300B&#xff0c;VLencoder-32B/3.6B&#xff0c;日常工作使用-300B&#xff0c;VLA-4B為什么自動駕駛可以達成&…

TensorRT

TensorRT 下載 TensorRT 7.1.3.4 TAR壓縮包&#xff0c;解壓到安裝目錄&#xff1a; tar xzvf TensorRT-7.1.3.4.Ubuntu-16.04.x86_64-gnu.cuda-11.0.cudnn8.0.tar.gz 添加 TensorRT lib 到環境變量&#xff1a; gedit ~/.bashrc # 添加 export LD_LIBRARY_PATH$LD_LIBRARY_PAT…

【NGINX】 -9 nginx + tomcat實現的多級反向代理

文章目錄 1、tomcat的安裝 (centos版本)1.1 安裝Java依賴環境1.2 安裝tomcat 2、tomcat的虛擬主機的配置2.1 配置多級目錄 3、利用nginx的反向代理實現將轉發指向一個虛擬機3.1 nginx服務器的配置3.2 客戶端配置 4、 反向多級代理代理服務器操作nginx 1 服務器nginx 2 服務器to…