理解生成協同促進?華為諾亞提出ILLUME,15M數據實現多模態理解生成一體化

多模態理解與生成一體化模型,致力于將視覺理解與生成能力融入同一框架,不僅推動了任務協同與泛化能力的突破,更重要的是,它代表著對類人智能(AGI)的一種深層探索。通過在單一模型中統一理解與生成,模型能夠從語義層面真正 “洞察” 視覺、文本與世界本質之間的深層聯系,從而在復雜場景中實現更加智能、靈活的交互與任務執行。

近期,華為諾亞方舟實驗室提出了統一多模態大模型 ——ILLUME。這一模型以 LLM 為核心,采用 “連續圖像輸入 + 離散圖像輸出” 的架構,巧妙融合了多模態理解與生成的雙重能力,并深度挖掘了統一框架下理解與生成能力協同增強的潛力,展示了對多模態任務的全新詮釋。

圖片

  • 論文標題:ILLUME: Illuminating Your LLMs to See, Draw, and Self-Enhance

  • 論文地址:https://arxiv.org/pdf/2412.06673

總體來說,本文貢獻如下:


?

1、ILLUME 在保持整體架構可擴展與可泛化的前提下,通過合理的視覺詞表、訓練策略與數據配比策略,成功以僅約 15M 的圖文對數據用于圖文對齊,實現了在視覺理解(包括自然圖像和文檔圖表)、生成、編輯等多元任務上的出色表現,總體效果優于現有統一模型例如 Chameleon, Show-O 和 Janus,與專用單任務模型相媲美。

圖片

2、ILLUME 提出一種自提升式多模態對齊策略,通過讓模型對自身生成的負樣本進行內省式評估,統一模型在理解和生成兩方面的能力可實現協同進化。


?

ILLUME:理解生成一體的多模態大模型



挑戰一:如何高效訓練一個統一多模態模型?


?

現有的統一多模態模型構建方案多集中于在 LLM 基礎上拓展視覺詞表,以支持視覺生成任務。這些模型通常需要大量的圖文對數據來實現圖文對齊訓練。這種對海量數據的依賴,在一定程度上放緩了這一領域進一步探索與實踐的進程。

圖片

與此不同的是,我們在 ILLUME 中僅使用約 15M 的圖文對數據完成預訓練,并在視覺理解(涵蓋自然圖像與文檔圖表)、生成與編輯等多類視覺文本任務上達到與專有模型相媲美的水平。這一成果并非僅體現于數據規模的減少,更重要的是在架構、訓練策略、數據配比以及視覺詞表表征方式上的關鍵設計,使模型能夠更高效地進行圖文對齊學習。這種方法為在更廣泛和更深層的多模態語義理解與生成融合中奠定了基礎。


?

關鍵設計 1:視覺詞表的表征選擇


?

傳統基于 VQGAN 的視覺詞表往往通過重建原始像素作為目標,但這種基于底層紋理的表征不利于與文本模態進行高層語義對齊。與此相反,我們采用語義特征重建的方式構造視覺詞表,直接在高層語義空間中完成圖文對齊的特征學習。實驗表明,這一設計可顯著加速 MLLM 的預訓練過程。

圖片

在解碼階段,我們再利用 Diffusion 模型將語義特征還原為高保真像素空間,從而實現高達 32 倍的壓縮率。通過這一流程,模型在輸入端沿用連續視覺編碼器保障精細視覺理解能力,并在輸出端通過語義視覺詞表完成離散化處理,為視覺生成能力的無縫融合奠定基礎。

圖片

關鍵設計 2:三階段訓練策略和數據配比


?

我們采用 “三階段” 訓練策略,以分層遞進的方式逐步強化模型的多模態理解與生成能力:


?

階段一:引入圖像重建任務,為視覺詞表擴展后的新參數進行快速初始化,并對齊連續輸入與離散輸出的模式;


?

階段二:進行圖文對齊預訓練,進一步強化模型在語義層面將圖像與文本聯結的能力;


?

階段三:對高質量的理解、生成、混合數據進行微調,使模型最終勝任多類型的視覺文本任務(包括理解、生成與編輯)。

圖片

挑戰二:統一多模態模型的判別能力和生成能力能否相互促進?


?

當我們構建一個統一模型后,我們最關心的是:聯合訓練視覺理解和生成任務應該如何促進呢?


?

自提升多模態對齊方案


?

針對這一點,我們提出了以自我評估過程為橋梁的自提升多模態對齊策略。通過讓模型對自身生成的負樣本進行內省式評估,模型在理解和生成兩方面的能力可實現協同進化:


?

  • 生成促進理解:模型以自我評估的方式分析自己產生的負樣本,這種內省過程使模型能夠查明并解決其自身弱點,從而更準確地理解圖像。

  • 理解促進生成:模型可以利用其判別能力來評估其自生成的圖像是否與文本一致,并基于此分析進行修正,從而確保模型在推理時更加謹慎和準確,避免在生成圖像時出現錯誤。


?

我們的自提升多模態對齊方法分為三個步驟:


?

  • Step 1: 語料自生成。采樣訓練子集,推理模型生成圖像。

  • Step 2: 生成評估數據。從物體、數量、顏色和空間關系多個維度評估圖像和文本的一致性,評估數據包括評估得分和相應的分析。

  • Step 3: 多模態對齊。將評估數據重新格式化后加入階段三訓練,使模型在理解與生成層面同時得到強化。

圖片

實驗結果證明,自提升多模態對齊方法能在理解和生成任務上同時為模型賦能,促使統一多模態模型向更高層次的智能形態穩步邁進。

圖片

實驗結果


?

多模態理解任務


?

在 12 個常用的多模態理解開源綜合評測集與文檔場景評測集上,ILLUME 均展現出卓越性能,與現有統一多模態模型相比達到 SOTA 水準,尤其在文檔理解任務上表現尤為突出。同時,相較多模態理解模型(如 LLaVA-NeXT),ILLUME 的理解能力總體保持相當甚至更優的水平。

圖片

圖片

文圖生成任務


?

ILLUME 在 3 個文生圖評測集上取得與現有生成模型和統一多模態模型相當的表現。

圖片

圖片

編輯任務


?

ILLUME 能處理物體刪除,風格遷移,圖像補充等各種編輯任務。

圖片

圖片

?更多內容可以訪問我的博客https://imok.it.eu.org??

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/64613.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/64613.shtml
英文地址,請注明出處:http://en.pswp.cn/web/64613.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

學習vue3的筆記

一、vue和react的對比 1、基礎介紹 vue:https://cn.vuejs.org/ vue3是2020年創建的 react:https://react.dev/ react是一個2013年開源的JavaScript庫,嚴格意義上來說不是一個框架 2、diff算法 兩個框架采用的都是同級對比策略 兩節點對…

SQLiteDataBase數據庫

XML界面設計 <?xml version"1.0" encoding"utf-8"?> <LinearLayout xmlns:android"http://schemas.android.com/apk/res/android"xmlns:tools"http://schemas.android.com/tools"android:layout_width"match_paren…

k8s部署nginx+sshd實現文件上傳下載

要通過 nginx 和 sshd 實現文件的上傳和下載&#xff0c;通常的做法是結合 SSH 協議和 HTTP 協議&#xff0c;使用 nginx 提供 Web 服務器功能&#xff0c;同時使用 sshd&#xff08;即 SSH 服務&#xff09;來處理通過 SSH 協議進行的文件傳輸。 SSH 實現文件的上傳和下載&…

Golang 中 Goroutine 的調度

Golang 中 Goroutine 的調度 Golang 中的 Goroutine 是一種輕量級的線程&#xff0c;由 Go 運行時&#xff08;runtime&#xff09;自動管理。Goroutine 的調度基于 M:N 模型&#xff0c;即多個 Goroutine 可以映射到多個操作系統線程上執行。以下是詳細的調度過程和策略&…

clickhouse-backup配置及使用(Linux)

一、下載地址 Releases Altinity/clickhouse-backup GitHub 二、上傳到服務器解壓安裝 自行上傳至服務器&#xff0c;解壓命令&#xff1a; tar xvf clickhouse-backup-linux-amd64.tar.gz 三、創建軟連接 sudo ln -sv build/linux/amd64/clickhouse-backup /usr/local/bin/…

如何在群暉NAS上安裝并配置MySQL與phpMyAdmin遠程管理數據庫

文章目錄 前言1. 安裝MySQL2. 安裝phpMyAdmin3. 修改User表4. 本地測試連接MySQL5. 安裝cpolar內網穿透6. 配置MySQL公網訪問地址7. 配置MySQL固定公網地址8. 配置phpMyAdmin公網地址9. 配置phpmyadmin固定公網地址 前言 大家是不是經常遇到需要隨時隨地訪問自己數據的情況&am…

《向量數據庫指南》——Milvus Cloud 2.5:Sparse-BM25引領全文檢索新時代

Milvus Cloud BM25:重塑全文檢索的未來 在最新的Milvus Cloud 2.5版本中,我們自豪地引入了“全新”的全文檢索能力,這一創新不僅鞏固了Milvus Cloud在向量數據庫領域的領先地位,更為用戶提供了前所未有的靈活性和效率。作為大禹智庫的向量數據庫高級研究員,以及《向量數據…

SQL 總結

SQL 總結 引言 SQL(Structured Query Language,結構化查詢語言)是一種用于管理關系數據庫管理系統(RDBMS)的標準編程語言。自1974年首次提出以來,SQL已成為數據庫領域中不可或缺的一部分。它允許用戶執行各種操作,如查詢、更新、插入和刪除數據庫中的數據。本文旨在提…

ESP32-CAM開發板入門 (下載示例程序)

ESP32-CAM開發板例程使用 1、準備工作1.1、硬件準備1.2、軟件準備 2、選擇示例程序并錄入第一步 1、準備工作 1.1、硬件準備 1.2、軟件準備 Arduino IDE &#xff1a; 編程與寫入&#xff08;下載地址 https://www.arduino.cc/en/software&#xff09; 安裝好后將軟件設置到…

企業賦能是什么意思-國際數字影像產業園解讀

在當今競爭激烈的商業環境中&#xff0c;企業賦能已成為推動企業發展、提升競爭力的關鍵策略。國際數字影像產業園作為數字影像產業的重要集聚地&#xff0c;通過一系列創新舉措為入駐園區的我眾多企業賦能。那么&#xff0c;企業賦能究竟是什么意思呢&#xff1f; 企業賦能是…

混合并行訓練框架性能對比

混合并行訓練框架性能對比 1. 框架類型 DeepSpeed、Megatron - LM、Colossal - AI、SageMaker、Merak、FasterMoE、Tutel、Whale、Alpa、DAPPLE、Mesh - TensorFlow 2. 可用并行性(Available parallelisms) DNN framework(深度神經網絡框架)DP(數據并行,Data Parallelis…

客戶案例:基于慧集通集成平臺,打通屠宰管理系統與用友U8C 系統的全攻略

一、引言 本原型客戶成立于2014年&#xff0c;是一家集飼草種植、肉牛養殖、精深加工、冷鏈物流、餐飲服務于一體的大型農牧綜合體。公司下設三個子公司分別涵蓋農業、畜牧業、肉制品加工業與餐飲物流服務業。公司嚴格按照一二三產業融合發展要求&#xff0c;以肉牛產業化為支…

HTML5滑塊(Slider)

HTML5 的滑塊&#xff08;Slider&#xff09;控件允許用戶通過拖動滑塊來選擇數值。以下是如何實現一個簡單的滑塊組件的詳細說明。 HTML5 滑塊組件 1. 基本結構 使用 <input type"range"> 元素可以創建一個滑塊。下面是基本實現的代碼示例&#xff1a; <…

25. C++繼承 1 (繼承的概念與基礎使用, 繼承的復制兼容規則,繼承的作用域)

?上篇模板文章&#xff1a;24. C模板 2 (非類型模板參數&#xff0c;模板的特化與模板的分離編譯)-CSDN博客 ?本篇代碼&#xff1a;c學習 橘子真甜/c-learning-of-yzc - 碼云 - 開源中國 (gitee.com) ?標?是比較重要的部分 目錄 一. 繼承的基礎使用 1.1 繼承的格式 1.2 …

露營小程序搭建有哪些步驟?小程序里面可以找個露營搭子

露營不僅僅是走進大自然的旅程&#xff0c;它也成為了一種社交和體驗式的活動。隨著小程序的普及&#xff0c;露營活動也越來越多地開始在線上開展。通過搭建一個露營小程序&#xff0c;商家不僅可以為用戶提供更多的露營選擇&#xff0c;還可以幫助他們找到合適的露營搭子。那…

XIAO ESP32 S3網絡攝像頭——2視頻獲取

本文主要是使用XIAO Esp32 S3制作網絡攝像頭的第2步,獲取攝像頭圖像。 1、效果如下: 2、所需硬件 3、代碼實現 3.1硬件代碼: #include "WiFi.h" #include "WiFiClient.h" #include "esp_camera.h" #include "camera_pins.h"// 設…

記一次 dockerfile 的循環依賴錯誤

文章目錄 1. 寫在最前面1.1 具體循環依賴的例子 2. 報錯的位置2.1 代碼快速分析2.2 代碼總結2.3 關于 parser 的記錄 3. 碎碎念 1. 寫在最前面 筆者在使用 dockerfile 多階段構建的功能時&#xff0c;寫出了一個「circular dependency detected on stage: xx」的錯誤。 解決方…

AAAI 2025論文分享┆一種接近全監督的無訓練文檔信息抽取方法:SAIL(文中附代碼鏈接)

本推文詳細介紹了一篇上海交通大學樂心怡老師課題組被人工智能頂級會議AAAI 2025錄用的的最新論文《SAIL: Sample-Centric In-Context Learning for Document Information Extraction》。論文的第一作者為張金鈺。該論文提出了一種無需訓練的、以樣本為中心的、基于上下文學習的…

小程序信息收集(小迪網絡安全筆記~

免責聲明&#xff1a;本文章僅用于交流學習&#xff0c;因文章內容而產生的任何違法&未授權行為&#xff0c;與文章作者無關&#xff01;&#xff01;&#xff01; 附&#xff1a;完整筆記目錄~ ps&#xff1a;本人小白&#xff0c;筆記均在個人理解基礎上整理&#xff0c;…

pat 乙級1096 大美數

若正整數 N 可以整除它的 4 個不同正因數之和&#xff0c;則稱這樣的正整數為“大美數”。本題就要求你判斷任一給定的正整數是否是“大美數”。 輸入格式&#xff1a; 輸入在第一行中給出正整數 K&#xff08;≤10&#xff09;&#xff0c;隨后一行給出 K 個待檢測的、不超過…