【MLLM】多模態理解Ovis2.5模型架構和訓練流程

note

  • 模型架構:延續 Ovis 系列創新的結構化嵌入對齊設計。
    Ovis2.5 由三大組件構成:動態分辨率 ViT 高效提取視覺特征,Ovis 視覺詞表模塊實現視覺與文本嵌入的結構對齊,最后由強大的 Qwen3 作為語言基座,處理多模態嵌入并生成文本輸出。
  • 訓練策略:采用更精細的五階段訓練范式,從基礎的視覺預訓練、多模態預訓練、大規模指令微調,到利用DPO和GRPO等算法進行偏好對齊和推理能力強化,循序漸進構建模型能力。同時,通過多模態數據打包和混合并行等優化,實現了3-4倍的端到端訓練加速。
  • 數據工程:Ovis2.5的數據規模相比Ovis2增加了50%,重點聚焦視覺推理、圖表、OCR、Grounding等關鍵方向。尤其是合成了大量與Qwen3深度適配的“思考(thinking)”數據,有效激發了模型的反思與推理潛能。

文章目錄

  • note
  • 一、多模態理解Ovis2.5模型
    • 1. 原生分辨率感知:看得清,看得全
    • 2. 深度推理能力:引入可選的“思考模式”
    • 3. SOTA性能表現:登頂開源模型榜單
    • 4. 高效訓練架構:速度與規模兼得
  • 二、模型架構
  • 三、模型訓練
    • 第一階段:VET預訓練 (視覺基礎啟蒙)
    • 第二階段:多模態預訓練 (圖文對話入門)
    • 第三階段:多模態指令微調 (能力全面拓展)
    • 第四階段:多模態 DPO (與人類對齊)
    • 第五階段:多模態強化學習 (推理能力沖刺)
  • 四、模型評測
  • Reference

一、多模態理解Ovis2.5模型

論文名稱:Ovis2.5 Technical Report
第一作者:阿里 - Ovis Team
論文鏈接:https://arxiv.org/pdf/2508.11737
最新日期:2025年8月15日
github:https://github.com/AIDC-AI/Ovis.git
在這里插入圖片描述

主流模型痛點:一是“視力不佳”,在處理復雜圖表或高清大圖時,往往需要把圖片切成小塊,像通過一根吸管看世界,丟失了全局信息;二是“思維線性”,習慣于一步到位的“思維鏈”(Chain-of-Thought),缺乏自我反思和糾錯的能力,遇到復雜問題容易“一條道走到黑”。

1. 原生分辨率感知:看得清,看得全

Ovis2.5最大的革新之一,就是整合了原生分辨率視覺變換器(NaViT)。這意味著它不再需要將圖片“大卸八塊”,而是可以直接處理任意原始尺寸和長寬比的圖像。這就像從一個定焦鏡頭升級到了一個能自由變焦、擁有超廣角的全能相機,無論是精細的圖表數據點還是復雜的全局頁面布局,都能一覽無余。

2. 深度推理能力:引入可選的“思考模式”

為了突破線性思維的局限,Ovis2.5在訓練中引入了一種特殊的“反思式”數據,教會模型在回答前進行自我檢查和修正。這個能力在推理時以一個可選的“思考模式”(Thinking Mode)開放給用戶。對于簡單問題,可以關閉它追求速度;對于復雜難題,可以開啟它,讓模型“多想一會兒”,以延遲換取更高的準確率。

3. SOTA性能表現:登頂開源模型榜單

Ovis2.5-9B在權威的OpenCompass多模態綜合排行榜上,以78.3分的平均成績,登頂40B參數規模以下的開源模型榜首。更令人印象深刻的是,其2B版本也取得了73.9的高分,在同量級模型中一騎絕塵,完美詮釋了“小模型,大性能”的理念。

4. 高效訓練架構:速度與規模兼得

如此強大的模型背后,是一套高效的訓練基礎設施。通過多模態數據打包和混合并行等優化技術,Ovis2.5的端到端訓練速度提升了3到4倍,為模型快速迭代和擴展提供了堅實的基礎。

二、模型架構

在這里插入圖片描述

模型架構:延續 Ovis 系列創新的結構化嵌入對齊設計。
Ovis2.5 由三大組件構成:動態分辨率 ViT 高效提取視覺特征,Ovis 視覺詞表模塊實現視覺與文本嵌入的結構對齊,最后由強大的 Qwen3 作為語言基座,處理多模態嵌入并生成文本輸出。

訓練策略:采用更精細的五階段訓練范式,從基礎的視覺預訓練、多模態預訓練、大規模指令微調,到利用DPO和GRPO等算法進行偏好對齊和推理能力強化,循序漸進構建模型能力。同時,通過多模態數據打包和混合并行等優化,實現了3-4倍的端到端訓練加速。

數據工程:Ovis2.5的數據規模相比Ovis2增加了50%,重點聚焦視覺推理、圖表、OCR、Grounding等關鍵方向。尤其是合成了大量與Qwen3深度適配的“思考(thinking)”數據,有效激發了模型的反思與推理潛能。

三、模型訓練

訓練數據示例:

問題:[一個復雜的數學問題]
回答:
<think>
好的,我們來分析這個問題。首先,我需要識別出所有的已知條件...
第一步,我嘗試用公式A來計算,得到結果X。
等一下,我檢查一下這個結果。似乎公式A在這里的應用前提不滿足,這會導致錯誤。
我應該換個思路,使用公式B。
好的,用公式B重新計算第一步... 這樣就合理了。
接下來進行第二步...
</think>
[最終的、經過修正的解題步驟和答案]

第一階段:VET預訓練 (視覺基礎啟蒙)

? 目標:教會模型最基礎的“看圖識物”,即訓練好VET這個“視覺詞典”。

? 方法:使用海量“圖像-標題”數據對。為保證學習穩定,此階段會凍結視覺編碼器的大部分參數,只微調最后幾層和VET。分辨率較低,且暫時關閉。

第二階段:多模態預訓練 (圖文對話入門)

? 目標:打通視覺和語言的連接,讓模型具備基礎的對話和理解能力。

? 方法:開放所有模塊的參數進行全量訓練,并引入OCR、定位等更多樣的任務。關鍵是,大幅提升了支持的圖像分辨率,并全面啟用了,為處理復雜視覺任務打下基礎。

第三階段:多模態指令微調 (能力全面拓展)

? 目標:讓模型學會聽懂并執行各種復雜的指令,并掌握深度推理能力。

? 方法:在這一階段,訓練數據變得極其豐富,包括單圖、多圖、視頻、純文本等多種模態。最重要的是,正式引入了帶有<think>...</think>標簽的反思式推理數據,開始培養模型的“思考模式”。

第四階段:多模態 DPO (與人類對齊)

? 目標:讓模型的輸出更符合人類的偏好和價值觀。

? 方法:采用當前主流的直接偏好優化(Direct Preference Optimization, DPO)技術。通過學習人類對不同回答的偏好數據(哪個回答更好,哪個更差),對模型進行微調,使其言行舉止更像一個可靠的助手。

第五階段:多模態強化學習 (推理能力沖刺)

? 目標:在已對齊的基礎上,進一步拔高模型的邏輯推理上限。

? 方法:使用組相對策略優化(Group Relative Policy Optimization, GRPO),在大量可驗證答案的推理任務(如數學題)上進行強化學習。此階段會凍結視覺模塊,將全部優化資源集中在LLM的“大腦”上,進行最后的推理能力沖刺。

四、模型評測

OpenCompass是一個綜合性的多模態能力評測套件,涵蓋了從常識問答、幻覺評估到專業學科推理的8個主流基準。? Ovis2.5-9B:取得了78.3分的驚人成績,不僅遠超其前代Ovis2-8B(71.8分),也超過了包括GLM-4.1V-9B-Thinking(76.1分)、Keye-VL-8B(76.7分)在內的所有同級別開源對手。

Ovis2.5-2B:以73.9分的成績,刷新了2B級別模型的SOTA記錄,甚至超過了許多體量遠大于它的模型,展現出極高的效率。
在這里插入圖片描述

Reference

[1] 登頂開源榜首,阿里Ovis2.5深度解讀,多模態模型如何擁有原生視覺與深度思考能力?
[2] 阿里國際Ovis2.5重磅發布:以小博大,刷新開源模型性能新高度
[3] 論文名稱:Ovis2.5 Technical Report
第一作者:阿里 - Ovis Team
論文鏈接:https://arxiv.org/pdf/2508.11737
最新日期:2025年8月15日
github:https://github.com/AIDC-AI/Ovis.git

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/95118.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/95118.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/95118.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

3.3單鏈表專題

順序表這種在標準庫已經實現好了&#xff0c;直接調用 pushback pushfront 這些o(1)表示不額外開辟空間src為value繼續走&#xff0c;下一個不是value&#xff0c;src值給dst空間&#xff0c;dst&#xff0c;dst剛好等于2&#xff0c;就是新數組長度。若從前向后兩個數組元素依…

linux系統學習(15.啟動管理)

目錄 一、運行級別 1.運行級別 2.運行級別命令 (1)runlevel (2)init 運行級別 3.永久修改啟動級別&#xff08;ubantu20.04&#xff09; 二、啟動過程 &#x1f539; 總結 三、啟動引導程序grub配置文件 一、運行級別 1.運行級別 2.運行級別命令 (1)runlevel (2)ini…

檢索優化-混合檢索

混合檢索&#xff08;Hybrid Search&#xff09;是一種結合了 稀疏向量&#xff08;Sparse Vectors&#xff09; 和 密集向量&#xff08;Dense Vectors&#xff09; 優勢的先進搜索技術。旨在同時利用稀疏向量的關鍵詞精確匹配能力和密集向量的語義理解能力&#xff0c;以克服…

Day17(前端:JavaScript基礎階段)

接續上文:Day16(前端:JavaScript基礎階段)_前端題目 csdn-CSDN博客 點關注不迷路喲。你的點贊、收藏&#xff0c;一鍵三連&#xff0c;是我持續更新的動力喲&#xff01;&#xff01;&#xff01; 主頁:一位搞嵌入式的 genius-CSDN博客 系列文章專欄: https://blog.csdn.ne…

OpenCV 輪廓分析實戰:從檢測到形狀匹配的完整指南

輪廓&#xff08;Contour&#xff09;是圖像中連續且具有相同灰度值的像素集合&#xff0c;是描述目標形狀、位置和結構的核心特征。在計算機視覺中&#xff0c;輪廓分析廣泛應用于目標定位、形狀識別、尺寸測量等場景&#xff08;如工業零件檢測、手寫數字識別&#xff09;。本…

2025最新uni-app橫屏適配方案:微信小程序全平臺兼容實戰

以下為uni-app實現微信小程序橫屏適配技術方案&#xff0c;包含核心原理、配置方法、代碼示例和注意事項&#xff1a;一、橫屏適配原理 微信小程序默認采用豎屏模式&#xff0c;橫屏適配需通過以下機制實現&#xff1a; 全局配置&#xff1a;在app.json中聲明支持橫屏頁面級配置…

深入解析Nginx常見模塊1

在Web服務器和反向代理服務器領域,Nginx憑借其高性能、穩定性和豐富的功能獲得了廣泛的應用。本文將介紹一些Nginx中常見的模塊,幫助你更好地理解和使用它們。 Nginx模塊簡介 Nginx的模塊系統是其強大功能的核心所在,它允許用戶根據需要靈活配置服務器的行為。Nginx的模塊大…

淺談new與::operator new

目錄 前言 1.為什么C要引入new/delete&#xff1f; 2.operator new與operator delete函數 它們的實際作用 Placement New&#xff08;定位new表達式&#xff09; 總結 前言 在寫上一篇博客“vector的模擬實現”時&#xff0c;我一直很好奇vector的private成員為什么要用三個封…

Java中Integer轉String

在 Java 中&#xff0c;將 Integer 轉換為 String 有多種方法&#xff0c;以下是常見的幾種方式&#xff1a;1. 使用 Integer.toString() 方法javaInteger num 123; String str Integer.toString(num); // 直接調用 Integer 的靜態方法2. 使用 String.valueOf()javaInteger n…

智能裝備如何與軟件結合?

一、什么是智能裝備&#xff1f; 智能裝備是具備“感知-決策-執行-自適應”閉環能力的智能化系統&#xff0c;本質是“傳統物理裝備”與“數字智能”的深度融合。它不僅能完成預設動作&#xff08;如傳統機械臂焊接&#xff09;&#xff0c;還能通過傳感器“觀察”環境、用算法…

react性能優化有哪些

React 性能優化的手段比較多&#xff0c;既有代碼層面的&#xff0c;也有構建層面的&#xff0c;還涉及到運行時調優。我幫你系統性梳理一份&#xff1a;&#x1f539; 一、渲染性能優化1. 減少不必要的渲染React.memo&#xff1a;對函數組件做淺比較&#xff0c;避免相同 prop…

騰訊云OpenCloudOS 9系統部署OpenTenBase數據庫詳細教程

OpenTenBase簡介OpenTenBase是一個關系型數據庫集群平臺&#xff0c;提供寫入可靠性和多節點數據同步功能。可以在一臺或多臺主機上配置OpenTenBase&#xff0c;并將數據存儲在多個物理主機上。OpenTenBase架構組件&#xff1a;Coordinator Node (CN)&#xff1a;應用程序訪問入…

【計算機視覺】Pixel逐像素分類Mask掩碼分類理解摘要

目標檢測和實例分割是計算機視覺的基本任務。目標檢測的傳統方法中通常利用邊界框技術進行對象定位&#xff0c;然后利用逐像素分類為這些本地化實例分配類。但是當處理同一類的重疊對象時&#xff0c;或者在每個圖像的對象數量不同的情況下&#xff0c;這些方法通常會出現問題…

C++之stack類的代碼及其邏輯詳解

1. stack介紹及使用方法stack是一種后進先出的數據結構&#xff0c;所以在C的STL庫中也同樣遵循了這一點&#xff0c;我們在使用的時候不支持隨機訪問或迭代器遍歷。注意事項調用 top() 或 pop() 前需確保棧非空&#xff0c;否則可能引發未定義行為。stack 沒有 clear() 函數&a…

Spring Cache實現簡化緩存功能開發

一. 介紹Spring Cache 是 Spring 框架提供的緩存抽象層&#xff0c;它簡化了在應用中添加緩存功能的開發工作。通過 Spring Cache&#xff0c;開發者無需關注具體緩存實現的細節&#xff0c;只需通過注解就能快速實現方法級別的緩存管理。核心特點1. 與具體緩存實現解耦&#x…

Lombok(簡化Java當中的開發)

Lombok概述 以前的Java項目中,充斥著太多不友好的代碼:POJO的getter/setter/toString/構造方法;打印日志;I/O流的關閉操作等等,這些代碼既沒有技術含量,又影響著代碼的美觀,Lombok應運而生。 LomBok可以通過注解,幫助開發人員消除JAVA中尤其是POJO類中的冗長代碼。 使…

【DeepSeek】公司內網部署離線deepseek+docker+ragflow本地模型實戰

企業內部可能有些數據比較敏感&#xff0c;不能連接互聯網。本次實驗操作是將deepseek完全離線后遷移至內網使用&#xff0c;實驗基于Windows server 2022 datacenter系統安裝deepseek、docker、ragflow。 目錄使用VMware新建WIN2022虛擬機一、安裝DeepSeek模型二.安裝Docker使…

【軟考架構】面向服務的體系結構(SOA)深度解析

面向服務的體系結構&#xff08;SOA&#xff09;深度解析 面向服務的體系結構&#xff08;Service-Oriented Architecture, SOA&#xff09;是一種以服務為核心的軟件架構范式&#xff0c;通過標準化接口實現異構系統間的高效集成與協作。以下從概念定義、發展脈絡、技術演進、…

centos7中MySQL 5.7.32 到 5.7.44 升級指南:基于官方二進制包的原地替換式升級

目錄前言1. 升級概述1.1 升級背景1.2 升級目的1.3 升級方法概述1.4 升級策略與注意事項2. 升級準備2.1 備份工作2.2 下載目標版本2.3 停止 MySQL 服務3. 替換二進制文件3.1 解壓官方二進制包3.2 替換核心二進制文件3.3 更新共享庫4. 執行升級并驗證4.1 啟動 MySQL 服務4.2 監控…

數學七夕花禮(MATLAB版)

前言參考的視頻在抖音&#xff0c;電腦版的抖音一直登錄不了&#xff0c;用手機分享的鏈接如下所示。4.35 Iv.FH yTl:/ 04/04 復制打開抖音&#x1f440;數學送的七夕花禮&#xff0c;記得查收噢.# 七夕花禮請查收 ... https://v.douyin.com/H-YpOJCyQyg/rho4sin(8theta)公式&a…