【MLLM】多模態理解Ovis2.5模型和訓練流程(更新中)

note

  • 模型架構:延續 Ovis 系列創新的結構化嵌入對齊設計。
    Ovis2.5 由三大組件構成:動態分辨率 ViT 高效提取視覺特征,Ovis 視覺詞表模塊實現視覺與文本嵌入的結構對齊,最后由強大的 Qwen3 作為語言基座,處理多模態嵌入并生成文本輸出。
  • 訓練策略:采用更精細的五階段訓練范式,從基礎的視覺預訓練、多模態預訓練、大規模指令微調,到利用DPO和GRPO等算法進行偏好對齊和推理能力強化,循序漸進構建模型能力。同時,通過多模態數據打包和混合并行等優化,實現了3-4倍的端到端訓練加速。
  • 數據工程:Ovis2.5的數據規模相比Ovis2增加了50%,重點聚焦視覺推理、圖表、OCR、Grounding等關鍵方向。尤其是合成了大量與Qwen3深度適配的“思考(thinking)”數據,有效激發了模型的反思與推理潛能。

文章目錄

  • note
  • 一、多模態理解Ovis2.5模型
    • 1. 原生分辨率感知:看得清,看得全
    • 2. 深度推理能力:引入可選的“思考模式”
    • 3. SOTA性能表現:登頂開源模型榜單
    • 4. 高效訓練架構:速度與規模兼得
  • 二、模型架構
  • 三、模型訓練
    • 第一階段:VET預訓練 (視覺基礎啟蒙)
    • 第二階段:多模態預訓練 (圖文對話入門)
    • 第三階段:多模態指令微調 (能力全面拓展)
    • 第四階段:多模態 DPO (與人類對齊)
    • 第五階段:多模態強化學習 (推理能力沖刺)
  • 四、模型評測
  • Reference

一、多模態理解Ovis2.5模型

論文名稱:Ovis2.5 Technical Report
第一作者:阿里 - Ovis Team
論文鏈接:https://arxiv.org/pdf/2508.11737
最新日期:2025年8月15日
github:https://github.com/AIDC-AI/Ovis.git
在這里插入圖片描述

主流模型痛點:一是“視力不佳”,在處理復雜圖表或高清大圖時,往往需要把圖片切成小塊,像通過一根吸管看世界,丟失了全局信息;二是“思維線性”,習慣于一步到位的“思維鏈”(Chain-of-Thought),缺乏自我反思和糾錯的能力,遇到復雜問題容易“一條道走到黑”。

1. 原生分辨率感知:看得清,看得全

Ovis2.5最大的革新之一,就是整合了原生分辨率視覺變換器(NaViT)。這意味著它不再需要將圖片“大卸八塊”,而是可以直接處理任意原始尺寸和長寬比的圖像。這就像從一個定焦鏡頭升級到了一個能自由變焦、擁有超廣角的全能相機,無論是精細的圖表數據點還是復雜的全局頁面布局,都能一覽無余。

2. 深度推理能力:引入可選的“思考模式”

為了突破線性思維的局限,Ovis2.5在訓練中引入了一種特殊的“反思式”數據,教會模型在回答前進行自我檢查和修正。這個能力在推理時以一個可選的“思考模式”(Thinking Mode)開放給用戶。對于簡單問題,可以關閉它追求速度;對于復雜難題,可以開啟它,讓模型“多想一會兒”,以延遲換取更高的準確率。

3. SOTA性能表現:登頂開源模型榜單

Ovis2.5-9B在權威的OpenCompass多模態綜合排行榜上,以78.3分的平均成績,登頂40B參數規模以下的開源模型榜首。更令人印象深刻的是,其2B版本也取得了73.9的高分,在同量級模型中一騎絕塵,完美詮釋了“小模型,大性能”的理念。

4. 高效訓練架構:速度與規模兼得

如此強大的模型背后,是一套高效的訓練基礎設施。通過多模態數據打包和混合并行等優化技術,Ovis2.5的端到端訓練速度提升了3到4倍,為模型快速迭代和擴展提供了堅實的基礎。

二、模型架構

在這里插入圖片描述

模型架構:延續 Ovis 系列創新的結構化嵌入對齊設計。
Ovis2.5 由三大組件構成:動態分辨率 ViT 高效提取視覺特征,Ovis 視覺詞表模塊實現視覺與文本嵌入的結構對齊,最后由強大的 Qwen3 作為語言基座,處理多模態嵌入并生成文本輸出。

訓練策略:采用更精細的五階段訓練范式,從基礎的視覺預訓練、多模態預訓練、大規模指令微調,到利用DPO和GRPO等算法進行偏好對齊和推理能力強化,循序漸進構建模型能力。同時,通過多模態數據打包和混合并行等優化,實現了3-4倍的端到端訓練加速。

數據工程:Ovis2.5的數據規模相比Ovis2增加了50%,重點聚焦視覺推理、圖表、OCR、Grounding等關鍵方向。尤其是合成了大量與Qwen3深度適配的“思考(thinking)”數據,有效激發了模型的反思與推理潛能。

三、模型訓練

訓練數據示例:

問題:[一個復雜的數學問題]
回答:
<think>
好的,我們來分析這個問題。首先,我需要識別出所有的已知條件...
第一步,我嘗試用公式A來計算,得到結果X。
等一下,我檢查一下這個結果。似乎公式A在這里的應用前提不滿足,這會導致錯誤。
我應該換個思路,使用公式B。
好的,用公式B重新計算第一步... 這樣就合理了。
接下來進行第二步...
</think>
[最終的、經過修正的解題步驟和答案]

第一階段:VET預訓練 (視覺基礎啟蒙)

? 目標:教會模型最基礎的“看圖識物”,即訓練好VET這個“視覺詞典”。

? 方法:使用海量“圖像-標題”數據對。為保證學習穩定,此階段會凍結視覺編碼器的大部分參數,只微調最后幾層和VET。分辨率較低,且暫時關閉。

第二階段:多模態預訓練 (圖文對話入門)

? 目標:打通視覺和語言的連接,讓模型具備基礎的對話和理解能力。

? 方法:開放所有模塊的參數進行全量訓練,并引入OCR、定位等更多樣的任務。關鍵是,大幅提升了支持的圖像分辨率,并全面啟用了,為處理復雜視覺任務打下基礎。

第三階段:多模態指令微調 (能力全面拓展)

? 目標:讓模型學會聽懂并執行各種復雜的指令,并掌握深度推理能力。

? 方法:在這一階段,訓練數據變得極其豐富,包括單圖、多圖、視頻、純文本等多種模態。最重要的是,正式引入了帶有<think>...</think>標簽的反思式推理數據,開始培養模型的“思考模式”。

第四階段:多模態 DPO (與人類對齊)

? 目標:讓模型的輸出更符合人類的偏好和價值觀。

? 方法:采用當前主流的直接偏好優化(Direct Preference Optimization, DPO)技術。通過學習人類對不同回答的偏好數據(哪個回答更好,哪個更差),對模型進行微調,使其言行舉止更像一個可靠的助手。

第五階段:多模態強化學習 (推理能力沖刺)

? 目標:在已對齊的基礎上,進一步拔高模型的邏輯推理上限。

? 方法:使用組相對策略優化(Group Relative Policy Optimization, GRPO),在大量可驗證答案的推理任務(如數學題)上進行強化學習。此階段會凍結視覺模塊,將全部優化資源集中在LLM的“大腦”上,進行最后的推理能力沖刺。

四、模型評測

OpenCompass是一個綜合性的多模態能力評測套件,涵蓋了從常識問答、幻覺評估到專業學科推理的8個主流基準。? Ovis2.5-9B:取得了78.3分的驚人成績,不僅遠超其前代Ovis2-8B(71.8分),也超過了包括GLM-4.1V-9B-Thinking(76.1分)、Keye-VL-8B(76.7分)在內的所有同級別開源對手。

Ovis2.5-2B:以73.9分的成績,刷新了2B級別模型的SOTA記錄,甚至超過了許多體量遠大于它的模型,展現出極高的效率。
在這里插入圖片描述

Reference

[1] 登頂開源榜首,阿里Ovis2.5深度解讀,多模態模型如何擁有原生視覺與深度思考能力?
[2] 阿里國際Ovis2.5重磅發布:以小博大,刷新開源模型性能新高度
[3] 論文名稱:Ovis2.5 Technical Report
第一作者:阿里 - Ovis Team
論文鏈接:https://arxiv.org/pdf/2508.11737
最新日期:2025年8月15日
github:https://github.com/AIDC-AI/Ovis.git

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/94948.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/94948.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/94948.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

mysql中的通用語法及分類

MySQL 是一種廣泛使用的關系型數據庫管理系統&#xff08;RDBMS&#xff09;&#xff0c;其語法設計遵循 SQL 標準&#xff0c;但也有一些特有的擴展。以下從??通用語法規范??和??SQL 語句分類??兩個維度系統梳理 MySQL 的核心語法體系。一、MySQL 通用語法規范通用語法…

Linux-搭建NFS服務器

Linux-搭建NFS服務器前言一、網絡配置二、在nfs服務器上安裝nfs-utils軟件包三、設置共享目錄四、掛載NFS共享目錄前言 NFS&#xff08;Network File System&#xff0c;網絡文件系統&#xff09; 是一種分布式文件系統協議&#xff0c;最初由 Sun Microsystems 于 1984 年開發…

eslasticsearch+ik分詞器+kibana

eslasticsearch 下載地址:https://www.elastic.co/cn/downloads/past-releases ik分詞器 下載地址&#xff1a;https://release.infinilabs.com/analysis-ik/stable/ kibana 下載地址&#xff1a;https://www.elastic.co/cn/downloads/kibana 1、解壓安裝包 將下載的 zi…

SOME/IP-SD IPv4組播的通信參數由誰指定?

<摘要> 在AUTOSAR SOME/IP-SD協議中&#xff0c;組播通信參數&#xff08;地址、協議、端口&#xff09;的協商機制。其核心在于明確規定了組播流的發布者和接收者之間由誰來“指定”通信路徑&#xff0c;從而確保雙方能夠成功會合&#xff0c;實現高效的一對多事件分發。…

新手首次操作SEO核心要點

內容概要 初次接觸SEO的新手朋友們&#xff0c;面對浩瀚的網絡優化知識&#xff0c;難免感到無從下手。這份2025年的零基礎入門指南&#xff0c;正是為你們量身打造。它清晰地規劃了學習路徑&#xff0c;從最基礎的網站搭建注意事項開始&#xff0c;幫助你避開常見陷阱&#xf…

AI、人工智能基礎: 模型剪枝的概念與實踐(PyTorch版)

胡說八道: 各位觀眾老爺&#xff0c;大家好&#xff0c;我是詩人啊_&#xff0c;今天和各位分享模型剪枝的相關知識和操作&#xff0c;一文速通&#xff5e; &#xff08;屏幕前的你&#xff0c;帥氣低調有內涵&#xff0c;美麗大方很優雅… 所以&#xff0c;求個點贊、收藏、關…

Kubernetes 服務發現與健康檢查詳解

Kubernetes 提供了多種機制來管理服務發現、負載均衡和容器健康狀態監控。本文將圍繞以下幾個方面展開&#xff1a;Service 類型&#xff1a;ClusterIP、NodePort、Headless Service、LoadBalancer&#xff08;MetallB&#xff09;Ingress 的實現原理健康檢查探針&#xff1a;L…

如何規劃一年、三年、五年的IP發展路線圖?

?在知識付費領域&#xff0c;規劃 IP 發展路線&#xff0c;需要從短期、中期、長期不同階段&#xff0c;系統地布局內容、運營與商業變現&#xff0c;逐步提升 IP 影響力與商業價值。一年目標&#xff1a;立足定位&#xff0c;夯實基礎精準定位&#xff0c;打磨內容利用創客匠…

C++從入門到實戰(二十)詳細講解C++List的使用及模擬實現

C從入門到實戰&#xff08;二十&#xff09;C List的使用及模擬實現前言一、什么是List1.1 List的核心特性1.2 List與vector的核心差異1.3 List的構造、拷貝構造與析構1.3.1 常用構造函數1.3.2 析構函數1.4 List的迭代器1.4.1 迭代器類型與用法示例1&#xff1a;正向迭代器遍歷…

人工智能學習:機器學習相關面試題(一)

1、 機器學習中特征的理解 def: 特征選擇和降維 特征選擇&#xff1a;原有特征選擇出子集 &#xff0c;不改變原來的特征空間 降維&#xff1a;將原有的特征重組成為包含信息更多的特征&#xff0c; 改變了原有的特征空間降維的主要方法 Principal Component Analysis (主成…

亞馬遜巴西戰略升級:物流網絡重構背后的生態革新與技術賦能之路

在全球電商版圖中&#xff0c;拉美市場正以驚人的增長速度成為新的戰略高地&#xff0c;而巴西作為其中的核心市場&#xff0c;憑借龐大的人口基數、高速發展的數字經濟以及不斷提升的消費能力&#xff0c;吸引著眾多電商巨頭爭相布局。近日&#xff0c;亞馬遜宣布將于2025年底…

PS自由變換

自由變換 自由變換用來對圖層、選區、路徑或像素內容進行靈活的像素調整。可以進行縮放、旋轉、扭曲等多種操作。快捷鍵&#xff1a;CtrlT&#xff0c;操作完成后使用Enter鍵可以確認變換自由變換過程中如果出現失誤&#xff0c;可以按ESC退出&#xff1b;滿意可以按enter確定。…

【K8s】整體認識K8s之存儲--volume

為什么要用volume&#xff1f;首先。容器崩潰或重啟時&#xff0c;所有的數據都會丟失&#xff0c;我們可以把數據保存到容器的外部&#xff0c;比如硬盤nfs&#xff0c;這樣&#xff0c;即使容器沒了&#xff0c;數據還在&#xff1b;第二就是容器之間是隔離的。我們如果想共享…

flutter工程

安裝flutter 在VSCode中安裝flutter extension、flutter組件 國內源下載flutter 3.35.2的SDK&#xff0c;安裝&#xff0c;官網下載不了 將flutter安裝目錄加入環境變量中 D:\program\flutter_sdk\flutter\bin 執行 C:\Windows\System32>flutter --version Flutter 3.35.2 ?…

C/C++ 高階數據結構 —— 二叉搜索樹(二叉排序樹)

? &#x1f381;個人主頁&#xff1a;工藤新一 ? &#x1f50d;系列專欄&#xff1a;C面向對象&#xff08;類和對象篇&#xff09; ? &#x1f31f;心中的天空之城&#xff0c;終會照亮我前方的路 ? &#x1f389;歡迎大家點贊&#x1f44d;評論&#x1f4dd;收藏?文章…

stm32F4掛載emmc以及重定義printf

1.Cubemx SDIO USART 使用串口輸出調試信息 FATFS Clock Configuration 防止堆棧溢出 2.Keil5 新建自定義文件夾及文件 將文件夾添加進工程 新建.c與.h文件&#xff0c;保存到自定義的文件夾&#xff0c;并添加到工程中 bsp_emmc.c #include "bsp_emmc.h" #include…

基于AI的大模型在S2B2C商城小程序中的應用與定價策略自我評估

摘要&#xff1a;本文聚焦電商行業&#xff0c;結合開源AI大模型與AI智能名片S2B2C商城小程序的技術特性&#xff0c;提出基于行業數據挖掘與自我評估的定價策略。通過分析行業價格分布與銷量占比&#xff0c;結合商品設計、品牌創意度、商品豐富度及內功等評估指標&#xff0c…

中國移動云電腦一體機-創維LB2004_瑞芯微RK3566_2G+32G_開ADB安裝軟件教程

中國移動云電腦一體機-創維LB2004_瑞芯微RK3566_2G32G_開ADB安裝軟件教程簡介&#xff1a;中國移動云電腦一體機-創維LB2004&#xff0c;顯示器是23.8英寸1920x1080分辨率&#xff0c;安卓盒子配置是瑞芯微RK3566-四核-1.8GHz處理器-2G32G&#xff0c;預裝Android11系統。具體操…

普藍自研AutoTrack-4X導航套件平臺適配高校機器人實操應用

在當前高校機器人工程、人工智能、自動化等專業的教學與科研中&#xff0c;師生們常常面臨一個核心痛點&#xff1a;缺乏一套 “開箱即用、可深研、能落地” 的自主移動導航平臺 —— 要么是純仿真環境脫離實際硬件&#xff0c;要么是硬件零散需大量時間搭建&#xff0c;要么是…

2025年工會證考試題庫及答案

一、單選題1.工會法人資格審查登記機關自收到申請登記表之日起(??)日內對有關申請文件進行審查&#xff0c;對審查合格者&#xff0c;辦理登記手續&#xff0c;發放《工會法人資格證書》及其副本和《工會法人法定代表人證書》。A.二十B.十五C.六十D.三十答案:D 解析:第七條基…