openbmb/MiniCPM-V-2_6 和 AIDC-AI/Ovis2-1B 的網絡結構體對比

openbmb/MiniCPM-V-2_6和Ovis2作為多模態大模型,在架構設計上既有共性也有顯著差異。以下從核心模塊、技術實現和任務適配三個維度展開對比分析:

一、核心模塊架構對比

1. 視覺編碼器
  • MiniCPM-V-2_6

    • 架構:基于SigLIP-400M輕量級視覺模型,采用ViT架構。
    • 處理流程
      • 輸入圖像分割為14×14的patch,通過卷積層提取特征。
      • 引入動態視覺tokenizer,支持可變分辨率輸入(最大1.8M像素),單圖像僅生成640個視覺token,比同類模型減少75%。
      • 視覺特征經Resampler模塊壓縮后,與文本嵌入拼接進入LLM。
    • 創新點
      • 全局-局部特征融合:通過多尺度卷積和注意力機制,兼顧圖像全局語義與局部細節。
      • 低秩矩陣分解:在視覺特征壓縮階段降低計算復雜度,提升端側推理效率。
  • Ovis2

    • 架構:采用標準ViT-Base/16作為視覺編碼器。
    • 處理流程
      • 圖像分割為16×16的patch,生成視覺特征序列。
      • 視覺特征通過動態視覺tokenizer映射到離散視覺單詞(vocabulary size=16384),生成概率化視覺token(每個token為16384維概率分布)。
      • 視覺token與文本token嵌入拼接后,輸入LLM。
    • 創新點
      • 結構化嵌入對齊:通過視覺單詞與文本單詞的語義對齊,解決模態間嵌入差異問題。
      • 概率化視覺token:允許視覺特征以軟對齊方式參與LLM推理,提升魯棒性。
2. 文本編碼器
  • MiniCPM-V-2_6

    • 架構:基于Qwen2-7B語言模型,采用MoE架構(稀疏門控機制)。
    • 參數規模:7B參數,支持長上下文(32768 tokens)。
    • 創新點
      • 動態位置編碼:根據輸入文本長度自適應調整位置嵌入。
      • 混合專家層:通過MoE機制提升模型表達能力,同時保持計算效率。
  • Ovis2

    • 架構:基于Qwen-34B語言模型,采用標準Transformer架構。
    • 參數規模:34B參數,支持超長上下文(16384 tokens)。
    • 創新點
      • 多語言對齊:在嵌入層融合多語言語義空間,支持中、英、德等10種語言。
      • 視覺-語言雙模態注意力:在Transformer層內增加跨模態注意力頭,實現視覺與文本特征的深度交互。
3. 跨模態交互模塊
  • MiniCPM-V-2_6

    • 交互方式:早期融合(Early Fusion)。
      • 視覺特征經Resampler壓縮為3584維向量,與文本嵌入(3584維)拼接后輸入LLM。
      • LLM內部通過標準自注意力機制處理多模態特征。
    • 優勢
      • 計算效率高:視覺特征壓縮減少了輸入維度,降低計算負載。
      • 端側適配:輕量化設計(8B總參數)支持手機端實時推理。
  • Ovis2

    • 交互方式:晚期融合(Late Fusion)。
      • 視覺token與文本token嵌入在輸入階段拼接,輸入LLM。
      • LLM內部通過交叉注意力機制(Cross-Attention)實現模態交互,每個Transformer層包含視覺-文本和文本-視覺雙向注意力。
    • 優勢
      • 模態解耦:視覺與文本特征在LLM內部深度交互,提升復雜推理能力。
      • 靈活性:支持多模態指令微調,適應多樣化任務需求。

二、技術實現對比

1. 視覺處理
維度MiniCPM-V-2_6Ovis2
圖像分辨率支持1344×1344(1.8M像素)支持1024×1024
視覺token數量640 tokens(固定)768 tokens(可動態調整)
特征壓縮方式低秩矩陣分解(Resampler)離散視覺單詞映射(概率化token)
視頻處理支持關鍵幀選擇(采樣12幀)支持全視頻輸入(處理128幀)
2. 文本處理
維度MiniCPM-V-2_6Ovis2
語言支持中、英、德、法等6種語言中、英、德、法、日、韓等10種語言
上下文長度32768 tokens16384 tokens
推理速度(端側)18 tokens/s(8B模型,INT4量化)8 tokens/s(34B模型,FP16)
3. 訓練策略
  • MiniCPM-V-2_6
    • 四階段訓練
      1. 視覺編碼器預訓練:基于10億級圖文對數據。
      2. 跨模態對齊訓練:使用RLAIF-V數據集優化多模態交互。
      3. 指令微調:針對單圖像、多圖像、視頻任務進行優化。
      4. 幻覺抑制:通過Object-HAL數據集降低虛假內容生成。
  • Ovis2
    • 四階段訓練
      1. 視覺模塊凍結訓練:固定LLM參數,優化視覺tokenizer。
      2. 多模態對齊訓練:使用1.2億級圖文對數據。
      3. 視頻理解訓練:引入動態視覺-語言對齊機制。
      4. 數學推理增強:通過CodeAlpaca等數學數據集提升CoT能力。

三、任務適配與性能對比

任務類型MiniCPM-V-2_6優勢場景Ovis2優勢場景
單圖像理解高分辨率圖像OCR(準確率92.3%)復雜圖像推理(如數學公式解析)
多圖像理解多圖像對比分析(Mantis-Eval榜單第一)多圖像故事生成(Blink榜單第一)
視頻理解實時視頻字幕生成(18 FPS)長視頻內容摘要(30分鐘視頻處理)
數學推理基礎數學問題(MathVerse榜單82.5%)微積分、幾何證明(MathVerse榜單91.2%)
端側部署手機端實時推理(6GB內存)服務器端復雜任務(32GB顯存)

四、總結

維度MiniCPM-V-2_6Ovis2
核心定位端側多模態大模型(8B參數)全場景多模態大模型(34B參數)
技術亮點低秩特征壓縮、動態視覺tokenizer概率化視覺token、跨模態交叉注意力
適用場景移動端實時交互(如智能客服、內容審核)復雜推理任務(如教育、科研)
性能指標OpenCompass平均分65.2(8B模型)OpenCompass平均分72.1(34B模型)
生態支持支持Hugging Face、OpenVINO支持Hugging Face、DeepSpeed

兩者在架構設計上的差異反映了不同的技術路線:MiniCPM-V-2_6通過輕量化設計和端側優化,在邊緣設備上實現了接近GPT-4V的性能;而Ovis2則通過深度跨模態交互和大規模參數,在復雜推理任務中表現出更強的能力。開發者可根據具體應用場景(端側/云端、實時性/準確性)選擇合適的模型。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/76438.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/76438.shtml
英文地址,請注明出處:http://en.pswp.cn/web/76438.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

鴻蒙學習筆記(5)-HTTP請求數據

一、Http請求數據 http模塊是鴻蒙內置的一個模塊,提供了網絡請求的能力。不需要再寫比較原始的AJAS代碼。 ps:在項目中如果要訪問網絡資源,不管是圖片文件還是網絡請求,必須給項目開放權限。 (1)網絡連接方式 HTTP數…

使用Redis5.X部署一個集群

文章目錄 1.用Redis5.x來創建Cluste2. 查看節點信息 nodes3. 添加節點 add-node4.刪除節點 del-node5.手動指定從節點 replicate6.檢查集群健康狀態 check 建議使用5.x版本。 首先,下載Redis,根據自己的環境選擇版本。 一鍵啟動Redis集群文件配置。 ech…

實現窗口函數

java 實現窗口函數 public class SlidingWin {public static void main(String[] args) {SlidingWin slidingWin = new SlidingWin();double v = slidingWin.SlidWin(2);System.out.println(v);}public double SlidWin(int k){int [] array =new int[]{2,4,5,6,9,10,12,23,1,…

Docker Compose 命令實現動態構建和部署

Docker Compose 命令實現動態構建和部署 一、編寫支持動態版本號的 docker-compose.yml version: 3.8services:myapp:build: context: . # Dockerfile所在目錄args:APP_VERSION: ${TAG:-latest} # 從環境變量獲取版本號,默認latestimage: myapp:${TAG:-latest} …

AI時代下 你需要和想要了解的英文縮寫含義

在AI智能時代下,越來愈多的企業都開始重視并應用以及開發AI相關產品,這個時候都會或多或少的涉及到英文,英文還好,但是如果是縮寫,如果我們沒有提前了解過,我們往往很難以快速Get到對方的意思。在這里&…

聊聊Doris的數據模型,如何用結構化設計解決實時分析難題

傳統 OLAP 系統的局限 在大數據實時分析領域,數據模型設計直接決定了系統的查詢性能、存儲效率與業務適配性。Apache Doris作為新一代MPP分析型數據庫,通過獨創的多模型融合架構,在業內率先實現了"一份數據支持多種分析范式"的能力…

基于vue框架的點餐系統設計及實現w93q6(程序+源碼+數據庫+調試部署+開發環境)帶論文文檔1萬字以上,文末可獲取,系統界面在最后面。

系統程序文件列表 項目功能:用戶,菜品分類,菜品信息,配送員,訂單信息,配送進度,評價記錄 開題報告內容 基于 Vue 框架的點餐系統設計及實現開題報告 一、研究背景與意義 (一)研究背景 在當今快節奏的生活中,網上訂餐已成為人…

LeetCode 2563.統計公平數對的數目:排序 + 二分查找

【LetMeFly】2563.統計公平數對的數目:排序 二分查找 力扣題目鏈接:https://leetcode.cn/problems/count-the-number-of-fair-pairs/ 給你一個下標從 0 開始、長度為 n 的整數數組 nums ,和兩個整數 lower 和 upper ,返回 公平…

CF1016賽后總結

文章目錄 前言T1:Ideal GeneratorT2:Expensive NumberT3:Simple RepetitionT4:Skibidi TableT5:Min Max MEXT6:Hackers and Neural NetworksT7:Shorten the Array 前言 由于最近在半期考試,更新稍微晚了一點,還望大家見諒 &#…

HFSS3(limy)——建模學習記錄

前言——筆者使用的是21版HFSS 1.基本模型 為什么沒有環形的天線 2.創建基本模型方法 常用:先粗略建好模型再編輯輸入準確坐標和大小尺寸(這里長方體起始點是左上角下方的點,也就是說要輸入模型起點相對于坐標原點的位置尺寸就可以確定具體…

API網關的作用?企業如何應用API網關?

一、API網關的用處 API網關我的分析中會用到以下三種場景。 1、Open API 企業需要將自身數據、能力等作為開發平臺向外開放,通常會以rest的方式向外提供。最好的例子就是淘寶開放平臺、騰訊公司的QQ開發平臺、微信開放平臺。 Open API開放平臺必然涉及到客戶應用…

國網B接口協議圖像數據上報通知接口流程詳解以及上報失敗原因(電網B接口)

文章目錄 一、B接口協議圖像數據上報通知接口介紹B.13.1 接口描述B.13.2 接口流程B.13.3 接口參數B.13.3.1 SIP頭字段B.13.3.2 SIP響應碼B.13.3.3 XML Schema參數定義 B.13.4 消息示例B.13.4.1 圖像數據上報請求B.13.4.2 圖像數據上報響應 二、B接口圖像數據上報通知失敗常見問…

springAi---智能客服

首先被取代的是客服類,智能客服機器人都能夠高效地完成任務。 spring Ai 大模型應用相關開發demo,智能客服系統; 在需求分析階段,把功能屬于傳統Java處理的和ai的功能進行分離 梳理為流程圖如下: 在大模型中&#…

Java面試(2025)——基礎

Java語言有哪些特點? Java語言具有多個顯著特點,使其在編程領域廣受歡迎。首先,Java的跨平臺性非常強,通過Java虛擬機(JVM)實現“編寫一次,隨處運行”,使得開發者能夠在不同操作系統…

Linux壓縮與解壓命令完全指南:tar.gz、zip等格式詳解

Linux壓縮與解壓命令完全指南:tar.gz、zip等格式詳解 在Linux系統中,文件壓縮和解壓是日常操作中不可或缺的一部分。本文將全面介紹Linux下常用的壓縮和解壓命令,包括tar.gz、tar、zip等格式的區別和使用方法,幫助你高效管理文件…

C++ STL 環形隊列模擬實現

C STL 環形隊列模擬實現 下面是一個使用C STL實現的環形隊列&#xff08;Circular Queue&#xff09;的完整示例&#xff1a; #include <iostream> #include <vector> #include <stdexcept>template <typename T> class CircularQueue { private:std…

部署rocketmq集群

容器化部署RocketMQ5.3.1集群 背景: 生產環境單機的MQ不具有高可用,所以我們應該部署成集群模式,這里給大家部署一個雙主雙從異步復制的Broker集群 一、安裝docker yum install -y docker systemctl enable docker --now # 單機部署參考: https://www.cnblogs.com/hsyw/p/1…

mysql的函數(第一期)

一、字符串函數?? 處理文本數據&#xff0c;常用函數&#xff1a; ??CONCAT(str1, str2, ...)?? ??作用??&#xff1a;拼接字符串。??示例??&#xff1a;SELECT CONCAT(Hello, , World); → Hello World??注意??&#xff1a;若任一參數為 NULL&#xff0c;…

Linux下的網絡管理

注意&#xff1a;本文使用的Linux系統版本為Red Hat Enterprise Linux 9 (RHEL 9)。 在RHEL9上&#xff0c;使用NM&#xff08;NetworkManager&#xff09;進行網絡配置&#xff0c;ifcfg &#xff08;也稱為 文件&#xff09;將不再是網絡配置文件的主存儲。雖然 ifcfg 樣式仍…

游戲引擎學習第233天

原地歸并排序地方很蒙圈 game_render_group.cpp&#xff1a;注意當前的SortEntries函數是O(n^2)&#xff0c;并引入一個提前退出的條件 其實我們不太討論這些話題&#xff0c;因為我并沒有深入研究過計算機科學&#xff0c;所以我也沒有太多內容可以分享。但希望在過去幾天里…