【MLLM】多模態理解GLM-4.1V-Thinking模型

note

  • GLM-4.1V-Thinking模型引入 課程采樣強化學習(RLCS, Reinforcement Learning with Curriculum Sampling) 策略,在多個復雜推理任務中實現能力突破,整體性能達到 10B 級別視覺語言模型的領先水平。
  • GLM-4.1V-9B-Thinking 通過引入「思維鏈」(Chain-of-Thought)推理機制,在回答準確性、內容豐富度與可解釋性方面,全面超越傳統的非推理式視覺模型,在28項評測任務中有23項達到10B級別模型最佳,18項任務持平甚至超過8倍參數量的Qwen-2.5-VL-72B
  • 相關能力:視頻理解、圖片識別、GUI Agent(如下)、代碼生成等
    Prompt:在APP中,幫我創建一個兩周后3點與史密斯博士的會議
    輸出:Action: {"action_type": "click", "box_2d": [[27,840,122,885]]}
  • 基于可驗證獎勵的強化學習(RLVR) 和 基于人類反饋的強化學習(RLHF)
  • 在視覺編碼器部分,我們將原始的二維卷積替換為三維卷積,從而實現對視頻輸入在時間維度上的下采樣,有效提升了處理效率。

文章目錄

  • note
  • 一、GLM-4.1V-Thinking模型
  • 二、模型解析
    • 1、模型架構
    • 2、訓練流程
  • Reference

一、GLM-4.1V-Thinking模型

論文鏈接:GLM-4.1V-Thinking: Towards Versatile Multimodal Reasoning with Scalable Reinforcement Learning
https://arxiv.org/abs/2507.01006

開源列表:Github:
https://github.com/THUDM/GLM-4.1V-Thinking

ModelScope:
https://modelscope.cn/collections/GLM-41V-35d24b6def9f49

Hugging Face:
https://huggingface.co/collections/THUDM/glm-41v-thinking-6862bbfc44593a8601c2578dHuggingFace

體驗鏈接:
https://huggingface.co/spaces/THUDM/GLM-4.1V-9B-Thinking-Demo

魔搭社區體驗鏈接:
https://modelscope.cn/studios/ZhipuAI/GLM-4.1V-9B-Thinking-DemoAPI:API 接口文檔:
https://www.bigmodel.cn/dev/api/visual-reasoning-model/glm-4.1v-thinking

二、模型解析

1、模型架構

GLM-4.1V-Thinking 模型架構由三個核心模塊組成:視覺編碼器(ViT Encoder)、多層感知機適配器(MLP Projector)以及語言解碼器(Language Decoder)
在這里插入圖片描述

AIMv2-Huge 作為視覺編碼器,GLM 作為語言解碼器。在視覺編碼器部分,我們將原始的二維卷積替換為三維卷積,從而實現對視頻輸入在時間維度上的下采樣,有效提升了處理效率。對于靜態圖像輸入,則通過復制幀的方式以保持輸入格式的一致性。

為進一步增強模型對任意圖像分辨率和寬高比的適應能力,我們引入了兩項關鍵改進:

  • 其一,融合二維旋轉位置編碼(2D-RoPE),使模型能夠穩定處理極端寬高比(如超過200:1)和超高分辨率(如4K以上)的圖像;
  • 其二,為保留ViT預訓練模型的原有能力,我們保留了其可學習的絕對位置嵌入,并通過雙三次插值方式在訓練過程中動態適配不同分辨率輸入。

在語言解碼器中,我們對原始的旋轉位置編碼(RoPE)進行了三維擴展(3D-RoPE)。這一設計顯著增強了模型在多模態輸入處理中的空間理解能力,同時保持了其在文本生成方面的原始性能。

2、訓練流程

GLM-4.1V-Thinking 的訓練過程分為三個階段:預訓練(Pretraining)、監督微調(SFT) 和 強化學習(RL)。

(1)預訓練階段預訓練分為兩個連續子階段:多模態預訓練與長上下文持續訓練。

  • 多模態預訓練:初始階段旨在構建模型的通用多模態理解能力。我們使用兩路張量并行策略,對所有參數進行了 120,000 步訓練,序列長度為 8,192,全局批量大小為 1,536。訓練數據涵蓋圖像字幕、交錯圖文、OCR、Grounding、指令響應等多種模態。為提高訓練效率,我們采用樣本拼接的數據打包策略,將可變長度樣本壓縮成接近最大長度的序列,充分利用顯存資源。

  • 長上下文持續訓練:為增強模型對高分辨率圖像、視頻序列及超長文本的處理能力,我們引入了更復雜的訓練數據,包括視頻幀序列和長度超過 8K tokens 的圖文混合內容。該階段將序列長度擴展至 32,768,采用混合并行策略(2路張量并行 + 4路上下文并行),并繼續訓練 10,000 步,保持全局批量大小為 1,536。

(2)監督微調(SFT)在微調階段,我們特別構建了一個高質量的 CoT(思維鏈)訓練集,用于強化模型的長篇因果推理能力。訓練樣本統一采用以下格式:

<think> {推理過程} </think> <answer> {最終答案} </answer>

微調使用全參數訓練,序列長度為 32,768,批量大小為 32。訓練語料來自多個任務場景,包括數學題解、多輪對話、代理規劃與復雜指令跟隨,涵蓋圖文、多模態及純文本等不同類型。這一階段不僅提高了多模態推理能力,也保持了模型在語言理解與邏輯推演方面的穩定表現。

(3)課程采樣強化學習(RLCS)
在 SFT 基礎上,我們引入強化學習全面優化模型性能。我們結合兩種方法:基于可驗證獎勵的強化學習(RLVR) 和 基于人類反饋的強化學習(RLHF),覆蓋多個關鍵任務維度:

  • STEM領域問題求解(數學、物理、化學)
  • 多模態信息定位與理解(OCR、實體定位、視頻分析)
  • 智能體任務(GUI交互、代理規劃)
  • 文檔與圖表理解、邏輯推理、復雜指令執行等

通過課程采樣,在這些任務上開展由易而難的動態大規模強化學習訓練,模型在實用性、準確性和穩健性等方面取得了顯著提升。

Reference

[1] GLM-4.1V-Thinking 模型開源

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/914309.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/914309.shtml
英文地址,請注明出處:http://en.pswp.cn/news/914309.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【C++詳解】STL-priority_queue使用與模擬實現,仿函數詳解

文章目錄一、priority_queue使用仿函數控制優先級sort算法里的仿函數二、手撕優先級隊列優先級隊列的容器適配器入堆出堆top/size/empty迭代器區間構造初始化(解耦)三、仿函數仿函數控制冒泡排序仿函數控制priority_queue比較邏輯仿函數使用場景仿函數的其他使用場景源碼一、pr…

在mac m1基于ollama運行deepseek r1

1 下載和安裝 在ollama的官網下載mac m1版本的ollama https://ollama.com/ 最終獲得如下所示的下載地址 https://github.com/ollama/ollama/releases/latest/download/Ollama.dmg 然后點擊安裝&#xff0c;然后測試 ollama list 2 運行deepseek r1 deepseek-r1:8b 比較適…

TCP與UDP協議詳解:網絡世界的可靠信使與高速快遞

> 互聯網的骨架由傳輸層協議支撐,而TCP與UDP如同血管中的紅細胞與血小板,各司其職卻又缺一不可 ### 一、初識傳輸層雙雄:網絡通信的基石 想象你要給朋友寄送重要文件: - **TCP** 如同順豐快遞:**簽收確認+物流追蹤**,確保文件完整送達 - **UDP** 如同普通信件:**直接…

Datawhale AI 夏令營【更新中】

Datawhale AI 夏令營【更新中】夏令營簡介大模型技術&#xff08;文本&#xff09;方向&#xff1a;用AI做帶貨視頻評論分析機器學習&#xff08;數據挖掘&#xff09;方向&#xff1a;用AI預測新增用戶夏令營簡介 本次AI夏令營是Datawhale在暑期發起的大規模AI學習活動&#…

AutoDL掛載阿里云OSS

文章目錄前言AutoDL 設置阿里OSS設置OSS配置相關key 相關競猜時間前言 最近&#xff0c;AutoDL提示北京A區網盤功能要下架&#xff0c;然后需要對網盤中數據進行轉移等操作&#xff0c;我想網盤中數據下載到本地&#xff0c;大概16G&#xff1b;直接在網盤那里下載&#xff0c…

java 基本數據類型所對應的包裝類

一,對應列舉Java 中有 8 種基本數據類型&#xff0c;每種基本數據類型都有對應的包裝類&#xff0c;它們分別是&#xff1a;二,包裝類的作用1. 滿足面向對象編程需求Java 是面向對象的編程語言&#xff0c;基本數據類型不是對象&#xff0c;無法使用面向對象的特性&#xff08;…

牛客網50題-10

1.小苯的數字權值#include <iostream> #include <algorithm> using namespace std;const int max_n 2000000; int d[max_n 1]; int f[max_n 1];int main() {for(int i 1; i<max_n;i){for(int j i; j<max_n;ji){d[j];}}for(int i1; i<max_n;i){f[i] d…

基于springboot的大學公文收發管理系統

博主介紹&#xff1a;java高級開發&#xff0c;從事互聯網行業多年&#xff0c;熟悉各種主流語言&#xff0c;精通java、python、php、爬蟲、web開發&#xff0c;已經做了多年的畢業設計程序開發&#xff0c;開發過上千套畢業設計程序&#xff0c;沒有什么華麗的語言&#xff0…

【機器學習】反向傳播如何求梯度(公式推導)

寫在前面 前期學習深度學習的時候&#xff0c;很多概念都是一筆帶過&#xff0c;只是覺得它在一定程度上解釋得通就行&#xff0c;但是在強化學習的過程中突然意識到&#xff0c;反向傳播求梯度其實并不是一件簡單的事情&#xff0c;這篇博客的目的就是要講清楚反向傳播是如何對…

ALB、NLB、CLB 負載均衡深度剖析

ALB、NLB、CLB 負載均衡深度剖析 前言 筆者在上周的實際工作中遇到了一個典型的負載均衡選擇問題&#xff1a;在使用代理調用相關模型時&#xff0c;最初配置 Nginx 的代理地址為 ALB 的 7 層虛擬 IP&#xff08;VIP&#xff09;&#xff0c;但由于集團網絡默認的超時時間為 3 …

歷史數據分析——云南白藥

醫藥板塊走勢分析: 從月線級別來看 2008年11月到2021年2月,月線上走出了兩個震蕩中樞的月線級別2085-20349的上漲段; 2021年2月到2024年9月,月線上走出了20349-6702的下跌段; 目前月線級別放巨量,總體還在震蕩區間內,后續還有震蕩和上漲的概率。 從周線級別來看 從…

【讀書筆記】《Effective Modern C++》第3章 Moving to Modern C++

《Effective Modern C》第3章 Moving to Modern C 一、區分圓括號 () 與大括號 {} &#xff08;Item?7&#xff09; C11 引入統一初始化&#xff08;brace?initialization&#xff09;&#xff0c;即使用 {} 來初始化對象&#xff0c;與傳統的 () 存在細微差別&#xff1a;避…

Rust基礎-part1

Rust基礎[part1]—安裝和編譯 安裝 ? rust curl --proto https --tlsv1.2 https://sh.rustup.rs -sSf | sh安裝成功 [外鏈圖片轉存中…(img-ClSHJ4Op-1752058241580)] 驗證 ? rust rustc --version zsh: command not found: rustc因為我是用的是zsh&#xff0c;所以zsh配置…

PyQt5布局管理(QGridLayout(網格布局))

QGridLayout&#xff08;網格布局&#xff09; QGridLayout&#xff08;網格布局&#xff09;是將窗口分隔成行和列的網格來進行排列。通常可以使用函數addWidget()將被管理的控件&#xff08;Widget)添加到窗口中&#xff0c;或者使用addLayout() 函數將布局&#xff08;Layou…

Java設計模式之行為型模式(責任鏈模式)介紹與說明

一、核心概念與定義 責任鏈模式是一種行為型設計模式&#xff0c;其核心思想是將請求沿著處理對象鏈傳遞&#xff0c;直到某個對象能夠處理該請求為止。通過這種方式&#xff0c;解耦了請求的發送者與接收者&#xff0c;使多個對象有機會處理同一請求。 關鍵特點&#xff1a; 動…

SQL server之版本的初認知

SQL server之版本的初認知 為什么要編寫此篇文檔呢&#xff0c;主要是因為在最近測試OGG實時同步SQL server數據庫表數據的時候&#xff0c;經過多次測試&#xff0c;發現在安裝了一套SQL server2017初始版本&#xff0c;未安裝任何補丁的時候&#xff0c;在添加TRANDATA的時候…

【前端】jQuery動態加載CSS方法總結

在jQuery 中動態加載 CSS 文件有多種方法&#xff0c;以下是幾種常用實現方式&#xff1a; 方法 1&#xff1a;創建 <link> 標簽&#xff08;推薦&#xff09; // 動態加載外部 CSS 文件 function loadCSS(url) {$(<link>, {rel: stylesheet,type: text/css,href:…

Python爬蟲實戰:研究xlwings庫相關技術

1. 引言 在金融科技快速發展的背景下,數據驅動決策已成為投資領域的核心競爭力。金融市場數據具有海量、多源、實時性強等特點,傳統人工收集與分析方式難以滿足高效決策需求。Python 憑借其豐富的開源庫生態,成為金融數據分析的首選語言。結合 Requests、BeautifulSoup 等爬…

Linux 內核日志中常見錯誤

目錄 **1. `Oops`****含義****典型日志****可能原因****處理建議****2. `panic`****含義****典型日志****可能原因****處理建議****3. `BUG`****含義****典型日志****可能原因****處理建議****4. `kernel NULL pointer`****含義****典型日志****可能原因****處理建議****5. `WA…

Linux驅動開發2:字符設備驅動

Linux驅動開發2&#xff1a;字符設備驅動 字符設備驅動開發流程 字符設備是 Linux 驅動中最基本的一類設備驅動&#xff0c;字符設備就是一個一個字節&#xff0c;按照字節流進行讀寫操作的設備&#xff0c;讀寫數據是分先后順序的。比如最常見的點燈、按鍵、 IIC、 SPI&#x…