【MLLM】多模態理解GLM-4.1V-Thinking模型

note

GLM-4.1V-Thinking模型引入課程采樣強化學習（RLCS, Reinforcement Learning with Curriculum Sampling）策略，在多個復雜推理任務中實現能力突破，整體性能達到 10B 級別視覺語言模型的領先水平。
GLM-4.1V-9B-Thinking 通過引入「思維鏈」（Chain-of-Thought）推理機制，在回答準確性、內容豐富度與可解釋性方面，全面超越傳統的非推理式視覺模型，在28項評測任務中有23項達到10B級別模型最佳，18項任務持平甚至超過8倍參數量的Qwen-2.5-VL-72B
相關能力：視頻理解、圖片識別、GUI Agent（如下）、代碼生成等
Prompt：在APP中，幫我創建一個兩周后3點與史密斯博士的會議
輸出：Action: {"action_type": "click", "box_2d": [[27,840,122,885]]}
基于可驗證獎勵的強化學習（RLVR）和基于人類反饋的強化學習（RLHF）
在視覺編碼器部分，我們將原始的二維卷積替換為三維卷積，從而實現對視頻輸入在時間維度上的下采樣，有效提升了處理效率。

文章目錄

note
一、GLM-4.1V-Thinking模型
二、模型解析
- 1、模型架構
- 2、訓練流程
Reference

一、GLM-4.1V-Thinking模型

論文鏈接：GLM-4.1V-Thinking: Towards Versatile Multimodal Reasoning with Scalable Reinforcement Learning
https://arxiv.org/abs/2507.01006

開源列表：Github：
https://github.com/THUDM/GLM-4.1V-Thinking

ModelScope：
https://modelscope.cn/collections/GLM-41V-35d24b6def9f49

Hugging Face：
https://huggingface.co/collections/THUDM/glm-41v-thinking-6862bbfc44593a8601c2578dHuggingFace

體驗鏈接：
https://huggingface.co/spaces/THUDM/GLM-4.1V-9B-Thinking-Demo

魔搭社區體驗鏈接：
https://modelscope.cn/studios/ZhipuAI/GLM-4.1V-9B-Thinking-DemoAPI：API 接口文檔：
https://www.bigmodel.cn/dev/api/visual-reasoning-model/glm-4.1v-thinking

二、模型解析

1、模型架構

GLM-4.1V-Thinking 模型架構由三個核心模塊組成：視覺編碼器（ViT Encoder）、多層感知機適配器（MLP Projector）以及語言解碼器（Language Decoder）
在這里插入圖片描述

AIMv2-Huge 作為視覺編碼器，GLM 作為語言解碼器。在視覺編碼器部分，我們將原始的二維卷積替換為三維卷積，從而實現對視頻輸入在時間維度上的下采樣，有效提升了處理效率。對于靜態圖像輸入，則通過復制幀的方式以保持輸入格式的一致性。

為進一步增強模型對任意圖像分辨率和寬高比的適應能力，我們引入了兩項關鍵改進：

其一，融合二維旋轉位置編碼（2D-RoPE），使模型能夠穩定處理極端寬高比（如超過200:1）和超高分辨率（如4K以上）的圖像；
其二，為保留ViT預訓練模型的原有能力，我們保留了其可學習的絕對位置嵌入，并通過雙三次插值方式在訓練過程中動態適配不同分辨率輸入。

在語言解碼器中，我們對原始的旋轉位置編碼（RoPE）進行了三維擴展（3D-RoPE）。這一設計顯著增強了模型在多模態輸入處理中的空間理解能力，同時保持了其在文本生成方面的原始性能。

2、訓練流程

GLM-4.1V-Thinking 的訓練過程分為三個階段：預訓練（Pretraining）、監督微調（SFT）和強化學習（RL）。

（1）預訓練階段預訓練分為兩個連續子階段：多模態預訓練與長上下文持續訓練。

多模態預訓練：初始階段旨在構建模型的通用多模態理解能力。我們使用兩路張量并行策略，對所有參數進行了 120,000 步訓練，序列長度為 8,192，全局批量大小為 1,536。訓練數據涵蓋圖像字幕、交錯圖文、OCR、Grounding、指令響應等多種模態。為提高訓練效率，我們采用樣本拼接的數據打包策略，將可變長度樣本壓縮成接近最大長度的序列，充分利用顯存資源。
長上下文持續訓練：為增強模型對高分辨率圖像、視頻序列及超長文本的處理能力，我們引入了更復雜的訓練數據，包括視頻幀序列和長度超過 8K tokens 的圖文混合內容。該階段將序列長度擴展至 32,768，采用混合并行策略（2路張量并行 + 4路上下文并行），并繼續訓練 10,000 步，保持全局批量大小為 1,536。

（2）監督微調（SFT）在微調階段，我們特別構建了一個高質量的 CoT（思維鏈）訓練集，用于強化模型的長篇因果推理能力。訓練樣本統一采用以下格式：

<think> {推理過程} </think> <answer> {最終答案} </answer>

微調使用全參數訓練，序列長度為 32,768，批量大小為 32。訓練語料來自多個任務場景，包括數學題解、多輪對話、代理規劃與復雜指令跟隨，涵蓋圖文、多模態及純文本等不同類型。這一階段不僅提高了多模態推理能力，也保持了模型在語言理解與邏輯推演方面的穩定表現。

（3）課程采樣強化學習（RLCS）
在 SFT 基礎上，我們引入強化學習全面優化模型性能。我們結合兩種方法：基于可驗證獎勵的強化學習（RLVR）和基于人類反饋的強化學習（RLHF），覆蓋多個關鍵任務維度：

STEM領域問題求解（數學、物理、化學）
多模態信息定位與理解（OCR、實體定位、視頻分析）
智能體任務（GUI交互、代理規劃）
文檔與圖表理解、邏輯推理、復雜指令執行等

通過課程采樣，在這些任務上開展由易而難的動態大規模強化學習訓練，模型在實用性、準確性和穩健性等方面取得了顯著提升。

Reference

[1] GLM-4.1V-Thinking 模型開源

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/914309.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/914309.shtml
英文地址，請注明出處：http://en.pswp.cn/news/914309.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！