note
- GLM-4.1V-Thinking模型引入 課程采樣強化學習(RLCS, Reinforcement Learning with Curriculum Sampling) 策略,在多個復雜推理任務中實現能力突破,整體性能達到 10B 級別視覺語言模型的領先水平。
- GLM-4.1V-9B-Thinking 通過引入「思維鏈」(Chain-of-Thought)推理機制,在回答準確性、內容豐富度與可解釋性方面,全面超越傳統的非推理式視覺模型,在28項評測任務中有23項達到10B級別模型最佳,18項任務持平甚至超過8倍參數量的Qwen-2.5-VL-72B
- 相關能力:視頻理解、圖片識別、GUI Agent(如下)、代碼生成等
Prompt:在APP中,幫我創建一個兩周后3點與史密斯博士的會議
輸出:Action: {"action_type": "click", "box_2d": [[27,840,122,885]]}
- 基于可驗證獎勵的強化學習(RLVR) 和 基于人類反饋的強化學習(RLHF)
- 在視覺編碼器部分,我們將原始的二維卷積替換為三維卷積,從而實現對視頻輸入在時間維度上的下采樣,有效提升了處理效率。
文章目錄
- note
- 一、GLM-4.1V-Thinking模型
- 二、模型解析
- 1、模型架構
- 2、訓練流程
- Reference
一、GLM-4.1V-Thinking模型
論文鏈接:GLM-4.1V-Thinking: Towards Versatile Multimodal Reasoning with Scalable Reinforcement Learning
https://arxiv.org/abs/2507.01006
開源列表:Github:
https://github.com/THUDM/GLM-4.1V-Thinking
ModelScope:
https://modelscope.cn/collections/GLM-41V-35d24b6def9f49
Hugging Face:
https://huggingface.co/collections/THUDM/glm-41v-thinking-6862bbfc44593a8601c2578dHuggingFace
體驗鏈接:
https://huggingface.co/spaces/THUDM/GLM-4.1V-9B-Thinking-Demo
魔搭社區體驗鏈接:
https://modelscope.cn/studios/ZhipuAI/GLM-4.1V-9B-Thinking-DemoAPI:API 接口文檔:
https://www.bigmodel.cn/dev/api/visual-reasoning-model/glm-4.1v-thinking
二、模型解析
1、模型架構
GLM-4.1V-Thinking 模型架構由三個核心模塊組成:視覺編碼器(ViT Encoder)、多層感知機適配器(MLP Projector)以及語言解碼器(Language Decoder)
AIMv2-Huge 作為視覺編碼器,GLM 作為語言解碼器。在視覺編碼器部分,我們將原始的二維卷積替換為三維卷積,從而實現對視頻輸入在時間維度上的下采樣,有效提升了處理效率。對于靜態圖像輸入,則通過復制幀的方式以保持輸入格式的一致性。
為進一步增強模型對任意圖像分辨率和寬高比的適應能力,我們引入了兩項關鍵改進:
- 其一,融合二維旋轉位置編碼(2D-RoPE),使模型能夠穩定處理極端寬高比(如超過200:1)和超高分辨率(如4K以上)的圖像;
- 其二,為保留ViT預訓練模型的原有能力,我們保留了其可學習的絕對位置嵌入,并通過雙三次插值方式在訓練過程中動態適配不同分辨率輸入。
在語言解碼器中,我們對原始的旋轉位置編碼(RoPE)進行了三維擴展(3D-RoPE)。這一設計顯著增強了模型在多模態輸入處理中的空間理解能力,同時保持了其在文本生成方面的原始性能。
2、訓練流程
GLM-4.1V-Thinking 的訓練過程分為三個階段:預訓練(Pretraining)、監督微調(SFT) 和 強化學習(RL)。
(1)預訓練階段預訓練分為兩個連續子階段:多模態預訓練與長上下文持續訓練。
-
多模態預訓練:初始階段旨在構建模型的通用多模態理解能力。我們使用兩路張量并行策略,對所有參數進行了 120,000 步訓練,序列長度為 8,192,全局批量大小為 1,536。訓練數據涵蓋圖像字幕、交錯圖文、OCR、Grounding、指令響應等多種模態。為提高訓練效率,我們采用樣本拼接的數據打包策略,將可變長度樣本壓縮成接近最大長度的序列,充分利用顯存資源。
-
長上下文持續訓練:為增強模型對高分辨率圖像、視頻序列及超長文本的處理能力,我們引入了更復雜的訓練數據,包括視頻幀序列和長度超過 8K tokens 的圖文混合內容。該階段將序列長度擴展至 32,768,采用混合并行策略(2路張量并行 + 4路上下文并行),并繼續訓練 10,000 步,保持全局批量大小為 1,536。
(2)監督微調(SFT)在微調階段,我們特別構建了一個高質量的 CoT(思維鏈)訓練集,用于強化模型的長篇因果推理能力。訓練樣本統一采用以下格式:
<think> {推理過程} </think> <answer> {最終答案} </answer>
微調使用全參數訓練,序列長度為 32,768,批量大小為 32。訓練語料來自多個任務場景,包括數學題解、多輪對話、代理規劃與復雜指令跟隨,涵蓋圖文、多模態及純文本等不同類型。這一階段不僅提高了多模態推理能力,也保持了模型在語言理解與邏輯推演方面的穩定表現。
(3)課程采樣強化學習(RLCS)
在 SFT 基礎上,我們引入強化學習全面優化模型性能。我們結合兩種方法:基于可驗證獎勵的強化學習(RLVR) 和 基于人類反饋的強化學習(RLHF),覆蓋多個關鍵任務維度:
- STEM領域問題求解(數學、物理、化學)
- 多模態信息定位與理解(OCR、實體定位、視頻分析)
- 智能體任務(GUI交互、代理規劃)
- 文檔與圖表理解、邏輯推理、復雜指令執行等
通過課程采樣,在這些任務上開展由易而難的動態大規模強化學習訓練,模型在實用性、準確性和穩健性等方面取得了顯著提升。
Reference
[1] GLM-4.1V-Thinking 模型開源