一、基本介紹
1.1 項目背景
GLM-4.1V-Thinking是清華大學KEG實驗室推出的新一代開源視覺語言模型,基于GLM-4-9B-0414基礎模型構建。該項目通過引入"思維范式"和強化學習課程采樣(RLCS)技術,顯著提升了模型在復雜任務中的推理能力。其創新點包括:
- 64k超長上下文支持:可處理長達64k token的輸入序列
- 4K分辨率處理:支持任意縱橫比的圖像輸入
- 多模態推理強化:在數學推理、長文本理解等18項基準測試中超越72B參數模型
- 中英雙語支持:原生支持中文和英文的混合輸入
1.2 技術定位
與同類模型(如CogVLM2、Qwen-VL)相比,GLM-4.1V-Thinking實現了三大突破:
# 模型能力對比示意
models = {