摘要:我們推出GLM-4.1V-Thinking,這是一款旨在推動通用多模態推理發展的視覺語言模型(VLM)。在本報告中,我們分享了在以推理為核心的訓練框架開發過程中的關鍵發現。我們首先通過大規模預訓練開發了一個具備顯著潛力的高性能視覺基礎模型,該模型可視為最終性能的上限基準。隨后,借助課程采樣強化學習(Reinforcement Learning with Curriculum Sampling,RLCS),我們充分釋放了模型的潛力,使其在包括STEM問題求解、視頻理解、內容識別、編程、指代消解、基于圖形用戶界面(Graphical User Interface,GUI)的智能體以及長文檔理解等多樣化任務中實現了全面的能力提升。為促進該領域的研究,我們開源了GLM-4.1V-9B-Thinking模型,其在同等規模模型中達到了頂尖性能。在涵蓋28個公開基準測試的全面評估中,我們的模型在幾乎所有任務上均優于Qwen2.5-VL-7B,并且在18個基準測試上,與規模大得多的Qwen2.5-VL-72B相比,也取得了相當甚至更優的性能。值得注意的是,在長文檔理解和STEM推理等具有挑戰性的任務上,GLM-4.1V-9B-Thinking與GPT-4o等閉源模型相比也展現出了相當或更優的性能,進一步凸顯了其強大的能力。代碼、模型及更多信息已在Github。Huggingface鏈接:Paper page,論文鏈接:2507.01006
一、研究背景和目的
研究背景
隨著人工智能技術的快速發展,視覺語言模型(Vision-Language Models, VLMs)已成為現代智能系統的重要組成部分。這些模型不僅能夠感知和理解視覺信息,還能處理和理解文本信息,從而實現跨模態的理解和推理。然而,隨著任務復雜性的增加,對VLMs的推理能力提出了更高的要求。傳統的VLMs主要依賴于簡單的視覺內容感知,而在處理科學問題、開發自主智能體等復雜任務時,往往顯得力不從心。因此,提升VLMs的推理能力,尤其是多模態推理能力,成為當前研究的熱點和難點。
近年來,長文本推理和可擴展強化學習在提升大型語言模型(Large Language Models, LLMs)解決復雜問題能力方面取得了顯著進展。然而,在VLMs領域,仍缺乏一個能夠持續超越傳統非思考型模型的多模態推理模型。此外,開源社區也缺乏一個在廣泛任務中表現優異的通用多模態推理模型。
研究目的
本研究旨在開發一個名為GLM-4.1V-Thinking的視覺語言模型,通過引入可擴展的強化學習框架,提升模型在多模態推理任務上的性能。具體目標包括:
- 構建強大的視覺基礎模型:通過大規模預訓練,開發一個具備強大潛力的視覺基礎模型,為后續的強化學習提供堅實的基礎。
- 引入課程采樣強化學習(RLCS):通過RLCS框架,充分釋放模型的潛力,實現跨多模態任務的全面能力提升。
- 推動多模態推理研究:通過開源GLM-4.1V-9B-Thinking模型和相關資源,促進多模態推理領域的研究和發展。
二、研究方法
1. 預訓練階段
為了構建一個強大的視覺基礎模型,研究團隊收集并整理了多樣化的多模態數據集,包括:
- 圖像-文本對:從公開數據集和網絡搜索引擎中收集了超過100億個圖像-文本對,并通過多階段優化流程確保數據質量。
- 自整理學術語料庫:包含圖像和文本交織的數據,如網頁和書籍,通過專門的處理流程提取高質量數據。
- 光學字符識別(OCR)數據:構建了包含2.2億張圖像的大規模預訓練數據集,涵蓋合成文檔圖像、自然場景文本圖像和學術文檔。
- 視覺定位數據:構建了包含自然圖像和圖形用戶界面(GUI)的混合定位數據集,提升模型的視覺定位能力。
預訓練階段采用多階段訓練策略,首先進行大規模的多模態預訓練,然后進行長上下文持續訓練,以擴展模型處理高分辨率圖像、視頻和長上下文的能力。
2. 監督微調階段
為了將基礎VLM轉化為具備長鏈思考(Chain-of-Thought, CoT)推理能力的模型,研究團隊構建了專門設計的長CoT語料庫。該語料庫不僅涵蓋可驗證的領域(如STEM問題),還包括不可驗證的任務(如指令跟隨和開放式寫作)。通過全參數微調,使模型能夠進行更有效的推理。
3. 強化學習階段
引入課程采樣強化學習(RLCS)框架,通過動態選擇最具信息量的滾動問題,提升訓練效率和性能。RLCS框架結合課程學習和難度感知采樣,根據模型的當前能力選擇合適的任務和樣本進行訓練。此外,研究團隊還設計了一個多領域獎勵系統,確保在不同多模態子領域中提供準確和一致的獎勵信號。
三、研究結果
1. 模型性能
GLM-4.1V-9B-Thinking在28個公開基準測試中展現了卓越的性能,幾乎在所有任務上都超越了Qwen2.5-VL-7B,并在18個基準測試上與規模大得多的Qwen2.5-VL-72B相比取得了相當甚至更優的性能。特別是在長文檔理解和STEM推理等具有挑戰性的任務上,GLM-4.1V-9B-Thinking與GPT-4o等閉源模型相比也展現出了相當或更優的性能。
2. 跨領域泛化能力
研究結果表明,多領域強化學習展示了強大的跨領域泛化能力和相互促進作用。在一個領域上的訓練能夠提升模型在其他領域的性能,聯合訓練多個領域能夠進一步提升每個領域的性能。例如,STEM、OCR&圖表、視覺定位和GUI智能體等不同領域的任務在聯合訓練后均取得了顯著提升。
3. 獎勵系統的重要性
一個強大且精確的獎勵系統對于多領域RL至關重要。研究團隊設計的多領域獎勵系統能夠在不同子領域中提供準確和一致的獎勵信號,確保模型在訓練過程中能夠穩定學習并避免獎勵信號的弱點導致的訓練崩潰。
四、研究局限
盡管GLM-4.1V-9B-Thinking在多模態推理任務上取得了顯著進展,但研究仍存在一些局限性:
- 數據偏差:盡管研究團隊努力確保數據的多樣性和質量,但預訓練數據仍可能存在一定的偏差,影響模型在某些特定任務上的性能。
- 計算資源需求:大規模預訓練和強化學習需要大量的計算資源,限制了研究在資源有限的環境中的可重復性。
- 模型可解釋性:盡管模型在多模態推理任務上展現了強大的性能,但其決策過程仍缺乏可解釋性,限制了模型在某些需要透明度的應用場景中的使用。
五、未來研究方向
針對上述研究局限,未來的研究可以從以下幾個方面展開:
- 數據多樣性和質量提升:進一步收集和整理多樣化的多模態數據,提升數據的質量和覆蓋范圍,減少數據偏差對模型性能的影響。
- 計算效率優化:探索更高效的訓練算法和硬件加速技術,降低大規模預訓練和強化學習的計算資源需求,提升研究的可重復性。
- 模型可解釋性研究:開展模型可解釋性研究,提升模型決策過程的透明度,使模型能夠在需要透明度的應用場景中得到廣泛應用。
- 多模態融合技術研究:進一步探索多模態融合技術,提升模型在處理復雜多模態任務時的性能和魯棒性。
- 實際應用探索:將GLM-4.1V-Thinking模型應用于實際場景中,探索其在教育、醫療、娛樂等領域的應用潛力,推動多模態推理技術的實際應用和發展。
總之,GLM-4.1V-Thinking模型通過引入可擴展的強化學習框架,顯著提升了視覺語言模型在多模態推理任務上的性能。未來的研究將繼續優化模型性能,探索新的應用場景,推動多模態推理技術的不斷進步。