【AI論文】GLM-4.1V-Thinking:邁向具備可擴展強化學習的通用多模態推理

摘要:我們推出GLM-4.1V-Thinking,這是一款旨在推動通用多模態推理發展的視覺語言模型(VLM)。在本報告中,我們分享了在以推理為核心的訓練框架開發過程中的關鍵發現。我們首先通過大規模預訓練開發了一個具備顯著潛力的高性能視覺基礎模型,該模型可視為最終性能的上限基準。隨后,借助課程采樣強化學習(Reinforcement Learning with Curriculum Sampling,RLCS),我們充分釋放了模型的潛力,使其在包括STEM問題求解、視頻理解、內容識別、編程、指代消解、基于圖形用戶界面(Graphical User Interface,GUI)的智能體以及長文檔理解等多樣化任務中實現了全面的能力提升。為促進該領域的研究,我們開源了GLM-4.1V-9B-Thinking模型,其在同等規模模型中達到了頂尖性能。在涵蓋28個公開基準測試的全面評估中,我們的模型在幾乎所有任務上均優于Qwen2.5-VL-7B,并且在18個基準測試上,與規模大得多的Qwen2.5-VL-72B相比,也取得了相當甚至更優的性能。值得注意的是,在長文檔理解和STEM推理等具有挑戰性的任務上,GLM-4.1V-9B-Thinking與GPT-4o等閉源模型相比也展現出了相當或更優的性能,進一步凸顯了其強大的能力。代碼、模型及更多信息已在Github。Huggingface鏈接:Paper page,論文鏈接:2507.01006

一、研究背景和目的

研究背景

隨著人工智能技術的快速發展,視覺語言模型(Vision-Language Models, VLMs)已成為現代智能系統的重要組成部分。這些模型不僅能夠感知和理解視覺信息,還能處理和理解文本信息,從而實現跨模態的理解和推理。然而,隨著任務復雜性的增加,對VLMs的推理能力提出了更高的要求。傳統的VLMs主要依賴于簡單的視覺內容感知,而在處理科學問題、開發自主智能體等復雜任務時,往往顯得力不從心。因此,提升VLMs的推理能力,尤其是多模態推理能力,成為當前研究的熱點和難點。

近年來,長文本推理和可擴展強化學習在提升大型語言模型(Large Language Models, LLMs)解決復雜問題能力方面取得了顯著進展。然而,在VLMs領域,仍缺乏一個能夠持續超越傳統非思考型模型的多模態推理模型。此外,開源社區也缺乏一個在廣泛任務中表現優異的通用多模態推理模型。

研究目的

本研究旨在開發一個名為GLM-4.1V-Thinking的視覺語言模型,通過引入可擴展的強化學習框架,提升模型在多模態推理任務上的性能。具體目標包括:

  1. 構建強大的視覺基礎模型:通過大規模預訓練,開發一個具備強大潛力的視覺基礎模型,為后續的強化學習提供堅實的基礎。
  2. 引入課程采樣強化學習(RLCS):通過RLCS框架,充分釋放模型的潛力,實現跨多模態任務的全面能力提升。
  3. 推動多模態推理研究:通過開源GLM-4.1V-9B-Thinking模型和相關資源,促進多模態推理領域的研究和發展。

二、研究方法

1. 預訓練階段

為了構建一個強大的視覺基礎模型,研究團隊收集并整理了多樣化的多模態數據集,包括:

  • 圖像-文本對:從公開數據集和網絡搜索引擎中收集了超過100億個圖像-文本對,并通過多階段優化流程確保數據質量。
  • 自整理學術語料庫:包含圖像和文本交織的數據,如網頁和書籍,通過專門的處理流程提取高質量數據。
  • 光學字符識別(OCR)數據:構建了包含2.2億張圖像的大規模預訓練數據集,涵蓋合成文檔圖像、自然場景文本圖像和學術文檔。
  • 視覺定位數據:構建了包含自然圖像和圖形用戶界面(GUI)的混合定位數據集,提升模型的視覺定位能力。

預訓練階段采用多階段訓練策略,首先進行大規模的多模態預訓練,然后進行長上下文持續訓練,以擴展模型處理高分辨率圖像、視頻和長上下文的能力。

2. 監督微調階段

為了將基礎VLM轉化為具備長鏈思考(Chain-of-Thought, CoT)推理能力的模型,研究團隊構建了專門設計的長CoT語料庫。該語料庫不僅涵蓋可驗證的領域(如STEM問題),還包括不可驗證的任務(如指令跟隨和開放式寫作)。通過全參數微調,使模型能夠進行更有效的推理。

3. 強化學習階段

引入課程采樣強化學習(RLCS)框架,通過動態選擇最具信息量的滾動問題,提升訓練效率和性能。RLCS框架結合課程學習和難度感知采樣,根據模型的當前能力選擇合適的任務和樣本進行訓練。此外,研究團隊還設計了一個多領域獎勵系統,確保在不同多模態子領域中提供準確和一致的獎勵信號。

三、研究結果

1. 模型性能

GLM-4.1V-9B-Thinking在28個公開基準測試中展現了卓越的性能,幾乎在所有任務上都超越了Qwen2.5-VL-7B,并在18個基準測試上與規模大得多的Qwen2.5-VL-72B相比取得了相當甚至更優的性能。特別是在長文檔理解和STEM推理等具有挑戰性的任務上,GLM-4.1V-9B-Thinking與GPT-4o等閉源模型相比也展現出了相當或更優的性能。

2. 跨領域泛化能力

研究結果表明,多領域強化學習展示了強大的跨領域泛化能力和相互促進作用。在一個領域上的訓練能夠提升模型在其他領域的性能,聯合訓練多個領域能夠進一步提升每個領域的性能。例如,STEM、OCR&圖表、視覺定位和GUI智能體等不同領域的任務在聯合訓練后均取得了顯著提升。

3. 獎勵系統的重要性

一個強大且精確的獎勵系統對于多領域RL至關重要。研究團隊設計的多領域獎勵系統能夠在不同子領域中提供準確和一致的獎勵信號,確保模型在訓練過程中能夠穩定學習并避免獎勵信號的弱點導致的訓練崩潰。

四、研究局限

盡管GLM-4.1V-9B-Thinking在多模態推理任務上取得了顯著進展,但研究仍存在一些局限性:

  1. 數據偏差:盡管研究團隊努力確保數據的多樣性和質量,但預訓練數據仍可能存在一定的偏差,影響模型在某些特定任務上的性能。
  2. 計算資源需求:大規模預訓練和強化學習需要大量的計算資源,限制了研究在資源有限的環境中的可重復性。
  3. 模型可解釋性:盡管模型在多模態推理任務上展現了強大的性能,但其決策過程仍缺乏可解釋性,限制了模型在某些需要透明度的應用場景中的使用。

五、未來研究方向

針對上述研究局限,未來的研究可以從以下幾個方面展開:

  1. 數據多樣性和質量提升:進一步收集和整理多樣化的多模態數據,提升數據的質量和覆蓋范圍,減少數據偏差對模型性能的影響。
  2. 計算效率優化:探索更高效的訓練算法和硬件加速技術,降低大規模預訓練和強化學習的計算資源需求,提升研究的可重復性。
  3. 模型可解釋性研究:開展模型可解釋性研究,提升模型決策過程的透明度,使模型能夠在需要透明度的應用場景中得到廣泛應用。
  4. 多模態融合技術研究:進一步探索多模態融合技術,提升模型在處理復雜多模態任務時的性能和魯棒性。
  5. 實際應用探索:將GLM-4.1V-Thinking模型應用于實際場景中,探索其在教育、醫療、娛樂等領域的應用潛力,推動多模態推理技術的實際應用和發展。

總之,GLM-4.1V-Thinking模型通過引入可擴展的強化學習框架,顯著提升了視覺語言模型在多模態推理任務上的性能。未來的研究將繼續優化模型性能,探索新的應用場景,推動多模態推理技術的不斷進步。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/914322.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/914322.shtml
英文地址,請注明出處:http://en.pswp.cn/news/914322.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Linux進程通信——匿名管道

目錄 1、進程間通信基礎概念 2、管道的工作原理 2.1 什么是管道文件 3、匿名管道的創建與使用 3.1、pipe 系統調用 3.2 父進程調用 fork() 創建子進程 3.3. 父子進程的文件描述符共享 3.4. 關閉不必要的文件描述符 3.5 父子進程通過管道進行通信 父子進程通信的具體例…

sql:sql在office中的應用有哪些?

在Office軟件套件中,主要是Access和Excel會用到SQL(結構化查詢語言),以下是它們在這兩款軟件中的具體應用: 在Access中的應用 創建和管理數據庫對象: 創建表:使用CREATE TABLE語句可以創建新的數…

零基礎完全理解視覺語言模型(VLM):從理論到代碼實踐

本文是《從LLM到VLM:視覺語言模型的核心技術與Python實現》的姊妹篇,主要面向零基礎的讀者,希望用更通俗易懂的語言帶領大家入門VLM。本教程的完整代碼可以在GitHub上找到,如果你有任何問題或建議,歡迎交流討論。 寫在…

數據結構 Map和Set

文章目錄📕1. 二叉搜索樹??1.1 查找操作??1.2 插入操作??1.3 刪除操作📕2. Map的使用??2.1 Map的常用方法??2.2 TreeMap和HashMap的區別??2.3 HashMap的底層實現📕3. Set的使用??3.1 Set的常用方法??3.2 TreeSet和HashSet的區…

樹莓派5-系統 Debian 12 開啟VNC遠程訪問踩坑記錄

簡單記錄一下踩坑,安裝vnc遠程訪問服務并設置開機自啟1.查看系統版本,我這里的系統版本是 12cat /etc/os-release2.安裝VNC服務sudo apt install realvnc-vnc-server realvnc-vnc-viewer -y3.創建服務單元文件:sudo nano /etc/systemd/system…

TASK2 夏令營:用AI做帶貨視頻評論分析

TASK2 夏令營:用AI做帶貨視頻評論分析**電商評論洞察賽題:從Baseline到LLM進階優化學習筆記**一、 賽題核心解讀1.1. 任務鏈條與目標1.2. 關鍵挑戰與評分機制二、 Baseline方案回顧與瓶頸分析2.1. Baseline技術棧2.2. 核心瓶頸三、 進階優化策略&#xf…

Docker:安裝命令筆記

目錄 零、安裝:略 一、鏡像 1.0、獲取鏡像: 1.1、查看鏡像: 1.2、刪除鏡像: 二、容器 2.0、創建并啟動容器 2.1、tomcat和jdk9的“創建并啟動容器”的命令 2.2、容器操作 2.3、容器日志操作 零、安裝:略 略 …

Python七彩花朵

系列文章 序號直達鏈接Tkinter1Python李峋同款可寫字版跳動的愛心2Python跳動的雙愛心3Python藍色跳動的愛心4Python動漫煙花5Python粒子煙花Turtle1Python滿屏飄字2Python藍色流星雨3Python金色流星雨4Python漂浮愛心5Python愛心光波①6Python愛心光波②7Python滿天繁星8Pytho…

【保姆級圖文詳解】MCP架構(客戶端-服務端)、三種方式使用MCP服務、Spring AI MCP客戶端和服務端開發、MCP部署方案、MCP安全性

文章目錄前言一、MCP(model context protocol)1.1、概念描述1.2、MCP作用與意義1.3、MCP架構二、使用MCP(model context protocol)2.1、云平臺使用MCP2.2、軟件客戶端使用MCP2.3、Spring AI程序中使用MCP三、Spring AI MCP(model context protocol)開發過程3.1、MCP服務端開發3…

Linux的 iproute2 配置:以太網(Ethernet)、綁定(Bond)、虛擬局域網(VLAN)、網橋(Bridge)筆記250713

Linux的 iproute2 配置:以太網(Ethernet)、綁定(Bond)、虛擬局域網(VLAN)、網橋(Bridge)筆記250713 在 Linux 中使用 iproute2 工具集配置網絡是現代且推薦的方法,它取代了舊的 ifconfig、route、brctl、vconfig 等命令。iproute2 提供了統一的接口 ip …

當信任上鏈解碼區塊鏈溯源系統開發邏輯與產業變革

當信任上鏈:解碼區塊鏈溯源系統的開發邏輯與產業變革在上海某高端超市的進口水果區,消費者王女士拿起一盒車厘子,用手機掃描包裝上的二維碼,屏幕立刻彈出一串動態信息:智利瓦爾帕萊索港口的裝船時間、海關清關的具體日…

可視化DIY小程序工具!開源拖拽式源碼系統,自由搭建,完整的源代碼包分享

溫馨提示:文末有資源獲取方式傳統的小程序開發對技術要求較高,這使得許多非技術人員望而卻步。可視化DIY小程序工具應運而生,它通過拖拽式操作和開源代碼系統,極大地降低了開發門檻,讓更多人能夠快速構建個性化小程序。…

【MLLM】多模態理解GLM-4.1V-Thinking模型

note GLM-4.1V-Thinking模型引入 課程采樣強化學習(RLCS, Reinforcement Learning with Curriculum Sampling) 策略,在多個復雜推理任務中實現能力突破,整體性能達到 10B 級別視覺語言模型的領先水平。GLM-4.1V-9B-Thinking 通過…

【C++詳解】STL-priority_queue使用與模擬實現,仿函數詳解

文章目錄一、priority_queue使用仿函數控制優先級sort算法里的仿函數二、手撕優先級隊列優先級隊列的容器適配器入堆出堆top/size/empty迭代器區間構造初始化(解耦)三、仿函數仿函數控制冒泡排序仿函數控制priority_queue比較邏輯仿函數使用場景仿函數的其他使用場景源碼一、pr…

在mac m1基于ollama運行deepseek r1

1 下載和安裝 在ollama的官網下載mac m1版本的ollama https://ollama.com/ 最終獲得如下所示的下載地址 https://github.com/ollama/ollama/releases/latest/download/Ollama.dmg 然后點擊安裝,然后測試 ollama list 2 運行deepseek r1 deepseek-r1:8b 比較適…

TCP與UDP協議詳解:網絡世界的可靠信使與高速快遞

> 互聯網的骨架由傳輸層協議支撐,而TCP與UDP如同血管中的紅細胞與血小板,各司其職卻又缺一不可 ### 一、初識傳輸層雙雄:網絡通信的基石 想象你要給朋友寄送重要文件: - **TCP** 如同順豐快遞:**簽收確認+物流追蹤**,確保文件完整送達 - **UDP** 如同普通信件:**直接…

Datawhale AI 夏令營【更新中】

Datawhale AI 夏令營【更新中】夏令營簡介大模型技術(文本)方向:用AI做帶貨視頻評論分析機器學習(數據挖掘)方向:用AI預測新增用戶夏令營簡介 本次AI夏令營是Datawhale在暑期發起的大規模AI學習活動&#…

AutoDL掛載阿里云OSS

文章目錄前言AutoDL 設置阿里OSS設置OSS配置相關key 相關競猜時間前言 最近,AutoDL提示北京A區網盤功能要下架,然后需要對網盤中數據進行轉移等操作,我想網盤中數據下載到本地,大概16G;直接在網盤那里下載&#xff0c…

java 基本數據類型所對應的包裝類

一,對應列舉Java 中有 8 種基本數據類型,每種基本數據類型都有對應的包裝類,它們分別是:二,包裝類的作用1. 滿足面向對象編程需求Java 是面向對象的編程語言,基本數據類型不是對象,無法使用面向對象的特性(…

牛客網50題-10

1.小苯的數字權值#include <iostream> #include <algorithm> using namespace std;const int max_n 2000000; int d[max_n 1]; int f[max_n 1];int main() {for(int i 1; i<max_n;i){for(int j i; j<max_n;ji){d[j];}}for(int i1; i<max_n;i){f[i] d…