KORGym:評估大語言模型推理能力的動態游戲平臺

KORGym:評估大語言模型推理能力的動態游戲平臺

現有評估基準多受領域限制或 pretraining 數據影響,難以精準測LLMs內在推理能力。KORGym平臺應運而生,含50余款游戲,多維度評估,本文將深入解析其設計、框架、實驗及發現。

📄 論文標題:KORGym: A Dynamic Game Platform for LLM Reasoning Evaluation
🌐 來源:arXiv:2505.14552v2 [cs.CL] + 鏈接:https://arxiv.org/abs/2505.14552

近年來,大型語言模型(LLMs)在推理任務上取得顯著進展,但現有評估基準存在諸多局限。為此,研究者提出了KORGym這一動態評估平臺,旨在更全面、精準地評估LLMs的內在推理能力。

研究背景與動機

當前,推理模型在文本理解、邏輯推理等任務中表現出色,但多數評估基準具有領域特異性,如AIME、PHYBench,無法捕捉通用推理能力。即便一些旨在評估更廣泛推理能力的基準,如SuperGPQA、HLE,也受pretraining數據影響較大,難以衡量模型的內在推理技能。

而游戲因其場景多樣,在pretraining語料中罕見,成為評估內在推理能力的理想測試床。但現有基于游戲的評估方法存在不足,如LogicGame僅采用單輪場景,無法評估LLMs的長期規劃能力;TextArena和SPINBench雖支持多輪場景,但引入的對手動態會產生額外變異性,干擾純推理評估等。

基于這些問題,研究者提出了KORGym。

KORGym平臺設計

KORGym受KOR-Bench的知識正交推理框架啟發,基于Gymnasium構建,包含50余款游戲,涵蓋六個推理維度:數學和邏輯推理、控制交互推理、 puzzle推理、空間和幾何推理、戰略推理以及多模態推理。

平臺由四個模塊化組件構成:推理模塊、游戲交互模塊、評估模塊和通信模塊,支持多輪評估、可配置難度級別和穩定的強化學習支持。

相關工作

  • LLMs for Gaming:游戲因對多步推理和戰略規劃的需求,成為評估LLMs的寶貴測試床。早期研究集中在單一游戲評估,如《我的世界》或社交推理游戲,但這些狹窄的設置限制了通用性。后續雖引入更廣泛的基準,但在開放對話、動態合作沖突轉換和豐富社會動態等關鍵維度仍未充分探索。SPINBench通過結合正式規劃分析、多智能體合作/競爭和開放式對話,統一了戰略規劃和社會智能。
  • Knowledge Orthogonality Based Evaluation:當前AI推理基準常將記憶與推理混為一談,難以深入了解潛在認知過程。整合型基準雖推進了對情境問題解決的關注,但仍存在領域特定知識偏差風險。知識正交性概念主張將推理評估與先驗知識分離,優先考慮在分布外場景中遵循規則,以隔離核心能力。

方法

框架

KORGym的系統架構主要包括四個模塊:推理模塊、游戲交互模塊、評估模塊和通信模塊。初始化參數包括游戲名稱、模型信息、種子、部署端口號和輸出目錄。

任務介紹

KORGym支持50余款新穎游戲,通過六個不同能力維度對LLMs的推理能力進行精確高效評估。這些游戲涵蓋傳統謎題(如數獨)、經典視頻游戲改編(如《植物大戰僵尸》《掃雷》)、博弈論挑戰(如N點、信任進化)和多模態任務(如拼圖、圈貓)等。

平臺支持通過標準化API進行多輪交互,專為強化學習設計,提供環境狀態和獎勵信號,用戶可通過可擴展參數調整游戲難度和環境多樣性,還包括9個多模態游戲,便于在文本和多模態環境中進行綜合評估。

評估方法

  • 分數計算規則:為解決二元(0/1)評分在反映KORGym中間進度方面的局限性,提出了三種評分方案:二元評分(單目標游戲,成功得1分,失敗得0分)、比例評分(選擇題游戲,得分等于正確答案數除以選項總數)、累積評分(增量得分游戲,累加所有獲得的分數)。
  • 能力維度聚合均值:由于原始游戲分數可能超出[0,1]區間,且可能因游戲難度變化或模型異常行為而產生偏差,引入能力維度聚合均值這一更穩健的聚合指標。通過一系列轉換和歸一化操作,確保每個游戲的模型性能映射到[0,1]范圍內,同時保留相對差異,進而得到模型在各推理維度上的表現。

實驗

設置

評估了19個大型語言模型(包括11個思維模型和8個指令微調模型)和8個視覺語言模型。評估中,對單輪和多輪游戲采用不同協議:單輪游戲中,通過將“generate”API中的“seed”參數從1變為50,每個模型在50個獨立初始化的游戲實例上進行評估;多輪游戲中,每個模型初始化20個游戲環境,每輪允許最多100次交互,并改變“generate”API中的“seed”參數以確保可重復性。所有評估均采用零樣本提示設置,保留每個模型的默認采樣參數。

主要結果

  • 同一模型系列內的推理能力表現出一致的優勢和劣勢特征。例如,O1和O3-mini在空間推理方面表現出色,而Gemini系列在數學和puzzle推理方面領先。
  • 閉源模型展示出更優的推理性能。O3-mini在KORGym上獲得最高綜合得分,尤其在空間推理方面;Claude-3.7-thinking和Gemini-2.5-pro在puzzle推理方面表現最佳等。
  • 模型規模和架構對推理能力有影響。模型性能隨模型大小呈正相關,思維模型優于同等規模的非思維模型。例如,DeepSeek-R1-Distill-Qwen-32B雖規模較小,但性能超過Qwen2.5-72B-Instruct。

討論

  • 模態對推理性能的影響:文本版本游戲的平均得分始終高于視覺版本。開源VLMs在基于文本的推理上比基于視覺的任務表現更好,表明其視覺基礎有限或多模態對齊不夠完善。一些閉源VLMs在視覺版本上的得分高于文本版本,表明其更強的視覺推理或更優的多模態集成能力。在數學相關游戲中,模型在文本版本上的得分顯著更高,凸顯了符號表示在數值推理中的優勢。

  • 不同模型系列是否表現出一致的行為模式:頂級模型在PCA空間中形成緊密集群,表明在所有維度上都具有一致的強推理性能;思維模型和非思維模型表現出不同的行為模式;LLMs在進行分析和問題解決時傾向于采用明確的推理范式,包括代碼范式、數學范式、特定算法范式和自然語言推理范式。

  • 強化學習對問題解決能力的影響:在多輪強化學習微調中,特定模型結合專門的算法框架,并在綜合語料庫上訓練,在KORGym中,強化學習驅動的增強在各個推理維度上都帶來了顯著收益。
  • 響應長度與推理性能的相關性:推理性能與響應長度呈強正相關,推理模型和非推理模型在響應長度分布上有顯著差異,響應長度對性能的影響存在邊際效益遞減現象。

總結

KORGym是一個可擴展的、基于游戲的基準,包含50多個跨越六個推理維度的任務。它支持多模態交互、強化學習和參數化環境,并采用基于維度感知分數聚合的穩健評估方法。通過對19個LLMs和8個VLMs的評估,揭示了模型系列內一致的強弱特征,以及模型規模和架構對推理能力的影響等。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/90004.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/90004.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/90004.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

ISPDiffuser文章翻譯理解

ISPDiffuser: Learning RAW-to-sRGB Mappings with Texture-Aware Diffusion Models and Histogram-Guided Color Consistency翻譯 Type: Conference paper Author: Yang Ren1,4, Hai Jiang1,4, Menglong Yang1,2,?, Wei Li1,2, Shuaicheng Liu3,4,? Select: ???????…

C++線程池執行步驟分析,總結線程池流程

線程池流程總結:1、構造函數中創建線程,并添加到線程池(構造函數返回時,線程自動啟動,并停在等待wait:從線程池取出一個任務處); 2、主線程中添加任務,到任務隊列。并用“…

Java 通過 HttpURLConnection發送 http 請求

問題&#xff1a; 在調試 kill 接口的時候&#xff0c;對方的服務用的是 Django RestFramework 框架提供的接口&#xff0c;用 python 請求時得到的內容如下&#xff1a; ? ~ python3 test.py <Response [200]> "true" // 對應的代碼是 print(response, r…

【PTA數據結構 | C語言版】列出連通集

本專欄持續輸出數據結構題目集&#xff0c;歡迎訂閱。 文章目錄題目代碼題目 給定一個有 n 個頂點和 m 條邊的無向圖&#xff0c;請用深度優先遍歷&#xff08;DFS&#xff09;和廣度優先遍歷&#xff08;BFS&#xff09;分別列出其所有的連通集。假設頂點從 0 到 n?1 編號。…

GoLang教程005:switch分支

3.4 Switch分支 在 GoLand&#xff08;其實是 JetBrains 開發的 Go 編程語言 IDE&#xff09;中&#xff0c;switch 是 Go 語言&#xff08;Golang&#xff09; 的一個重要控制結構&#xff0c;用于替代多個 if-else 語句。 ? 特點說明特性說明自動 breakGo 的 switch 語句默認…

uniapp相關地圖 API調用

目錄 一、 注意事項&#xff1a; manifest.json需增加配置 二、獲取用戶收貨地址 [uni.chooseAddress] 三、獲取當前的地理位置、速度 [uni.getLocation] 四、打開地圖選擇位置、查看位置(導航) [uni.chooseLocation] [uni.openLocation] 五、使用騰訊地圖逆地址解析接口實…

Java學習----NIO模型

在 Java 的 I/O 模型中&#xff0c;NIO&#xff08;Non - Blocking I/O&#xff0c;非阻塞 I/O&#xff09;是對 BIO 的重要改進。它為高并發場景提供了更高效的處理方式&#xff0c;在眾多 Java 應用中發揮著關鍵作用。NIO模型的核心在于非阻塞和多路復用&#xff0c;其采用 “…

MySQL計數函數count原理分析

前言 統計表中數據的條數是非常常用的操作,但是咱們常用的InnoDB存儲引擎計數函數是現時統計的,所以會出現性能的問題,這次我準備分享計數函數count的原理,保證之后遇到計數方面的問題都可以輕易靈活的解決 與MyISAM存儲引擎相比,MyISAM存儲引擎是自己記錄了表中數據的條數,但…

Day07_網絡編程20250721_大項目

基本代碼&#xff1a;搭建服務器客戶端&#xff0c;要求服務器使用 epoll 模型客戶端使用多線程服務器打開數據庫&#xff0c;表單格式如下name text primary key pswd text not null客戶端做一個簡單的界面&#xff1a;1&#xff1a;注冊2&#xff1a;登錄無論注冊還是登錄&am…

20250721

P5357 【模板】AC 自動機 - 洛谷 主要是構建fail樹 /* 我們可以知道的是&#xff0c;當訪問一個點x時&#xff0c;接下來需要跳轉其fail[x]&#xff0c;以此類推&#xff0c;如果在某個fail[x]上出現了一個字符串&#xff0c;那么相應的統計次數應該加1&#xff0c;然后當訪…

【INT四則優先算式】2022-9-22

緣由ccf201903-2二十四點我用暴力破解做的&#xff0c;但是兩個程序一個拿到了滿分&#xff0c;一個拿到了50分&#xff0c;看了很長時間也沒看出問題在哪里&#xff0c;希望有英雄慧眼幫我看一下-編程語言-CSDN問答 void INT四則優先算式() {//緣由https://ask.csdn.net/ques…

本地k8s集群的搭建

windows機器&#xff0c;考慮如果使用云服務器&#xff0c;每年的開銷還是太大&#xff0c;不值得&#xff0c;自己只是做demo&#xff0c;了解各種配置和使用即可&#xff0c;使用VMware的虛擬機來搭建k8s集群 使用docker安裝rancher和k8s yum -y install chronycat > /et…

B樹、B+樹的區別及MySQL為何選擇B+樹

B樹與B樹 B樹和B樹都是自平衡的多路搜索樹&#xff0c;廣泛應用于數據庫和文件系統中&#xff0c;用于高效管理大量數據。它們的設計目標是在磁盤存儲環境下減少I/O操作次數&#xff0c;提高數據訪問效率。下面我將逐步解釋兩者的定義、特性、比較以及應用場景&#xff0c;確保…

Unity之可視化編程VisualScripting快速入門

文章目錄 前言 腳本機和狀態機 腳本圖ScriptGraph 腳本圖 子圖 自定義事件 狀態圖StateGraph 狀態圖 Start狀態 創建新狀態 過渡連接 常用功能 射線檢測 補間動畫 按鈕點擊 前言 可視化腳本使您無需編寫代碼即可為游戲或應用程序創建邏輯。可視化腳本使用基于節點的可視化圖形…

2025三掌柜贈書活動第二十五期 網絡安全應急響應實戰

目錄 前言 網絡安全的重要性 關于《網絡安全應急響應實戰》 編輯推薦 內容簡介 作者簡介 圖書目錄 《網絡安全應急響應實戰》全書速覽 結束語 前言 在當今數字化時代&#xff0c;網絡安全已經成為企業和個人都無法忽視的重要問題。隨著網絡技術的飛速發展&#xff0c;…

車載軟件架構 --- 軟件開發面臨的問題

我是穿拖鞋的漢子,魔都中堅持長期主義的汽車電子工程師。 老規矩,分享一段喜歡的文字,避免自己成為高知識低文化的工程師: 周末洗了一個澡,換了一身衣服,出了門卻不知道去哪兒,不知道去找誰,漫無目的走著,大概這就是成年人最深的孤獨吧! 舊人不知我近況,新人不知我過…

MySQL 8.0 OCP 1Z0-908 題目解析(31)

題目121 Choose two. Examine this command, which executes successfully on InnoDB Cluster: dba.dropMetadataSchema() Which two statements are true? □ A) The mysql_innodb_cluster_metadata schema is dropped from the instance where the connection was establish…

本地生活服務 app 同城信息發布系統搭建

一、邏輯分析用戶需求層面&#xff1a;對于發布者來說&#xff0c;需要一個便捷的界面來輸入同城信息&#xff0c;包括但不限于房屋租售、招聘求職、二手交易、活動推廣等各類信息。發布者要能夠上傳相關圖片、詳細描述信息內容、設置價格&#xff08;如果有需要&#xff09;、…

[Python] -項目實戰4- 利用Python進行Excel批量處理

一、為什么要批量處理Excel文件? 節省時間:人工對數十、數百個 Excel 文件重復操作不現實,Python 批量處理一次搞定。 保證一致性:統一格式、統一操作,避免手動誤差。 易于集成:可嵌入日常自動化流程,支持定時和觸發執行。 二、常用庫及選型建議 庫 作用 優勢 局限 p…

社區搜索離線回溯系統設計:架構、挑戰與性能優化|得物技術

一、項目背景在社區場景中&#xff0c;我們積累了豐富的用戶互動數據。這些歷史互動信息對CTR/CVR預估建模具有重要參考價值&#xff0c;用戶的每次互動都反映了其特定維度的偏好特征。當前&#xff0c;已在多個業務實踐中驗證&#xff0c;基于用戶歷史互動特征進行未來行為預測…