多場景游戲AI新突破!Divide-Fuse-Conquer如何激發大模型“頓悟時刻“?

多場景游戲AI新突破!Divide-Fuse-Conquer如何激發大模型"頓悟時刻"?

大語言模型在強化學習中偶現的"頓悟時刻"引人關注,但多場景游戲中訓練不穩定、泛化能力差等問題亟待解決。Divide-Fuse-Conquer方法,通過分組訓練、參數融合等策略,在18款TextArena游戲中實現與Claude3.5相當的性能,為多場景強化學習提供新思路。

論文標題
Divide-Fuse-Conquer: Eliciting “Aha Moments” in Multi-Scenario Games
來源
arXiv:2505.16401v1 [cs.LG] + https://arxiv.org/abs/2505.16401

文章核心

研究背景

近年來,大語言模型(LLMs)在強化學習(RL)中展現出令人矚目的推理能力,在數學、編程、視覺等領域通過簡單的基于結果的獎勵,就能觸發類似人類“頓悟時刻”的能力突破。

盡管RL在單場景任務中成效顯著,但在多場景游戲領域卻面臨嚴峻挑戰。游戲場景中,規則、交互模式和環境復雜度的多樣性,導致策略常出現“此長彼消”的泛化困境——在某一場景表現優異,卻難以遷移至其他場景。而簡單合并多場景進行訓練,還會引發訓練不穩定、性能不佳等問題,這使得多場景游戲成為檢驗RL與LLMs結合成效的關鍵領域,也亟需新的方法來突破現有瓶頸。

研究問題

1. 訓練不穩定性:多場景游戲中任務分布異質性強,直接應用強化學習易導致訓練崩潰,如DeepSeek-R1在場景增多時性能顯著下降。

2. 泛化能力不足:簡單合并多場景訓練時,模型在某一場景表現良好,卻難以遷移到其他場景,出現"顧此失彼"的情況。

3. 效率與性能矛盾:統一訓練所有場景時,模型可能優先學習簡單任務,忽視復雜任務,導致整體優化效率低下且最終性能不佳。

主要貢獻

1. 提出Divide-Fuse-Conquer框架:通過啟發式分組、參數融合和漸進式訓練,系統性解決多場景強化學習中的訓練不穩定和泛化問題,這與傳統單一訓練或簡單合并訓練的方式有本質區別。

2. 創新技術組合提升訓練質量:集成格式獎勵塑造、半負采樣、混合優先級采樣等技術,從穩定性、效率和性能三方面優化訓練過程,如半負采樣通過過濾一半負樣本防止梯度主導,就像在嘈雜環境中過濾掉部分干擾信號。

3. 多場景游戲驗證與性能突破:在18款TextArena游戲中,使用Qwen2.5-32B-Align模型訓練后,與Claude3.5對戰取得7勝4平7負的成績,證明該框架能有效激發大模型在多場景游戲中的"頓悟時刻"。

方法論精要

框架設計:Divide-Fuse-Conquer的三級遞進策略

分組(Divide):根據游戲規則(如固定/隨機初始狀態)和難度(基礎模型勝率是否為零),將18款TextArena游戲劃分為4個組。例如,ConnectFour-v0等固定初始狀態且基礎模型可獲勝的游戲歸為一組,而LiarsDice-v0等隨機初始狀態且初始勝率為零的游戲歸為另一組,如同將復雜任務按類型和難度分類拆解。

融合(Fuse):采用參數平均策略融合各組最優策略。具體而言,第 k k k組策略參數 θ ( π k ) \theta^{(\pi_k)} θ(πk?)與前 k ? 1 k-1 k?1組合并后的參數 θ ( π ( k ? 1 ) ) ) \theta^{(\pi{(k-1)})}) θ(π(k?1))) θ ( π ( k ) ) = 1 2 ( θ π ( k ? 1 ) + θ π k ) \theta^{(\pi{(k)})} = \frac{1}{2}(\theta^{\pi{(k-1)}} + \theta^{\pi_k}) θ(π(k))=21?(θπ(k?1)+θπk?)融合,使新模型繼承跨組知識,類似將不同領域的專家經驗整合為“全能選手”。

征服(Conquer):通過GRPO算法對融合模型持續訓練,結合多維度優化技術,逐步提升跨場景泛化能力。

核心技術:多維度訓練優化組合

獎勵機制重構

格式獎勵 ( R format ) (R_{\text{format}}) (Rformat?):對無效動作(如格式錯誤)施加-2懲罰,確保模型輸出合規,如同考試中規范答題格式。

環境獎勵 ( R env ) (R_{\text{env}}) (Renv?):按游戲結果賦予1(勝)、0(平)、-1(負),直接反饋游戲勝負。

倉促動作懲罰 ( R step ) (R_{\text{step}}) (Rstep?):在獲勝場景中,根據軌跡步數 n T n_T nT?縮放獎勵(如TowerOfHanoi中高效解法獲更高分),引導模型避免短視決策。

樣本與探索優化

半負采樣(Half-Negative Sampling):隨機丟棄50%負樣本,防止負梯度主導訓練,類似在嘈雜數據中過濾干擾。

混合優先級采樣(MPS):動態分配采樣權重,優先訓練中低勝率游戲,如學生重點攻克薄弱科目。

? \epsilon ?-greedy擾動與隨機種子:以概率 ? \epsilon ?隨機選擇動作,并隨機初始化環境種子,增強探索多樣性,避免陷入局部最優。

實驗驗證:多場景與基線對比設計

數據集:TextArena平臺18款游戲,包括4款單玩家(如TowerOfHanoi-v0)和14款雙玩家(如Poker-v0、ConnectFour-v0),覆蓋規則簡單到復雜的場景。

基線方法

  • Naive-MSRL:直接多場景RL訓練;
  • Naive-SSRL:單場景RL訓練;
  • Claude3.5:先進大模型基線。

實施細節:使用64張A100 GPU,batch size=1,學習率2e-6,訓練100輪,每輪通過自玩收集軌跡數據,結合GRPO算法更新策略,最終以勝率(W/D/L)評估跨場景性能。

實驗洞察

跨場景性能突破:Qwen2.5與Claude3.5的對戰表現

在18款TextArena游戲中,采用Divide-Fuse-Conquer(DFC-MSRL)訓練的Qwen2.5-32B-Align模型展現出顯著提升:

  • 單玩家游戲全勝突破:在TowerOfHanoi-v0-medium等場景中,模型從基礎版本的0勝率提升至100%勝率,如3層漢諾塔問題中,通過策略優化實現7步內完成移動(傳統解法最優步數)。
  • 雙玩家游戲競爭力:與Claude3.5對戰時,取得7勝4平7負的戰績。其中在ConnectFour-v0中以13勝1平6負顯著超越基礎模型(4勝2平14負);在Poker-v0中以7勝11平2負實現平局率提升,證明在策略博弈中具備動態決策能力。

效率驗證:訓練收斂速度與資源優化

  • 對比單/多場景訓練:DFC-MSRL在ConnectFour-v0中僅用10輪迭代就達到65%勝率,而Naive-MSRL需30輪才收斂至40%,訓練效率提升約3倍。這得益于分組訓練減少了跨場景干擾,類似分階段攻克知識點的學習模式。
  • 采樣策略的效率優勢:混合優先級采樣(MPS)使TowerOfHanoi-v0-medium的有效訓練樣本增加40%,模型在20輪內即穩定至100%勝率,而均勻采樣基線需40輪,驗證了“優先攻克薄弱場景”策略的高效性。

消融研究:核心技術的有效性拆解

穩定性優化技術

  • 格式獎勵塑造(FR):在Poker-v0中,FR使模型輸出有效動作比例(GF)始終維持1.0,而無FR的基線模型在10輪后GF驟降至0.6,出現大量格式錯誤(如未按“[Action]”格式輸出),證明格式約束是訓練基石。
  • 半負采樣(HN):在TowerOfHanoi-v0中,HN將訓練初期的勝率波動從±30%降至±5%,避免負樣本主導導致的策略崩潰,如同在學習中過濾掉過多錯誤示例的干擾。

探索與采樣技術

  • ε-greedy擾動(EG):在ConnectFour-v0中,EG=0.3時模型從持續輸給Claude3.5(0勝20負)轉變為可獲勝(5勝1平14負),證明隨機探索能幫助模型發現“四子連線”的關鍵策略,而純貪心策略易陷入固定思維。
  • 隨機種子初始化(RS):在LiarsDice-v0中,RS使模型面對不同初始骰子分布時勝率提升25%,從基線的40%升至65%,驗證了多樣化初始狀態對策略泛化的重要性。

獎勵機制優化

  • 倉促動作懲罰(HAP):在TowerOfHanoi-v0-medium中,HAP使模型平均決策步數從12步降至8步(接近最優解),軌跡長度減少33%,表明懲罰機制有效抑制了“盲目試錯”行為,引導模型追求高效策略。

Aha Moment

在TextArena游戲中應用GRPO訓練時,模型偶現“Aha moments”。表現為勝率顯著提升,如ConnectFour-v0從4勝到13勝;響應更深入,token長度增30%;結合懲罰后執行步數減25%,如TowerOfHanoi-v0-medium達最優解,體現從試錯到策略推理的突破。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/84300.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/84300.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/84300.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

佰力博科技與您探討壓電材料的原理與壓電效應的應用

壓電材料的原理基于正壓電效應和逆壓電效應,即機械能與電能之間的雙向轉換特性。 壓電材料的原理源于其獨特的晶體結構和電-機械耦合效應,具體可分為以下核心要點: 1. ?正壓電效應與逆壓電效應的定義? ?正壓電效應?:當壓電…

算法備案審核周期

(一)主體備案審核 主體備案審核周期通常為7-10個工作日,監管部門將對企業提交的資質信息進行嚴格審查,審核重點包括: 營業執照的真實性、有效性及與備案主體的一致性。法人及算法安全責任人身份信息的準確性與有效性…

管理系統的接口文檔

一、接口概述 本接口文檔用于描述圖書管理系統中的一系列 Restful 接口,涵蓋圖書的查詢、添加、更新與刪除操作,以及用戶的登錄注冊等功能,方便客戶端與服務器之間進行數據交互。 二、接口基礎信息 接口地址:https://book-manag…

杰發科技AC7801——PWM獲取固定脈沖個數

測試通道6 在初始化時候打開通道中斷 void PWM1_GenerateFrequency(void) {PWM_CombineChConfig combineChConfig[1]; //組合模式相關結構體PWM_IndependentChConfig independentChConfig[2];//獨立模式相關結構體PWM_ModulationConfigType pwmConfig; //PWM模式相關結構體PWM…

RL電路的響應

學完RC電路的響應,又過了一段時間了,想必很多人都忘了RC電路響應的一些內容。我們這次學習RL電路的響應,以此同時,其實也是帶大家一起回憶一些之前所學的RC電路的響應的一些知識點。所以,這次的學習,其實也…

鴻蒙Flutter實戰:21-混合開發詳解-1-概述

引言 在前面的系列文章中,我們從搭建開發環境開始,講到如何使用、集成第三方插件,如何將現有項目進行鴻蒙化改造,以及上架審核等內容;還以高德地圖的 HarmonyOS SDK 的使用為例, 講解了如何將高德地圖集成…

Vmware ubuntu22.04 虛擬機 連接Windows主機虛擬串口

1. Windows虛擬串口配置 虛擬串口下載:教程網址 虛擬串口使用:教程網址 2. Ubuntu 虛擬串口配置 Vmware ubuntu22.04 虛擬機 連接windows主機虛擬串口_vmware中ttys0連接的是哪個端口-CSDN博客 注意:虛擬添加串口的時候,一直…

編譯rk3568的buildroot不起作用

一、環境: 使用kickpi k1開發板,芯片為rk3568。 vmware ubuntu22.04 kickpi給的sdk包,應該不同友商是通用的。 使用的根文件為buildroot 二、問題: 由于 1、wpa_supplicant -D wext -c /etc/wpa_supplicant.conf -i wlan0 …

【動態規劃】簡單多狀態(二)

📝前言說明: 本專欄主要記錄本人的基礎算法學習以及LeetCode刷題記錄,按專題劃分每題主要記錄:(1)本人解法 本人屎山代碼;(2)優質解法 優質代碼;&#xff…

如何選擇支持AI接入的開發語言與框架

選擇支持AI接入的開發語言與框架 在AI系統開發中,語言和框架的選擇不僅決定了代碼實現方式,更深刻影響模型服務的接入效率、調用方式、性能表現和未來的可維護性。相比傳統后端系統的語言選擇只需關注并發性能或生態成熟度,AI架構下的開發語言必須同時滿足以下幾類能力: 具…

計算機視覺與深度學習 | Python實現CEEMDAN-ABC-VMD-DBO-CNN-LSTM時間序列預測(完整源碼和數據)

以下是一個結合CEEMDAN、ABC優化VMD、DBO優化CNN-LSTM的完整時間序列預測實現方案。該方案包含完整的數據生成、算法實現和模型構建代碼。 完整實現代碼 import numpy as np import pandas as pd from PyEMD import CEEMDAN from vmdpy import VMD from sklearn.preprocessing…

React19源碼系列之渲染階段performUnitOfWork

在 React 內部實現中,將 render 函數分為兩個階段: 渲染階段提交階段 其中渲染階段可以分為 beginWork 和 completeWork 兩個階段,而提交階段對應著 commitWork。 在之前的root.render過程中,渲染過程無論是并發模式執行還是同…

c# 解碼 encodeURIComponent

在C#中,如果你需要解碼由encodeURIComponent方法編碼的URL,你可以使用System.Web命名空間中的HttpUtility.UrlDecode方法。這個方法可以處理由JavaScript的encodeURIComponent方法編碼的字符串。 首先,確保你的項目中引用了System.Web命名空…

Python學習心得:代碼森林的冒險

第一章:迷霧中的第一步 林然從未想過自己會與代碼結緣。那是一個平淡的周六清晨,陽光穿過窗簾,灑在她那臺老舊的筆記本電腦上。屏幕上,Python的安裝界面靜靜地等待著她的決定。她是一個文科生,大學主修社會學&#xf…

展示了一個三軸(X, Y, Z)坐標系!

等軸測投影”(isometric projection)風格的手繪風格三維圖,即三條坐標軸(x?, x?, x?)看起來彼此垂直、等角分布(通常是 120 夾角),它是常見于教材和數學書籍的 “假三維”表示法。…

計算機網絡 - 2.基礎協議

1.TCP協議 1.TCP(Transmission Control Protocol):傳輸控制協議2.TCP協議是一種面向連接的、可靠的、 基于字節流的傳輸層通信協議 1.面向連接:兩個使用TCP協議的應用(通常一個客戶和一個服務器)在彼此交換數據包之前必須先建立一個TCP連接2.可靠的 1.數據傳輸之前都要建立…

前端之vue3創建基本工程,基本登錄、注冊等功能的完整過程

此文也是為了做一個基本學習用的vue3創建項目的過程,包含基本的登錄頁面、登出頁面、基本的router跳轉、axios調用、登錄驗證等內容。與項目: https://gitee.com/rainpet/java-web-demo/tree/master/spring-security01 可以配套使用。 如下為主要過程。 …

如果有三個服務實例部署在三臺不同的服務器上,這三個服務實例的本地緩存,是存儲一模一樣的數據?還是各自只存一部分?

? 答案是:通常每個服務實例都會獨立地緩存它自己訪問過的數據,這些數據可能是相同的,也可能是不同的,取決于請求的內容。 📌 舉個例子說明 假設你有一個商品詳情頁的服務,部署了 3 個服務實例&#xff08…

九州未來十三載:開源賦能 智啟未來

2012年,九州未來以“開源賦能云邊變革”為使命,開啟中國開放云邊基礎架構服務的探索之路。十三載堅守深耕,我們始終以開源為翼,以算力為基,在科技浪潮中砥礪前行,見證并推動著AI時代的算力變革。 堅守初心丨…

Axure項目實戰:智慧運輸平臺后臺管理端-訂單管理1(多級交互)

親愛的小伙伴,在您瀏覽之前,煩請關注一下,在此深表感謝!如有幫助請訂閱專欄! Axure產品經理精品視頻課已登錄CSDN可點擊學習https://edu.csdn.net/course/detail/40420 課程主題:訂單管理 主要內容:條件組合、中繼器篩選、表單跟隨菜單拖動、審批數據互通等 應用場景…