多場景游戲AI新突破！Divide-Fuse-Conquer如何激發大模型“頓悟時刻“？

多場景游戲AI新突破！Divide-Fuse-Conquer如何激發大模型"頓悟時刻"？

大語言模型在強化學習中偶現的"頓悟時刻"引人關注，但多場景游戲中訓練不穩定、泛化能力差等問題亟待解決。Divide-Fuse-Conquer方法，通過分組訓練、參數融合等策略，在18款TextArena游戲中實現與Claude3.5相當的性能，為多場景強化學習提供新思路。

論文標題
Divide-Fuse-Conquer: Eliciting “Aha Moments” in Multi-Scenario Games
來源
arXiv:2505.16401v1 [cs.LG] + https://arxiv.org/abs/2505.16401

文章核心

研究背景

近年來，大語言模型（LLMs）在強化學習（RL）中展現出令人矚目的推理能力，在數學、編程、視覺等領域通過簡單的基于結果的獎勵，就能觸發類似人類“頓悟時刻”的能力突破。

盡管RL在單場景任務中成效顯著，但在多場景游戲領域卻面臨嚴峻挑戰。游戲場景中，規則、交互模式和環境復雜度的多樣性，導致策略常出現“此長彼消”的泛化困境——在某一場景表現優異，卻難以遷移至其他場景。而簡單合并多場景進行訓練，還會引發訓練不穩定、性能不佳等問題，這使得多場景游戲成為檢驗RL與LLMs結合成效的關鍵領域，也亟需新的方法來突破現有瓶頸。

研究問題

1. 訓練不穩定性：多場景游戲中任務分布異質性強，直接應用強化學習易導致訓練崩潰，如DeepSeek-R1在場景增多時性能顯著下降。

2. 泛化能力不足：簡單合并多場景訓練時，模型在某一場景表現良好，卻難以遷移到其他場景，出現"顧此失彼"的情況。

3. 效率與性能矛盾：統一訓練所有場景時，模型可能優先學習簡單任務，忽視復雜任務，導致整體優化效率低下且最終性能不佳。

主要貢獻

1. 提出Divide-Fuse-Conquer框架：通過啟發式分組、參數融合和漸進式訓練，系統性解決多場景強化學習中的訓練不穩定和泛化問題，這與傳統單一訓練或簡單合并訓練的方式有本質區別。

2. 創新技術組合提升訓練質量：集成格式獎勵塑造、半負采樣、混合優先級采樣等技術，從穩定性、效率和性能三方面優化訓練過程，如半負采樣通過過濾一半負樣本防止梯度主導，就像在嘈雜環境中過濾掉部分干擾信號。

3. 多場景游戲驗證與性能突破：在18款TextArena游戲中，使用Qwen2.5-32B-Align模型訓練后，與Claude3.5對戰取得7勝4平7負的成績，證明該框架能有效激發大模型在多場景游戲中的"頓悟時刻"。

方法論精要

框架設計：Divide-Fuse-Conquer的三級遞進策略

分組（Divide）：根據游戲規則（如固定/隨機初始狀態）和難度（基礎模型勝率是否為零），將18款TextArena游戲劃分為4個組。例如，ConnectFour-v0等固定初始狀態且基礎模型可獲勝的游戲歸為一組，而LiarsDice-v0等隨機初始狀態且初始勝率為零的游戲歸為另一組，如同將復雜任務按類型和難度分類拆解。

融合（Fuse）：采用參數平均策略融合各組最優策略。具體而言，第 $k$ 組策略參數 $\theta^{(\pi_k)}$ 與前 $k ? 1$ 組合并后的參數 $\theta^{(\pi{(k-1)})})$ 按 $\theta^{(\pi{(k)})} = \frac{1}{2}(\theta^{\pi{(k-1)}} + \theta^{\pi_k})$ 融合，使新模型繼承跨組知識，類似將不同領域的專家經驗整合為“全能選手”。

征服（Conquer）：通過GRPO算法對融合模型持續訓練，結合多維度優化技術，逐步提升跨場景泛化能力。

核心技術：多維度訓練優化組合

獎勵機制重構：

格式獎勵 $(R_{\text{format}})$ ：對無效動作（如格式錯誤）施加-2懲罰，確保模型輸出合規，如同考試中規范答題格式。

環境獎勵 $(R_{\text{env}})$ ：按游戲結果賦予1（勝）、0（平）、-1（負），直接反饋游戲勝負。

倉促動作懲罰 $(R_{\text{step}})$ ：在獲勝場景中，根據軌跡步數 $n_T$ 縮放獎勵（如TowerOfHanoi中高效解法獲更高分），引導模型避免短視決策。

樣本與探索優化：

半負采樣（Half-Negative Sampling）：隨機丟棄50%負樣本，防止負梯度主導訓練，類似在嘈雜數據中過濾干擾。

混合優先級采樣（MPS）：動態分配采樣權重，優先訓練中低勝率游戲，如學生重點攻克薄弱科目。

$\epsilon$ -greedy擾動與隨機種子：以概率 $\epsilon$ 隨機選擇動作，并隨機初始化環境種子，增強探索多樣性，避免陷入局部最優。

實驗驗證：多場景與基線對比設計

數據集：TextArena平臺18款游戲，包括4款單玩家（如TowerOfHanoi-v0）和14款雙玩家（如Poker-v0、ConnectFour-v0），覆蓋規則簡單到復雜的場景。

基線方法：

Naive-MSRL：直接多場景RL訓練；
Naive-SSRL：單場景RL訓練；
Claude3.5：先進大模型基線。

實施細節：使用64張A100 GPU，batch size=1，學習率2e-6，訓練100輪，每輪通過自玩收集軌跡數據，結合GRPO算法更新策略，最終以勝率（W/D/L）評估跨場景性能。

實驗洞察

跨場景性能突破：Qwen2.5與Claude3.5的對戰表現

在18款TextArena游戲中，采用Divide-Fuse-Conquer（DFC-MSRL）訓練的Qwen2.5-32B-Align模型展現出顯著提升：

單玩家游戲全勝突破：在TowerOfHanoi-v0-medium等場景中，模型從基礎版本的0勝率提升至100%勝率，如3層漢諾塔問題中，通過策略優化實現7步內完成移動（傳統解法最優步數）。
雙玩家游戲競爭力：與Claude3.5對戰時，取得7勝4平7負的戰績。其中在ConnectFour-v0中以13勝1平6負顯著超越基礎模型（4勝2平14負）；在Poker-v0中以7勝11平2負實現平局率提升，證明在策略博弈中具備動態決策能力。

效率驗證：訓練收斂速度與資源優化

對比單/多場景訓練：DFC-MSRL在ConnectFour-v0中僅用10輪迭代就達到65%勝率，而Naive-MSRL需30輪才收斂至40%，訓練效率提升約3倍。這得益于分組訓練減少了跨場景干擾，類似分階段攻克知識點的學習模式。
采樣策略的效率優勢：混合優先級采樣（MPS）使TowerOfHanoi-v0-medium的有效訓練樣本增加40%，模型在20輪內即穩定至100%勝率，而均勻采樣基線需40輪，驗證了“優先攻克薄弱場景”策略的高效性。

消融研究：核心技術的有效性拆解

穩定性優化技術

格式獎勵塑造（FR）：在Poker-v0中，FR使模型輸出有效動作比例（GF）始終維持1.0，而無FR的基線模型在10輪后GF驟降至0.6，出現大量格式錯誤（如未按“[Action]”格式輸出），證明格式約束是訓練基石。
半負采樣（HN）：在TowerOfHanoi-v0中，HN將訓練初期的勝率波動從±30%降至±5%，避免負樣本主導導致的策略崩潰，如同在學習中過濾掉過多錯誤示例的干擾。

探索與采樣技術

ε-greedy擾動（EG）：在ConnectFour-v0中，EG=0.3時模型從持續輸給Claude3.5（0勝20負）轉變為可獲勝（5勝1平14負），證明隨機探索能幫助模型發現“四子連線”的關鍵策略，而純貪心策略易陷入固定思維。
隨機種子初始化（RS）：在LiarsDice-v0中，RS使模型面對不同初始骰子分布時勝率提升25%，從基線的40%升至65%，驗證了多樣化初始狀態對策略泛化的重要性。

獎勵機制優化

倉促動作懲罰（HAP）：在TowerOfHanoi-v0-medium中，HAP使模型平均決策步數從12步降至8步（接近最優解），軌跡長度減少33%，表明懲罰機制有效抑制了“盲目試錯”行為，引導模型追求高效策略。

Aha Moment

在TextArena游戲中應用GRPO訓練時，模型偶現“Aha moments”。表現為勝率顯著提升，如ConnectFour-v0從4勝到13勝；響應更深入，token長度增30%；結合懲罰后執行步數減25%，如TowerOfHanoi-v0-medium達最優解，體現從試錯到策略推理的突破。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/diannao/84300.shtml
繁體地址，請注明出處：http://hk.pswp.cn/diannao/84300.shtml
英文地址，請注明出處：http://en.pswp.cn/diannao/84300.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！