AI速讀：解鎖LLM下Game Agent的奇妙世界

在 AI 浪潮中，大語言模型（LLMs）正重塑游戲智能體格局。想知道基于 LLMs 的游戲智能體如何運作，在各類游戲中有何驚艷表現，未來又將走向何方？

大型語言模型（LLMs）的興起為游戲智能體的發展注入了強大動力，引發學界和業界廣泛關注。這篇論文全面且深入地回顧了基于 LLMs 的游戲智能體相關研究，內容涵蓋智能體框架、核心組件、應用實例以及未來發展趨勢等多個關鍵層面。

論文標題：A Survey on Large Language Model Based Game Agents
來源：arXiv:2404.02039 [cs.AI] + 鏈接：http://arxiv.org/abs/2404.02039

基于 LLMs 的游戲智能體框架

游戲設定與策略表示

在游戲環境里，智能體與環境的交互常用馬爾可夫決策過程（MDP）來描述。與傳統智能體不同，基于 LLMs 的智能體依賴 LLMs 處理自然語言。它將游戲策略以文本形式呈現，依據觀察到的游戲狀態生成推理內容，進而決定采取何種行動，這種方式讓智能體對復雜環境的理解和應對更具靈活性。

核心組件

記憶模塊：它如同智能體的 “大腦倉庫”，存儲著過去積累的豐富經驗、各種想法以及掌握的技能。在游戲進程中，記憶模塊幫助智能體快速回憶起有用信息，使智能體在不同情節中保持連貫的行動邏輯，不斷優化自身游戲策略，以更好地應對各類復雜情況。
推理模塊：此模塊堪稱基于 LLMs 的智能體區別于傳統 AI 的核心所在。通過語言進行策略規劃，智能體能夠在復雜多變的游戲潛在空間中展開探索，有效解決更為復雜的任務。不過，其初始推理能力源自預訓練數據，所以在實際應用中，通過與環境積極互動來持續提升推理能力顯得尤為重要。
輸入 / 輸出模塊：輸入模塊的作用是把游戲世界的各種信息轉化為 LLMs 能夠理解的自然語言形式，讓智能體得以利用預訓練所積累的知識，而不是像傳統強化學習（RL）智能體那樣一切從頭開始學習。輸出模塊則負責將 LLMs 生成的行動決策轉化為游戲環境可以執行的具體指令，實現智能體在游戲中的實際操作。

示例分析

井字棋（Tic - Tac - Toe）：輸入模塊把井字棋 3×3 棋盤上的符號狀態轉化為文本描述。記憶模塊存儲著過往游戲中的走法（情景記憶）以及通用的游戲策略（語義知識），比如 “形成雙威脅（fork）可獲勝” 這類策略。推理過程通過樹狀搜索對不同落子位置的后續結果進行評估，最終輸出行動決策，再由輸出模塊轉化為實際的落子操作，更新棋盤狀態。
寶可夢對戰（Pokémon Battles）：輸入模塊將對戰中的各種狀態信息，如寶可夢的屬性、技能、生命值等，轉化為文本形式。記憶模塊不僅記錄近期對戰的具體情況，還從中提煉出屬性相克等語義知識。推理時，智能體結合當前對戰狀態和記憶中的知識，選擇最佳行動，比如根據對方寶可夢屬性和自身寶可夢狀態來決定是否切換寶可夢以及使用何種技能，最后輸出模塊將決策轉化為游戲中的實際行動指令。

核心組件詳細剖析

記憶系統

Working Memory：受限于預訓練條件，LLMs 的上下文長度存在一定限制。為了有效處理長序列信息，可采用位置插值 / 外推（例如 PI、LongRoPE 等方法）以及并行上下文處理（如 PCW、PoSE 等技術）來擴展上下文窗口，增加智能體能夠處理的信息長度。同時，通過軟令牌壓縮（像 AutoCompressor、ICAE 等）和分層總結（例如 Nugget、WDMM 等）等手段來解決信息過載問題，讓智能體在有限的資源下高效處理信息。
Long-term Memory：長期記憶包含情景記憶（記錄特定的游戲事件）、語義記憶（存儲游戲相關的事實性知識）和程序記憶（掌握游戲中的任務執行技能）。其組織形式豐富多樣，有文本塊、鍵值對、樹結構、知識圖等，甚至還能將信息存儲在模型參數之中。不同的組織形式對應著不同的檢索方式，并且可以通過言語強化（即從失敗和成功的經驗對比中學習）來顯著提升智能體的性能。

推理

Deliberate Prompting：包含思維鏈（CoT）、結構推理（如 Self - Consistency、GPTLens 等）和心理理論（ToM）思維等多種方法。思維鏈（CoT）能夠促使 LLMs 在生成最終答案之前進行中間步驟的推理，顯著提升智能體處理復雜任務的能力，不過可能會出現行動不一致的情況。結構推理則通過改進推理路徑的選擇，有效解決了這一問題。心理理論（ToM）思維幫助智能體更好地理解其他游戲參與者的意圖，在各類游戲場景中都發揮著重要作用。
監督微調：通過在收集到的游戲軌跡數據上對 LLMs 進行微調，使智能體能夠學習到專家玩家的推理方式和行動策略。其中，行為克隆是直接模仿專家的游戲軌跡，拒絕采樣微調則是挑選符合特定標準的樣本進行訓練，以提高智能體的學習效果。
強化學習：基于策略的方法（例如 PPO）主要是訓練 LLMs 作為智能體的決策策略，同時學習價值模型來評估行動的優勢程度。價值 - based 方法側重于學習估計狀態 - 行動對的預期回報。過程獎勵建模（PRM）則為智能體的推理步驟提供實時反饋，有效提升推理效率，讓智能體在不斷試錯中優化策略。
直接偏好優化：以 DPO 為例，它通過對比學習的方式，最大化優質生成結果與較差生成結果之間的差異，這種方法簡化了訓練過程，并且降低了內存成本，提高了訓練的效率和效果。

輸入 / 輸出

輸入：根據游戲狀態的模態不同，輸入方式主要有文本觀察（直接利用游戲中已有的文本描述信息）、符號狀態描述（將結構化的游戲狀態信息轉化為文本提示）、視覺到文本轉換（借助外部視覺模型將游戲畫面等視覺信息處理為文本）和多模態 LLM 感知（直接運用多模態 LLMs 同時處理圖像和文本等多種信息）。
輸出：LLMs 生成的高級文本行動需要轉化為具體的游戲行動，實現方式包括直接使用高級行動（在合適的游戲場景中直接應用 LLMs 生成的高級指令）、通過低級控制器轉換（將高級行動進一步細化為低級的控制序列）和程序性行動（輸出結構化的代碼來執行具體操作），但每種方式在實際應用中都面臨著各自獨特的挑戰。

在各類游戲中的應用

冒險游戲：冒險游戲分為文本冒險游戲（像 TextWorld、Jericho 等）和視頻冒險游戲（例如 Red Dead Redemption 2）。在文本冒險游戲中，游戲進程高度依賴常識知識，LLMs 可以作為強大的語言先驗，有效引導智能體采取合理行動。在視頻冒險游戲方面，如 Cradle 項目利用 GPT - 4V 來感知游戲屏幕畫面，并據此控制游戲角色的行動。
交流游戲：包括狼人殺（Werewolf）、阿瓦隆（Avalon）和外交（Diplomacy）等游戲。這類游戲的難點在于需要智能體準確推斷其他玩家的意圖，同時巧妙隱藏自身意圖。LLMs 通過推理和策略學習參與到這類游戲中，然而，像 GPT - 3.5 在某些復雜情況下，仍然存在難以制定有效策略以及準確執行策略的問題。
競爭游戲：例如星際爭霸 II（StarCraft II）、寶可夢對戰、國際象棋（Chess）和撲克（Poker）等。這些游戲是檢驗智能體推理和規劃能力的重要基準。在這些游戲中，LLMs 能夠實現與人類玩家相當的游戲表現，比如 PokéLLMon 在寶可夢對戰中能夠充分利用游戲反饋信息，不斷優化自身對戰策略。
合作游戲：涵蓋合作烹飪、實體家庭合作和合作建造與探索等多種任務類型，并且分為去中心化合作（如在 Overcooked 游戲中，智能體需要推斷伙伴的意圖以實現有效協作）和中心化合作（例如在 Minecraft 游戲中，通過中央調度器來分配任務）兩種模式。LLMs 的應用有助于顯著提升團隊協作的效率，促進智能體之間的協同配合。
模擬游戲：可細分為人類和社會模擬（比如 Generative Agents 模擬人類的日常生活場景）、文明模擬（如 CivRealm 模擬人類歷史的發展進程）和實體模擬（例如在虛擬環境中執行各種實際任務）。在這些模擬游戲中，LLMs 主要用于模擬各種場景和進行決策，幫助玩家更好地體驗和管理復雜的虛擬世界。
建造與探索游戲：以 Minecraft 和 Crafter 為典型代表，智能體在這類游戲中面臨著收集材料、規劃建造以及探索游戲世界等多重任務。在建造任務中，LLMs 可以作為規劃器，將復雜的建造目標分解為具體的子目標和步驟。在探索任務中，LLMs 又可以充當目標生成器，例如 Voyager 在 Minecraft 中能夠根據自身當前狀態自動生成合理的探索目標。

未來研究方向展望

游戲基準：高質量的游戲基準對于提升基于 LLMs 的智能體能力起著至關重要的作用。不同類型的游戲能夠有針對性地培養智能體的特定技能，例如包含豐富語義知識的游戲有助于智能體進行知識發現；具有復雜決策空間的游戲能夠有效鍛煉智能體的推理能力；動作類游戲可以用于評估智能體的視覺感知和低級控制能力；競爭與合作類游戲能夠檢驗智能體的心理理論推理水平；模擬游戲則有利于促進智能體涌現行為的研究。
環境中的自我進化：智能體的自我進化可以通過基于模型的方法（比如利用強化學習技術來改進智能體的推理和決策過程，精心設計合適的獎勵函數，并確保訓練過程的穩定性）和基于記憶的方法（例如從過往經驗中提取和存儲有用的語義知識，進行言語強化學習，構建高效的記憶模塊，以支持智能體的持續進化）來實現。
智能體社會模擬：未來在智能體社會模擬方面，可以從三個主要方向展開拓展研究。一是構建更為準確的認知框架，以更精準地捕捉人類認知的復雜性；二是創建更加逼真的建模環境，使其能夠更好地反映現實世界的復雜性；三是開展大規模模擬，通過解決并行計算等技術挑戰，實現對大量智能體的有效處理和模擬。