AI速讀:解鎖LLM下Game Agent的奇妙世界

在 AI 浪潮中,大語言模型(LLMs)正重塑游戲智能體格局。想知道基于 LLMs 的游戲智能體如何運作,在各類游戲中有何驚艷表現,未來又將走向何方?

大型語言模型(LLMs)的興起為游戲智能體的發展注入了強大動力,引發學界和業界廣泛關注。這篇論文全面且深入地回顧了基于 LLMs 的游戲智能體相關研究,內容涵蓋智能體框架、核心組件、應用實例以及未來發展趨勢等多個關鍵層面。

論文標題:A Survey on Large Language Model Based Game Agents
來源:arXiv:2404.02039 [cs.AI] + 鏈接:http://arxiv.org/abs/2404.02039

基于 LLMs 的游戲智能體框架

游戲設定與策略表示

在游戲環境里,智能體與環境的交互常用馬爾可夫決策過程(MDP)來描述。與傳統智能體不同,基于 LLMs 的智能體依賴 LLMs 處理自然語言。它將游戲策略以文本形式呈現,依據觀察到的游戲狀態生成推理內容,進而決定采取何種行動,這種方式讓智能體對復雜環境的理解和應對更具靈活性。

核心組件

  • 記憶模塊:它如同智能體的 “大腦倉庫”,存儲著過去積累的豐富經驗、各種想法以及掌握的技能。在游戲進程中,記憶模塊幫助智能體快速回憶起有用信息,使智能體在不同情節中保持連貫的行動邏輯,不斷優化自身游戲策略,以更好地應對各類復雜情況。
  • 推理模塊:此模塊堪稱基于 LLMs 的智能體區別于傳統 AI 的核心所在。通過語言進行策略規劃,智能體能夠在復雜多變的游戲潛在空間中展開探索,有效解決更為復雜的任務。不過,其初始推理能力源自預訓練數據,所以在實際應用中,通過與環境積極互動來持續提升推理能力顯得尤為重要。
  • 輸入 / 輸出模塊:輸入模塊的作用是把游戲世界的各種信息轉化為 LLMs 能夠理解的自然語言形式,讓智能體得以利用預訓練所積累的知識,而不是像傳統強化學習(RL)智能體那樣一切從頭開始學習。輸出模塊則負責將 LLMs 生成的行動決策轉化為游戲環境可以執行的具體指令,實現智能體在游戲中的實際操作。

示例分析

  • 井字棋(Tic - Tac - Toe):輸入模塊把井字棋 3×3 棋盤上的符號狀態轉化為文本描述。記憶模塊存儲著過往游戲中的走法(情景記憶)以及通用的游戲策略(語義知識),比如 “形成雙威脅(fork)可獲勝” 這類策略。推理過程通過樹狀搜索對不同落子位置的后續結果進行評估,最終輸出行動決策,再由輸出模塊轉化為實際的落子操作,更新棋盤狀態。
  • 寶可夢對戰(Pokémon Battles):輸入模塊將對戰中的各種狀態信息,如寶可夢的屬性、技能、生命值等,轉化為文本形式。記憶模塊不僅記錄近期對戰的具體情況,還從中提煉出屬性相克等語義知識。推理時,智能體結合當前對戰狀態和記憶中的知識,選擇最佳行動,比如根據對方寶可夢屬性和自身寶可夢狀態來決定是否切換寶可夢以及使用何種技能,最后輸出模塊將決策轉化為游戲中的實際行動指令。

核心組件詳細剖析

記憶系統

  • Working Memory:受限于預訓練條件,LLMs 的上下文長度存在一定限制。為了有效處理長序列信息,可采用位置插值 / 外推(例如 PI、LongRoPE 等方法)以及并行上下文處理(如 PCW、PoSE 等技術)來擴展上下文窗口,增加智能體能夠處理的信息長度。同時,通過軟令牌壓縮(像 AutoCompressor、ICAE 等)和分層總結(例如 Nugget、WDMM 等)等手段來解決信息過載問題,讓智能體在有限的資源下高效處理信息。
  • Long-term Memory:長期記憶包含情景記憶(記錄特定的游戲事件)、語義記憶(存儲游戲相關的事實性知識)和程序記憶(掌握游戲中的任務執行技能)。其組織形式豐富多樣,有文本塊、鍵值對、樹結構、知識圖等,甚至還能將信息存儲在模型參數之中。不同的組織形式對應著不同的檢索方式,并且可以通過言語強化(即從失敗和成功的經驗對比中學習)來顯著提升智能體的性能。
推理

  • Deliberate Prompting:包含思維鏈(CoT)、結構推理(如 Self - Consistency、GPTLens 等)和心理理論(ToM)思維等多種方法。思維鏈(CoT)能夠促使 LLMs 在生成最終答案之前進行中間步驟的推理,顯著提升智能體處理復雜任務的能力,不過可能會出現行動不一致的情況。結構推理則通過改進推理路徑的選擇,有效解決了這一問題。心理理論(ToM)思維幫助智能體更好地理解其他游戲參與者的意圖,在各類游戲場景中都發揮著重要作用。
  • 監督微調:通過在收集到的游戲軌跡數據上對 LLMs 進行微調,使智能體能夠學習到專家玩家的推理方式和行動策略。其中,行為克隆是直接模仿專家的游戲軌跡,拒絕采樣微調則是挑選符合特定標準的樣本進行訓練,以提高智能體的學習效果。
  • 強化學習:基于策略的方法(例如 PPO)主要是訓練 LLMs 作為智能體的決策策略,同時學習價值模型來評估行動的優勢程度。價值 - based 方法側重于學習估計狀態 - 行動對的預期回報。過程獎勵建模(PRM)則為智能體的推理步驟提供實時反饋,有效提升推理效率,讓智能體在不斷試錯中優化策略。
  • 直接偏好優化:以 DPO 為例,它通過對比學習的方式,最大化優質生成結果與較差生成結果之間的差異,這種方法簡化了訓練過程,并且降低了內存成本,提高了訓練的效率和效果。
輸入 / 輸出

  • 輸入:根據游戲狀態的模態不同,輸入方式主要有文本觀察(直接利用游戲中已有的文本描述信息)、符號狀態描述(將結構化的游戲狀態信息轉化為文本提示)、視覺到文本轉換(借助外部視覺模型將游戲畫面等視覺信息處理為文本)和多模態 LLM 感知(直接運用多模態 LLMs 同時處理圖像和文本等多種信息)。
  • 輸出:LLMs 生成的高級文本行動需要轉化為具體的游戲行動,實現方式包括直接使用高級行動(在合適的游戲場景中直接應用 LLMs 生成的高級指令)、通過低級控制器轉換(將高級行動進一步細化為低級的控制序列)和程序性行動(輸出結構化的代碼來執行具體操作),但每種方式在實際應用中都面臨著各自獨特的挑戰。

在各類游戲中的應用

  1. 冒險游戲:冒險游戲分為文本冒險游戲(像 TextWorld、Jericho 等)和視頻冒險游戲(例如 Red Dead Redemption 2)。在文本冒險游戲中,游戲進程高度依賴常識知識,LLMs 可以作為強大的語言先驗,有效引導智能體采取合理行動。在視頻冒險游戲方面,如 Cradle 項目利用 GPT - 4V 來感知游戲屏幕畫面,并據此控制游戲角色的行動。
  2. 交流游戲:包括狼人殺(Werewolf)、阿瓦隆(Avalon)和外交(Diplomacy)等游戲。這類游戲的難點在于需要智能體準確推斷其他玩家的意圖,同時巧妙隱藏自身意圖。LLMs 通過推理和策略學習參與到這類游戲中,然而,像 GPT - 3.5 在某些復雜情況下,仍然存在難以制定有效策略以及準確執行策略的問題。
  3. 競爭游戲:例如星際爭霸 II(StarCraft II)、寶可夢對戰、國際象棋(Chess)和撲克(Poker)等。這些游戲是檢驗智能體推理和規劃能力的重要基準。在這些游戲中,LLMs 能夠實現與人類玩家相當的游戲表現,比如 PokéLLMon 在寶可夢對戰中能夠充分利用游戲反饋信息,不斷優化自身對戰策略。
  4. 合作游戲:涵蓋合作烹飪、實體家庭合作和合作建造與探索等多種任務類型,并且分為去中心化合作(如在 Overcooked 游戲中,智能體需要推斷伙伴的意圖以實現有效協作)和中心化合作(例如在 Minecraft 游戲中,通過中央調度器來分配任務)兩種模式。LLMs 的應用有助于顯著提升團隊協作的效率,促進智能體之間的協同配合。
  5. 模擬游戲:可細分為人類和社會模擬(比如 Generative Agents 模擬人類的日常生活場景)、文明模擬(如 CivRealm 模擬人類歷史的發展進程)和實體模擬(例如在虛擬環境中執行各種實際任務)。在這些模擬游戲中,LLMs 主要用于模擬各種場景和進行決策,幫助玩家更好地體驗和管理復雜的虛擬世界。
  6. 建造與探索游戲:以 Minecraft 和 Crafter 為典型代表,智能體在這類游戲中面臨著收集材料、規劃建造以及探索游戲世界等多重任務。在建造任務中,LLMs 可以作為規劃器,將復雜的建造目標分解為具體的子目標和步驟。在探索任務中,LLMs 又可以充當目標生成器,例如 Voyager 在 Minecraft 中能夠根據自身當前狀態自動生成合理的探索目標。

未來研究方向展望

  1. 游戲基準:高質量的游戲基準對于提升基于 LLMs 的智能體能力起著至關重要的作用。不同類型的游戲能夠有針對性地培養智能體的特定技能,例如包含豐富語義知識的游戲有助于智能體進行知識發現;具有復雜決策空間的游戲能夠有效鍛煉智能體的推理能力;動作類游戲可以用于評估智能體的視覺感知和低級控制能力;競爭與合作類游戲能夠檢驗智能體的心理理論推理水平;模擬游戲則有利于促進智能體涌現行為的研究。
  2. 環境中的自我進化:智能體的自我進化可以通過基于模型的方法(比如利用強化學習技術來改進智能體的推理和決策過程,精心設計合適的獎勵函數,并確保訓練過程的穩定性)和基于記憶的方法(例如從過往經驗中提取和存儲有用的語義知識,進行言語強化學習,構建高效的記憶模塊,以支持智能體的持續進化)來實現。
  3. 智能體社會模擬:未來在智能體社會模擬方面,可以從三個主要方向展開拓展研究。一是構建更為準確的認知框架,以更精準地捕捉人類認知的復雜性;二是創建更加逼真的建模環境,使其能夠更好地反映現實世界的復雜性;三是開展大規模模擬,通過解決并行計算等技術挑戰,實現對大量智能體的有效處理和模擬。

總結

本文系統全面地回顧了基于 LLMs 的游戲智能體相關研究,從智能體框架搭建到核心組件剖析,從多種游戲應用實例到未來研究方向展望,為該領域的研究人員提供了極為全面且有價值的參考,有力地推動了該領域的進一步發展。
本文由 AI 輔助完成。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/77750.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/77750.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/77750.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【每日八股】復習計算機網絡 Day3:TCP 協議的其他相關問題

文章目錄 昨日內容復習TCP 的四次揮手?TCP 為什么要四次揮手?在客戶端處于 FIN_WAIT_2 狀態時,如果此時收到了亂序的來自服務端的 FIN 報文,客戶端會如何處理?何時進入 TIME_WAIT 狀態?TCP 四次揮手丟了怎么…

學習筆記十五——rust柯里化,看不懂 `fn add(x) -> impl Fn(y)` 的同學點進來!

🧠 Rust 柯里化從零講透:看不懂 fn add(x) -> impl Fn(y) 的同學點進來! 🍔 一、什么是柯里化?先用一個超好懂的生活比喻 假設你在點一個漢堡: 你說:我要點一個雞腿漢堡! 店員…

深入理解 TCP 協議 | 流量、擁塞及錯誤控制機制

注:本文為 “TCP 協議” 相關文章合輯。 原文為繁體,注意術語描述差異。 作者在不同的文章中互相引用其不同文章,一并匯總于此。 略作重排,如有內容異常,請看原文。 TCP 三向交握 (Three-way Handshake) 2016-12-21 …

PCL庫編譯指南

PCL(Point Cloud Library)的編譯過程會根據不同操作系統有所差異。以下是詳細的編譯步驟: Linux/Ubuntu系統編譯 1. 安裝依賴項 bash sudo apt-get update sudo apt-get install git build-essential linux-libc-dev sudo apt-get install cmake cmake-gui sud…

【Linux】條件變量、基于阻塞隊列的生產者消費者模型

📚 博主的專欄 🐧 Linux | 🖥? C | 📊 數據結構 | 💡C 算法 | 🌐 C 語言 進程是資源分配的基本單位,線程是調度的基本單位,線程是在進程內部運行的(是進程內部…

32-工藝品商城小程序

技術: 基于 B/S 架構 SpringBootMySQLvueelementuiuniapp 環境: Idea mysql maven jdk1.8 node 可修改為其他類型商城 用戶端功能 1.系統首頁展示輪播圖及工藝品列表 2.分類模塊:展示產品的分類類型 3.購物車:進行商品多選結算 或者批量管理操作 4.…

SLAM | 激光SLAM中的退化問題

在激光SLAM中,判斷退化環境的核心是通過數學建模分析環境特征對位姿估計的約束能力。除了LOAM中提出的退化因子D外,還存在多種基于表達式和閾值設定的方法。以下是幾種典型方法及其實現原理: 1. 協方差矩陣特征值分析 原理:通過分析點云協方差矩陣的特征值分布,判斷環境中…

【2025最新版】火鳥門戶v8.5系統源碼+PC、H5、小程序 +數據化大屏插件

一.介紹 火鳥地方門戶系統V8.5源碼 系統包含4端: PCH5小程序APP 二.搭建環境 系統環境:CentOS、 運行環境:寶塔 Linux 網站環境:Nginx 1.2.22 MySQL 5.6 PHP-7.4 常見插件:fileinfo ; redis 三.測…

PHP騰訊云人臉核身獲取NONCE ticket

參考騰訊云官方文檔: 人臉核身 獲取 NONCE ticket_騰訊云 前提條件,已經成功獲取了access token。 獲取參考文檔: PHP騰訊云人臉核身獲取Access Token-CSDN博客 public function getTxFaceNonceTicket($uid) {$access_token file_get_c…

多人3D游戲完整實現方案

以下是一份完整的代碼實現方案,涵蓋架構設計、核心模塊實現和部署流程。我們以 多人3D游戲 為例,結合之前討論的Nano服務端框架和Unity客戶端: 技術棧 模塊技術選型服務端Golang + Nano框架 + MongoDB客戶端Unity 2022 + C# + Mirror Networking通信協議Protobuf + WebSock…

【Linux我做主】GDB調試工具完全指南

Linux下GDB調試工具完全指南:25個核心命令詳解與實戰示例 github地址 有夢想的電信狗 前言 GDB(GNU Debugger)是Linux開發中不可或缺的調試工具,尤其在定位代碼邏輯錯誤和內存問題時表現卓越。本文基于實際開發經驗&#xff0…

QT中柵格模式探索

1、Qt中選擇了柵格模式,如下圖所示: 2、在進行整個大的UI界面布局時,需了解每個控件所需要選擇的屬性sizePolicy。 sizePolicy包含如下幾種選擇: 3、舉個例子:此時整個UI界面,我采用了柵格模式&#xf…

【計算機網絡】3數據鏈路層①

這篇筆記專門講數據鏈路層的功能。 2.功能 數據鏈路層的主要任務是讓幀在一段鏈路上或一個網絡中傳輸。 2.1.封裝成幀(組幀) 解決的問題:①幀定界②幀同步③透明傳輸 實現組幀的方法通常有以下種。 2.1.1.字符計數法 原理:在每個幀開頭,用一個定長計數字段來記錄該…

[區塊鏈lab2] 構建具備加密功能的Web服務端

實驗目標: 掌握區塊鏈中密碼技術的工作原理。在基于Flask框架的服務端中實現哈希算法的加密功能。 實驗內容: 構建Flash Web服務器,實現哈希算法、非對稱加密算法的加密功能。 實驗步驟: 哈希算法的應用:創建hash…

藍橋杯之前綴和

一維前綴 解題思路 看到“區間之和”問題,直接想到“前綴和” 前綴和的核心公式: sum[i]sum[i?1]a[i] 利用前綴和求區間和 [l,r] 的公式: 區間和sum[r]?sum[l?1] 解題步驟模板 輸入數組: 讀取數組長度 n 和查詢次數 m。 讀…

【學習筆記】計算機網絡(八)—— 音頻/視頻服務

第8章 互聯網上的音頻/視頻服務 文章目錄 第8章 互聯網上的音頻/視頻服務8.1概述8.2 流式存儲音頻/視頻8.2.1 具有元文件的萬維網服務器8.2.2 媒體服務器8.2.3 實時流式協議 RTSP 8.3 交互式音頻/視頻8.3.1 IP 電話概述8.3.2 IP電話所需要的幾種應用協議8.3.3 實時運輸協議 RTP…

【WRF運行】解決metgrid生成文件太大無內存!

目錄 方法:改變工作目錄運行 metgrid.exe參考由于我的運行內存過小,當研究區較大時,metgrid生成文件內存太大,導致每次運行都報錯,此時可更改工作目錄(空余文件夾)以運行 metgrid.exe(并非必須在wrf安裝目錄下運行!!!)。 metgrid.exe 本身不支持直接通過參數或 nam…

基于 Django 進行 Python 開發

基于 Django 進行 Python 開發涉及多個方面的知識點,以下為你詳細介紹: 1. Django 基礎 項目與應用創建 借助django-admin startproject project_name來創建新的 Django 項目。利用python manage.py startapp app_name創建新的應用。項目結構 理解項目各文件和目錄的作用,像…

【sylar-webserver】8 HOOK模塊

文章目錄 知識點HOOK實現方式非侵入式hook侵入式hook ??? 覆蓋系統調用接口獲取被全局符號介入機制覆蓋的系統調用接口 具體實現C 模板成員函數繼承 和 成員函數指針類型匹配 ?????FdCtx 和 FdManager ??判斷socket的小技巧FdCtxFdManager connect hook ?do_io模板 …

SpringAI+DeepSeek大模型應用開發——1 AI概述

AI領域常用詞匯 LLM(LargeLanguage Model,大語言模型) 能理解和生成自然語言的巨型AI模型,通過海量文本訓練。例子:GPT-4、Claude、DeepSeek、文心一言、通義干問。 G(Generative)生成式: 根據上…