【連載3】基礎智能體的進展與挑戰綜述

基礎智能體的進展與挑戰綜述

從類腦智能到具備可進化性、協作性和安全性的系統

【翻譯團隊】劉軍(liujun@bupt.edu.cn) 錢雨欣玥馮梓哲李正博李冠諭朱宇晗張霄天孫大壯黃若溪

2. 認知

人類認知是一種復雜的信息處理系統，它通過多個專門的神經回路協調運行，從而實現感知、推理和目標導向的行為。這種認知架構通過心理狀態運作，心理狀態是學習和推理發生的基礎。人類在不同抽象層次處理信息并適應新情境的卓越能力，是大語言模型（LLM）智能體的重要靈感來源。

認知系統展現出一些基本的架構特性，如圖1.1所示：

（1）學習可以在不同的心理狀態空間中進行：它可以在整個額葉（支持執行控制和認知）和顳葉（負責語言、記憶和聽覺處理）中整體發生，也可以聚焦在特定方面進行針對性的提升，如圖中展示的不同研究層次所示。

（2）推理以不同的模式出現：它可以遵循結構化模板，用于系統性問題解決，這種邏輯推理和認知靈活性由額葉支持；也可以以非結構化的形式出現，體現出靈活思維，尤其在決策和執行控制功能中表現明顯。

（3）該系統展現出顯著的適應能力，能夠通過經驗不斷更新心理狀態，同時利用有監督的反饋（如小腦中的自適應誤差校正）和無監督的環境統計信息，這在圖中展示的不同認知功能的探索階段中有所體現。

（引用）圖1.1：按主要腦區分組的人腦關鍵功能示意圖

這些認知過程由一個模塊化的組織結構支持，該結構由彼此獨立但相互連接的組件組成，構成一個統一的系統。這些模塊包括：

（1）將原始感官數據轉換為有意義表征的感知系統；

（2）提供信息存儲與提取基礎的記憶系統；

（3）支持未來情境模擬的世界模型；

（4）通過強化學習引導行為優化的獎勵信號；

（5）調節注意力和資源分配的情緒系統；

（6）形成決策的推理系統；

（7）以及將決策轉化為對環境行為的行動系統。

盡管人類認知是通過進化形成的復雜神經結構來實現的，大語言模型智能體則嘗試通過大規模神經網絡模型和算法技術來模擬類似功能。理解這種生物與人工的對比對于開發更強大的智能體至關重要，它揭示了當前系統相較于人類認知在適應性、泛化能力和上下文理解等方面的成就與局限。

本節首先探討“學習”，包括它在心理狀態中發生的空間以及其服務的具體目標。隨后我們將研究“推理”，分析其結構化與非結構化的方法，最后我們將以“規劃能力”作為一種特殊的推理行為進行深入探討。

2.1 學習

學習是智能體將經驗轉化為知識的基本過程，這一過程在其心理狀態中進行。這種轉化可以發生在不同的認知空間中，既包括對整個心理狀態的整體更新，也包括對特定認知組件的精細調整。學習的范圍涵蓋了服務于不同目標的卓越能力：增強感知理解、提升推理能力，以及構建更豐富的世界理解。

圖2.1：認知系統的分類圖，包括學習和推理范式

人類的學習通過大腦中具有適應性的神經網絡在多個空間和目標上進行。大腦通過一體化系統在整個神經網絡中協調學習：

（1）海馬體促進情景經驗的快速編碼；

（2）小腦支持用于精細運動技能的有監督學習；

（3）基底節通過多巴胺獎勵信號實現強化學習；

（4）大腦皮層區域則促進無監督的模式提取。

在更集中的層面上，特定的神經回路可以發生有針對性的適應，從而實現專門技能的發展和知識的獲取。這些系統在不同的時間尺度上協同工作，從即時反應到終身發展，同時受到注意力、情緒和社會環境等因素的影響。

盡管大語言模型智能體在架構上與人類大腦本質不同，但它們在其心理狀態空間中實現了類似的學習過程。在整體層面，它們通過在大規模數據集上的預訓練獲得廣泛知識，表現出一種無監督學習形式。在更具體的層面，它們通過如有監督微調和強化學習等參數更新機制來優化特定能力。其獨特之處在于還具備“上下文學習”能力，在不改變參數的情況下，依賴注意力窗口中的上下文信息適應新任務；這一能力在某種程度上類似于人類的工作記憶，但其運作機制卻截然不同。

對比人類和人工學習系統為開發更強大、更具適應性的智能體提供了重要啟示。人類學習在效率、情境理解和與情緒系統的整合方面具有顯著優勢，而基于大語言模型的方法則在處理大規模數據、形式化知識表示以及跨領域信息綜合方面展現出獨特能力。這些互補優勢為未來的研究指明了有益方向。在深入探討學習的基礎時，我們首先考察學習在心理狀態中發生的空間，隨后分析驅動學習過程的具體目標。

表2.1：不同學習方法對狀態修改影響的總結，其中符號 ? 表示主要影響，符號 ? 表示次要影響或沒有直接影響

2.1.1 學習空間

大語言模型（LLM）智能體中的學習方法代表了一種結構化、數據驅動的范式，這與人類學習中體現的探索性和情感驅動形成對比。人類學習通常伴隨著主動的好奇心、動機和情緒強化，而基于LLM的智能體則更多地通過形式化的過程進行學習，例如訓練期間的參數更新或探索過程中的結構化記憶形成。當前的智能體架構正嘗試通過引入模擬人類學習某些方面的機制，同時發揮計算系統優勢，以彌合這一差距。

在智能體中，學習發生在不同的空間，既包括底層模型參數θ，也包括心理狀態M，前者從根本上決定了后者的能力邊界。形式上，我們將智能體的內部狀態定義為一個二元組

，其中包括模型參數和心理狀態組成部分。心理狀態可以進一步被分解為不同的結構，正如我們在圖1.2中所展示的那樣。

其中，?表示記憶，?表示世界模型，?表示情緒狀態，?表示目標，?表示獎勵信號。

對底層模型的修改可以被視為“整體心理狀態學習”，因為它從根本上改變了智能體的能力。雖然模型層級的修改對不同的心理狀態組件影響程度不同，但對模型的上下文窗口或外部結構的變更通常更集中地作用于特定的心理狀態組件。例如，從環境中學習到的經驗和技能主要影響記憶（），而利用LLM本身的預測能力則能增強世界模型（）。

整體心理狀態學習是通過對底層模型參數 θ 的全面修改來提升智能體能力的過程，這種修改會影響到心理狀態 M 的所有組成部分。該過程始于預訓練，通過吸收海量的世界知識，為語言模型打下基礎。這類似于人類嬰兒在成長過程中吸收環境信息的方式，盡管前者更加結構化和大規模。

后訓練技術是提升智能體能力的核心支撐。類似于人類大腦在教育中被塑造的方式，這些技術雖然作用于整個模型，但可以側重于認知發展的不同方面。具體而言，各類基于微調的學習方法使智能體能夠獲取特定領域的知識和邏輯推理能力。

有監督微調（Supervised Fine-Tuning,SFT）【41】是基礎方法，通過人類標注的數據訓練模型，將知識直接編碼到模型權重中。為了提高計算效率，出現了參數高效微調（Parameter-Efficient Fine-Tuning,PEFT）方法。例如，Adapter-BERT【42】引入了模塊化設計，在不更改全部參數的情況下，使模型適應下游任務；而 LoRA（Low-Rank Adaptation）【109】則通過將權重更新分解為低秩矩陣，僅調整少量有效參數，實現類似效果。

某些智能體能力與其是否能夠很好地對齊人類偏好密切相關。對齊學習方法通過修改模型來重塑智能體的底層表征，以實現與人類價值的對齊。從人類反饋中進行強化學習（RLHF）【110】就是典型方法，它通過人類比較判斷訓練獎勵模型，并用其引導策略優化。InstructGPT【43】展示了該方法在提高模型與用戶意圖一致性方面的顯著效果。直接偏好優化（DPO）【111】進一步簡化了這一流程，將其轉化為直接的偏好學習過程，無需顯式獎勵建模，同時保持對齊質量并降低計算復雜性。

強化學習（RL）為在特定環境中的專門學習提供了有前景的路徑，尤其在增強推理能力方面表現突出，使模型能夠在“思維空間”中進行學習。比如，Reinforcement Fine-Tuning（ReFT）【44】通過使用在線強化學習獎勵機制下自動采樣的推理路徑進行微調，從而增強推理能力。DeepSeek-R1【89】采用基于規則的獎勵機制與群體相對策略優化（GRPO）【112】，進一步推進了這一方法。而 Kimi k1.5【113】則結合上下文強化學習和優化的“思維鏈”（Chain-of-Thought）技術，提高了規劃過程與推理效率。

在具體環境中，修改模型以增強智能體對行動和外部環境的理解也顯示出良好效果。例如，DigiRL【103】通過兩階段的強化學習方法，使智能體能夠在真實的安卓設備模擬器上執行多種命令。

近期研究還嘗試將智能體的行動空間直接整合進模型訓練中【45，55】，利用RL或SFT方法學習在不同狀態下應采取的恰當行為。這種整合從根本上影響了智能體的記憶機制、獎勵理解能力以及世界模型的構建，預示著“智能體模型”的興起將成為一個極具潛力的發展方向。

部分心理狀態學習（Partial Mental State Learning）是相較于通過模型修改進行的整體心理狀態學習而言的另一種重要且更高效的學習方式。這種方式聚焦于智能體心理狀態 M 的特定組成部分，可通過有針對性的模型更新，或無需改變模型參數的上下文適應方式實現。

上下文學習（In-Context Learning, ICL）展示了智能體在不修改整個模型的情況下，如何有效調整其特定心理狀態組件。該機制允許智能體通過在上下文窗口中利用示例或指令來適應新任務，類似于人類工作記憶在快速任務適應中的作用。Chain-of-Thought（CoT）【46】技術進一步證明了這一方法的有效性，展示了智能體如何在保持基礎模型參數不變的前提下增強特定認知能力。

部分心理狀態學習的可行性在多個組件上得到驗證，如記憶（）、獎勵（），和世界模型（）。記憶方面，Generative Agents【50】通過正常的交流與社交互動積累并重放記憶，從中提取高層次洞察，以指導動態行為規劃。在與環境交互的場景中，Voyager【47】展示了智能體如何在 Minecraft 環境中不斷更新技能庫，積累過程性知識，而無需重新訓練模型。Learn-by-Interact【102】進一步擴展了這種方法，智能體通過與環境直接互動合成經驗數據，避免了人工標注或強化學習框架的需求。此外，智能體還可以通過反思自身錯誤實現學習和提升，Reflexion【48】就是典型案例，它通過獲取文本反饋，引導智能體在反復試錯中優化未來的思考和行動路徑。

對獎勵模型和世界模型的修改也是部分心理狀態學習的又一重要體現。ARMAP【106】通過分析智能體的行為軌跡提煉環境獎勵模型，為進一步學習提供基礎。AutoMC【114】則通過探索環境構建密集的獎勵模型，以支持智能體的行為。還有研究【107】直接利用LLM作為世界模型，預測未來行動的影響，從而有效修改智能體對世界的理解（）。ActRe【49】在語言模型已有的世界知識基礎上構建任務路徑，通過迭代訓練增強其作為世界模型和推理引擎的能力。

總之，部分心理狀態學習通過靈活、高效地聚焦于智能體的特定認知模塊，不僅在多種任務場景中表現出強大的適應性，也展現了人工智能從“泛化”走向“智能體化”的關鍵路徑。

2.1.2 學習目標

智能體的學習過程貫穿其與環境交互的各個方面。在輸入層面，智能體學習更好地感知和解析環境信息；在處理層面，智能體學習如何基于已有知識或推理能力進行有效推理；在理解層面，智能體通過持續交互形成并優化其對世界的理解。這一多層次的學習目標框架使智能體能夠在不同維度上持續進化，從而更好地應對復雜和動態的任務環境。

感知能力提升的學習：從環境中有效感知和處理信息的能力是智能體智能的基礎。為增強感知能力，智能體主要采用兩種學習方法：擴展多模態感知和利用檢索機制。

多模態感知學習使智能體能夠處理和整合多樣的感官輸入，類似于人類的多感官整合，但不受生物機制的限制。這一能力通過諸如CLIP【51】的進展顯著發展，CLIP首次將視覺與語言表征在共享嵌入空間中對齊。在此基礎上，LLaVA【52】通過在圖文對上訓練專用投影器增強了視覺感知能力，而CogVLM【53】通過統一的表示架構推動了視覺推理的發展。

感知模態的擴展在多個感官領域持續進行。在音頻處理方面，Qwen-Audio【54】展示了從語音到環境聲等多樣聲音信息的統一編碼。近期研究甚至拓展到觸覺感知【115】，開發了將觸覺、視覺和語言表征對齊的數據集。這些進展使智能體能夠更全面地與物理和數字環境交互。

智能體還通過檢索機制提升其觀察能力。不同于受限于即時感官輸入的人類感知，智能體可以學習訪問并整合來自龐大外部知識庫的信息。諸如RAG【116】等檢索增強方法通過將即時觀察與相關的已存知識連接，增強了感知理解能力。

近期有關基于檢索的智能體研究展示了提升主動信息獲取能力的潛力。Search-o1【117】通過提示引導推理模型學習主動檢索，從而擴展其知識邊界。進一步地，R1-Searcher【45】和Search-R1【55】將檢索能力直接整合入模型中，使其在推理過程中具備自主的信息檢索能力。這些進展為提升智能體感知能力指明了一個有前景的方向：通過增強模型層面的主動感知能力，豐富其決策基礎，這一方法可能成為未來智能體發展的重要途徑。

推理能力提升的學習：推理是智能體心理狀態與其行動之間的關鍵橋梁，有效推理的能力以及推理能力的發展對于智能體而言至關重要。現代智能體的推理基礎源于兩個關鍵要素：其底層模型中豐富的世界知識，以及內部支持或通過上下文結構支持的強大邏輯框架。這使得推理能力的學習成為智能體發展的重要目標。

推理能力的發展通過幾個關鍵現象表現出來。首先，高質量的推理數據可以直接提升模型的推理能力；其次，這些高質量數據往往需要通過驗證機制或獎勵模型進行篩選；第三，對基礎模型進行直接強化學習訓練可以自發展現推理能力。

隨著o1系列的發布，推理在智能體發展中的重要性再次被強調。一種常見的方法是收集并提煉來自開源或閉源推理模型的數據。例如，SKY-32B【56】通過提煉QWQ-32B【118】的數據，以約450美元的成本訓練出一個32B推理模型。同樣，Open Thoughts【57】通過從R1中提煉并合成數據集，以較低成本訓練了Bespoke-Stratos-32B。這些研究表明，即使沒有復雜的算法設計，也可以通過對推理數據進行有監督微調（SFT），有效激活基礎模型的推理能力。

關于數據質量的另一個重要見解是，高度結構化的推理數據能夠更有效地使智能體和語言模型學習推理過程。值得注意的是，LIMO【58】表明，通過為復雜推理任務構建冗長且有效的推理鏈，即便數據樣本極少，也可以構建強大的推理模型。這一見解源于他們的觀察：語言模型本身就具備足夠的知識進行推理，但需要高質量的推理路徑來激活這些能力。對此觀點的支持來自于Li等人的研究【119】，他們指出Long CoT與Short CoT實質上都是在教授模型學習推理結構而非具體內容，這也表明未來一個重要的發展方向可能是自動篩選高質量推理數據。

一種可行的探索方法是先進行廣泛搜索，再借助可驗證的環境或可訓練的獎勵模型對推理軌跡提供反饋，從而篩選出高質量的推理數據。這一方法催生了多個依靠不同反饋機制來提升推理能力的技術系列。

第一類方法遵循了以 STaR【59】為代表的自舉范式，這些方法通過讓模型生成逐步推理的理由，并在成功推理路徑上進行微調以實現迭代改進。該系列包括 Quiet-STaR【91】、V-STaR【120】和 rStar-Math【121】，后者尤其通過強化學習原理增強了數學推理能力。這些方法通過迭代篩選正確推理路徑進行訓練，從而實現逐步優化和自我提升。

第二類方法在此基礎上更明確地融入了強化學習原理。ReST 系列以 ReST【60】為起點，提出了強化自訓練的思路，每個樣本進行多次嘗試（通常為10次），并從成功的推理實例中創建新的訓練數據集。ReST-EM【122】結合了期望最大化方法，ReST-MCTS 則進一步集成蒙特卡洛樹搜索（MCTS），通過更復雜的探索策略增強推理能力。

還有若干方法引入了策略獎勵模型（PRM）來對推理路徑提供質量反饋。例如 OpenR【61】和 LLaMA-Berry【62】將推理任務建模為馬爾可夫決策過程（MDP），并利用樹搜索探索多樣推理路徑，同時借助 PRM 進行質量評估。在特定領域應用中，rStar-Math【121】和 DeepSeekMath【112】通過多輪自我迭代和平衡的探索-利用策略在數學問題求解方面取得成功。用于代碼生成的 o1-Coder【123】采用 MCTS 生成帶有推理過程的代碼，Marco-o1【123】將該方法擴展到開放性任務中。這些實踐展示了 MCTS與 PRM的協同如何在保持解決方案質量的同時實現高效的推理路徑探索。

除了數據驅動的方法外，強化學習在提升語言模型推理能力方面也表現出顯著成效，代表性的突破包括 DeepSeek R1【89】和 Kimi-K-1.5【113】。LLM 的 RL 基礎源于多個開創性框架：ReFT【44】提出了監督微調與在線強化學習相結合的方法，VeRL【123】建立了支持多種 RL 算法、可擴展至70B參數的開源框架，RFT【125】則進一步驗證了在特定推理任務中，基于獎勵的優化策略的有效性。

在這些基礎上，后續研究探索了多種應用與改進方向。OpenR1【64】和RAGEN【63】將RL技術擴展到通用推理能力的提升上，而如 SWE-Gym【126】的特定實現則在軟件工程任務中取得成功。值得注意的是，DigiRL【103】引入了針對數字世界智能體優化的新方法。

近期的進展進一步將 RL 與工具使用和推理過程結合。Qwen-QwQ-32B【118】通過強化學習與通用獎勵機制將工具調用納入推理過程，使模型在推理中能夠無縫使用任意工具，從而在模型內部實現類智能體能力。RAGEN【63】則專注于多步驟智能體場景，建立了在復雜環境中進行智能體強化學習的框架。這些發展表明模型訓練與智能體開發之間的邊界正日益融合，有可能催生更具集成性和能力的智能系統。這些實現強調了強化學習在提升模型性能、尤其在復雜推理場景中減少對大規模人工標注數據依賴方面的有效性。

世界理解的學習：智能體智能的一個關鍵方面是通過直接交互和經驗積累理解世界如何運作。這種理解涵蓋了環境對不同動作的反應方式及其帶來的結果。通過持續與環境交互，智能體可以構建和完善其記憶、獎勵理解與世界模型，從成功和失敗中學習，從而更全面地掌握其所處的操作領域。

近期研究展示了多種面向世界理解的經驗學習方法。在基礎層面，Inner Monologue【65】展示了智能體如何通過持續交互積累基本的環境知識。同樣，Learn-by-Interact【102】表明有意義的理解可以通過直接環境參與而產生，無需明確的獎勵機制。更復雜的方法則由 DESP【66】和 Voyager【47】在 Minecraft環境中體現出來，這些智能體不僅積累經驗，還主動處理經驗：DESP通過結果分析實現，Voyager則通過動態技能庫擴展完成。

對積累經驗的處理和利用已經通過高級框架進一步系統化。Generative Agents【50】引入了復雜的記憶重放機制，使智能體能夠從過去的交互中提取高層次的洞察。這種系統化方法通過 Self-refine【67】和Critic【68】得到增強，它們實現了結構化的經驗評估與優化循環。

通過環境交互優化獎勵理解也成為世界理解的另一個關鍵方面。Text2Reward【105】展示了智能體如何通過人類反饋不斷優化獎勵函數，使其更好地與任務目標和環境特征對齊。類似地，AutoManual【108】通過持續交互構建行為指導方針，發展出基于獎勵驗證的協議，為理解環境獎勵和決策提供基礎。這些基于交互的優化機制使智能體能夠更好地理解環境動態，并生成更精確的獎勵信號，從而在復雜動態環境中提升其適應能力和決策能力。

在這些基礎上，RAP【74】實現了重要進展，它將推理概念化為基于世界模型的規劃。通過將大語言模型重新用作推理智能體與世界模型，RAP 使智能體能夠在執行行為前模擬潛在行為的結果，從而通過蒙特卡洛樹搜索實現更有效的規劃。這一方法使智能體能夠在探索與利用之間實現策略性平衡，深入探索推理空間。

在利用世界模型進行智能體學習方面的進一步創新包括 ActRe【127】，它顛覆了傳統的推理—行為順序，先執行動作再生成事后解釋。這種對行為進行合理化的能力展現出大語言模型對世界動態的內在理解，能夠實現自主軌跡標注并促進對比式自我訓練。

研究還強調了認知地圖在世界理解中的重要性，研究【128】表明，受人類認知啟發的結構化心理表征顯著增強了大語言模型在新環境中的外推能力。這些認知地圖不僅改善了規劃能力，還展現出類人特征，如結構化心理模擬與快速適應。

在基于網絡的環境中，近期研究【107，129】表明大語言模型可以作為有效的世界模型，用于預測網絡交互的結果。通過在執行動作前模擬潛在狀態變化，這些方法使決策過程更安全高效，特別適用于那些操作不可逆的環境。

通過 Reflexion【48】和ExpeL【69】等系統，智能體在經驗學習方面也取得了進步，能夠自主管理經驗的收集、分析與應用全流程，從成功與失敗中有效學習。

這些進展共同說明，世界模型正日益成為智能體學習系統的核心，為理解環境動態提供基礎，并在復雜交互環境中促進更有效的規劃、推理與決策。

2.2 推理

推理是智能行為的關鍵，它將原始信息轉化為可執行的知識，從而推動問題解決和決策過程。對于人類和人工智能體而言，推理使其能夠進行邏輯推斷、假設生成，以及有目的地與世界互動。在人類認知中，推理通過多種策略實現：演繹推理將一般規則應用于具體案例，歸納推理從個別實例中建立一般性結論，而溯因推理則從不完整的數據中構建合理的解釋。這些推理過程還會通過啟發式策略得到增強——啟發式是幫助在不確定性條件下簡化決策的心理捷徑，并通過環境反饋不斷優化，確保推理保持現實基礎并適應變化。

對于基于大語言模型的智能體而言，推理具有類似的作用，使其超越被動響應系統，成為能夠進行復雜認知的主動實體。通過推理，這些智能體可以處理多模態輸入、整合多源知識，并制定連貫的策略以實現目標。環境在此過程中扮演雙重角色：既是提供支撐推理的信息源，又是推理行為驗證的試驗場，形成一個反饋循環，使智能體能夠驗證推論并從錯誤中學習。

在基于大語言模型的智能體中，推理可以被正式定義為基于心理狀態進行動作選擇的過程，構成感知與行動之間的關鍵橋梁。更具體地說，給定時間的心理狀態，推理可以形式化為一個函數,，其中表示被選擇的動作。該過程可在多種環境中運行——包括文本環境、數字環境和物理環境——其中任務的完成通常需要一個推理步驟，或是由多個推理動作組成的過程。

推理動作的組合自然形成了兩種不同的方法：結構化推理與非結構化推理。結構化推理（）可以形式化為顯式的組合：。其中每個表示一個獨立的推理步驟，具有明確的邏輯依賴關系。相反，非結構化推理（）則采取更整體的形式：其組合方式是隱式的和靈活的，能夠根據上下文動態適應。這種雙重框架與人類認知相似：結構化推理對應我們顯式的邏輯推導過程，而非結構化推理則體現我們進行直覺性問題解決與模式識別的能力。環境在這一形式化過程中發揮著關鍵作用，它既是影響心理狀態更新的觀察源（），也是推理結果的測試場。這就形成了一個持續的反饋循環，在該循環中，推理不僅驅動動作選擇，也影響智能體心理狀態的演化，從而使推理策略能夠通過經驗不斷迭代優化。

在本節中，我們將探討這些推理方法在實踐中的表現。首先我們分析結構化推理，其強調系統性的問題分解和多步驟邏輯鏈條。接著我們探索非結構化推理，它支持靈活的響應模式和并行的解決方案探索。最后，我們將研究規劃這一特殊的推理形式，它融合了結構化與非結構化的方法，用以應對復雜的、具有長時間跨度的任務。

圖2.2：基于LLM的智能體的推理范式比較

2.2.1 結構化推理

結構化推理是一種系統化的問題解決方法，它通過明確的組織框架來引導推理過程。與非結構化方法不同，結構化推理將推理步驟的組合明確表達出來，可形式化為：。其中每個表示一個具有清晰邏輯依賴關系的獨立推理步驟。在這一表達中，每個推理節點都是一個被顯式執行的計算單元，節點之間的連接則代表明確的信息流路徑。

這種方法使得解空間的探索更加系統化，并通過有意識的逐步分析支持更穩健的決策過程，同時在整個推理過程中提供高度的可解釋性與可追溯性。

2.2.1.1 動態推理結構

動態推理結構允許在問題解決過程中自適應地構建推理路徑，形成能夠根據中間結果和洞察靈活調整的推理框架。

線性順序推理：線性結構將推理視為一系列順序步驟，其中每一步都建立在前一步的基礎之上。ReAct【70】通過將推理軌跡與特定任務的動作交替結合，展示了這一結構的運作方式。這種結合使得推理軌跡能夠指導并調整行動計劃，而行動又可以訪問外部信息來源以獲取更多信息。這種相互作用增強了推理的完整性和對環境的適應能力。

通過規劃進行推理（RAP）【74】擴展了線性推理范式，它將大語言模型的推理過程形式化為馬爾可夫決策過程，盡管該方法受限于為特定問題專門設計的狀態空間。馬爾可夫思維鏈（MCoT）?進一步拓展了這一范式，將每個推理步驟概念化為一個伴隨可執行代碼的馬爾可夫狀態。該方法通過將先前的推理壓縮為簡化的數學問題，實現了無需長上下文窗口的高效下一步推斷。Atom of Thoughts【132】則將問題明確表示為狀態，并設計了一個通用的“分解—收斂”兩階段狀態轉移機制，從而構建出馬爾可夫式的推理流程，將復雜問題轉化為一系列原子問題。

樹結構探索則超越了線性結構，通過將推理組織為支持分支探索的層級框架，提供更系統的路徑選擇方式。Tree of Thoughts (ToT)【72】提出了一種結構化方法，將復雜問題分解為中間步驟，支持對解空間進行廣度優先或深度優先搜索，使模型能夠同時考慮多個推理路徑，并系統地探索可替代方案。

Language Agent Tree Search (LATS)【73】進一步推動了該范式的發展，它結合了蒙特卡洛樹搜索（MCTS）與大語言模型，并利用環境作為外部反饋機制。通過大語言模型驅動的價值函數與自我反思，該方法在探索與利用之間實現平衡，從而實現更有目的性和適應性的求解。

RAP【74】也進一步增強了樹結構推理，它將大語言模型重新定位為推理智能體和世界模型的雙重角色，使其在采取推理行動前可以模擬潛在路徑的結果，從而建立一種在推理空間中平衡探索與利用的系統性規劃框架。

圖結構推理提供了比樹結構更大的靈活性，允許推理步驟之間存在非層級關系。Graph of Thoughts (GoT)?【75】將樹結構方法擴展為任意圖結構，支持更復雜的推理模式，可捕捉不同推理步驟之間的相互依賴。這種方法允許原本看似分離的推理分支相互連接，從而更細致地探索解決方案空間。

Path of Thoughts (PoT)?【76】專注于關系推理難題，將問題分解為三個關鍵階段：圖結構提取、路徑識別與推理。通過明確提取任務無關的圖結構，識別問題上下文中的實體、關系和屬性，PoT 構建了結構化表示，從而更好地識別相關的推理鏈條，大幅提升了長鏈推理任務的表現。

Diagram of Thought (DoT)?【77】將迭代推理建模為一個有向無環圖（DAG）的構建過程，將命題、批判、優化和驗證整合為統一結構。該方法在保持邏輯一致性的同時，支持對復雜推理路徑的探索，并提供了基于拓撲理論的理論框架。

2.2.1.2 靜態推理結構

靜態推理結構采用固定框架來指導推理過程，不動態調整結構本身，而是專注于在既定結構內優化推理內容。

集成方法（Ensemble Methods）：集成方法通過整合多個獨立的推理嘗試來提升整體性能。Self-Consistency【78】首創了這一方法，通過對多個推理路徑進行采樣，而非依賴單一路徑的貪婪解碼，并通過對生成解進行多數投票顯著提升了性能。

MedPrompt【133】展示了領域特定的集成技術如何通過精心設計的提示詞來引發多樣化的推理方式，從而在醫學基準測試上取得了最先進的結果，這得益于系統性構造的提示策略組合。

LLM-Blender【134】引入了一種復雜的集成框架，通過候選輸出的成對比較（PairRanker）和融合（GenFuser）來利用多個大語言模型的多樣化優勢。這一方法使系統能夠為每個具體問題選擇最優模型輸出，從而生成超過任何單一模型能力的響應。

漸進優化（Progressive Improvement）：漸進優化框架專注于通過結構化反饋循環不斷改進推理。Self-Refine【67】實現了一種迭代方法，模型首先生成初始輸出，然后對其進行自我反饋，并基于反饋進行自我修正。這一機制模仿了人類的修訂過程，無需額外訓練或強化學習即可在多種任務中帶來顯著性能提升。

Reflexion【48】擴展了漸進優化的概念，通過整合環境反饋，使智能體能夠對任務反饋信號進行語言反思，并將反思內容保存在情景記憶緩沖區中。這種方法通過吸收以往嘗試中的洞察來指導未來的決策，在序列決策、編程和推理任務中顯著提升了性能。

Progressive-Hint Prompting（PHP）【79】進一步發展了這一范式，它將先前生成的答案作為提示，逐步引導模型走向正確的解決方案。這種方法支持用戶與大語言模型之間的多輪自動交互，在保持高效率的同時顯著提高了準確率。

錯誤糾正（Error Correction）：該類框架專注于識別和修正推理過程中的錯誤。

Self-Verification【80】引入了自我批判機制，模型可以對自己的結論進行反向驗證，即將得出的答案作為條件重新求解原問題，并生成可解釋的驗證評分以指導最終答案的選擇。

Refiner【135】針對關鍵信息分散的問題，能夠自適應地提取與查詢相關的內容，并根據信息之間的關聯性進行重構，突出信息區別，有效地使下游模型對齊原始上下文。

Chain-of-Verification（CoVe）【81】通過結構化的驗證流程應對事實幻覺問題。模型首先起草初始響應，然后規劃驗證問題、獨立回答這些問題，最后生成一個經過驗證的最終回答。這一嚴謹的驗證過程在多個任務中顯著減少了幻覺現象。

Recursive Criticism and Improvement（RCI）【1228】使大語言模型能夠通過遞歸批判與改進執行計算機任務，僅需每個任務少量示例且無需任務特定獎勵函數，便在 MiniWoB++ 基準測試中超越了現有方法。

Critic【68】擴展了上述方法，通過集成外部工具進行驗證，使大語言模型能夠像人類使用工具那樣評估并逐步修正自己的輸出。該框架使原本“黑箱”的模型能參與持續的評估與優化循環，在多種任務中持續提高性能。

2.2.1.3 領域特定的推理框架

面向特定領域的推理框架將結構化推理方法適配于特定領域的獨特需求，借助專業知識與技術手段，在特定語境中提升推理性能。

MathPrompter【82】針對算術推理中的挑戰，通過生成多個代數表達式或 Python 函數，從不同角度解決同一道數學問題。該方法通過提供多條驗證路徑提升對結果的置信度，在算術基準測試中顯著超越現有最先進方法。

Physics Reasoner【84】針對物理問題的獨特復雜性，采用知識增強型推理框架，構建全面的公式集合，并利用詳細的檢查清單指導知識的正確應用。該方法通過問題分析、公式檢索和引導式推理三個階段，有效緩解了知識不足和誤用問題，顯著提升了物理基準測試中的表現。

Pedagogical Chain-of-Thought（PedCoT）【83】借鑒教育理論，特別是布魯姆認知模型，引導數學推理中的錯誤識別。該方法將教學理念融入提示設計，并采用雙階段交互流程，為可靠的數學錯誤識別與自動評分提供了理論和實踐基礎。

結構化推理在大語言模型智能體中的演化體現出人們對通過顯式組織框架提升推理能力的日益深入理解。從線性序列到復雜圖結構，從集成方法到特定領域框架，這些方法共同展示了結構化指導在不同任務和領域中提升推理表現的強大能力。

2.2.2 非結構化推理

與顯式組織推理步驟的結構化推理方法相對，非結構化推理（）采用整體性形式，表示為，其中推理過程的組合是隱式且靈活的。在這種模式中，推理過程被封裝為一個單一的函數映射，不明確劃分中間步驟或狀態轉移。

該方法依賴語言模型固有的生成連貫推理的能力，無需強加嚴格的結構約束。中間的推理過程可以顯式地體現在語言空間中，也可以隱式地發生在潛在空間中。非結構化推理方法在保持實現簡潔和高效的同時，已在多種任務中展現出顯著的有效性。

2.2.2.1 基于提示詞的推理

在大語言模型智能體中，激發推理能力最便捷的方式在于精心設計的提示詞（prompt）。通過提供合適的推理示例或引導模型執行推理步驟，智能體能夠借助其邏輯推導能力，以靈活的推理過程解決問題。

Chain-of-Thought（CoT）及其變體

CoT 提示【46】是基于提示的推理的基石技術，它通過少量示例演示顯式的中間推理步驟，實現在語言空間中顯性化推理過程。這一基礎方法激發了多個變體的誕生，以增強其能力：Zero-shot CoT【136】：無需提供示例，通過策略性提示（如“我們一步一步地思考”）激發推理能力，提高了可用性，同時保持了效果。

Auto-CoT【137】：自動生成有效的推理演示，通過對問題進行聚類，為每個簇的代表性問題生成推理鏈，提升了自動化程度。

Least-to-Most Prompting【138】：針對復雜問題，將其分解為一系列子問題，形成逐步遞進的規劃過程，有利于從簡單到復雜的泛化。

Complex CoT【139】：選擇高復雜度的問題示例作為提示模板，提升模型處理復雜推理任務的能力。

問題重構策略（Problem Reformulation Strategies）

一些提示方法通過對原始問題的重構來引導推理過程，體現出架構上的創新：Step-Back Prompting【85】：采用“抽象優先”的策略，引導模型先提煉出高層概念或基本原理，再處理具體細節。在物理、化學和多跳推理任務中表現出 7–27% 的性能提升。

Rephrase and Respond【140】：通過語義擴展將原問題轉換為更易處理的形式，使模型從不同語言角度出發探索問題。

Abstraction-of-Thought（AoT）【141】：引入一種新型結構化推理格式，要求模型在推理過程中經歷不同抽象層級。通過在高質量樣本上進行微調，AoT 在多個推理任務中相較于傳統 CoT 模型展現出顯著性能提升。

增強型提示框架（Enhanced Prompting Frameworks）

多個系統在基本提示范式基礎上構建了更復雜的推理環境：Ask Me Anything 【86】：將開放式生成任務重構為結構化的問答序列，從而控制推理軌跡并提升穩定性。該方法使開源模型 GPT-J-6B 在 20 項主流基準中的 15 項上匹敵或超越 GPT3-175B。

Algorithm of Thoughts（AoT）【142】：利用完整算法示例，引導 LLM 沿算法路徑進行推理，借助其遞歸動態機制擴展思維探索范圍。在節省大量 token 的情況下，超越單輪及多輪提示方法，甚至優于所用的基礎算法。

Chain-of-Knowledge（CoK）【87】：通過動態集成來自多源異構知識的內容，增強 LLM 的事實基礎和理性推理能力。CoK 包括推理準備、動態知識適配和答案整合三個階段，有效減少推理過程中的幻覺與誤差傳播。

Self-Explained Keywords（SEK）【88】：針對代碼生成中低頻術語的挑戰，模型提取并解釋問題描述中的關鍵術語，并依據頻率進行排序，從而顯著提高在多個基準上的代碼生成性能，使注意力從低頻關鍵詞轉向其高頻對等詞。

這些提示技術和策略共同展示了非結構化推理方法在無需明確結構引導的前提下，如何通過語言建構實現高效、靈活且具有解釋性的推理過程，推動大語言模型在廣泛推理任務中的表現不斷攀升。

2.2.2.2 推理模型

近年來語言模型的進步促使了一類專門面向復雜推理任務的推理模型的發展。這些模型通過微調或專門訓練，旨在優化其推理能力，并在需要多步驟邏輯推導的任務中表現出更強性能。

這類推理模型通常融合了架構設計上的創新與訓練機制上的改進，包括引入結構化提示模板、推理路徑控制機制、復雜示例驅動訓練，以及基于強化學習的推理反饋優化等。這些技術提升了模型在鏈式推理、多跳問答、復雜規劃與命題驗證等任務中的表現，使其超越了通用語言模型在高階推理任務中的能力瓶頸。

像 DeepSeek 的?R1【89】、Anthropic的Claude 3.7 Sonnet【9】、以及 OpenAI的o系列模型【90]】等推理模型，代表了當前語言模型在推理能力方面的前沿發展。這些模型在各種推理基準測試中表現出卓越的能力，展現出在復雜推理任務上的顯著優勢。

這些模型采用了強調推理模式的專門訓練方法，通常結合了大量人類反饋（Human Feedback）與強化學習（Reinforcement Learning），以增強其推理能力。相比于通用語言模型，這類推理模型在數學推導、多步驟問題求解、邏輯推理等復雜任務上具備更高的準確性與穩定性。

專用推理模型的興起，反映了人們對推理能力在語言模型中重要性的日益認識，也突顯了為推理任務定制訓練所帶來的潛在收益。通過聚焦于推理導向的訓練數據與目標函數，這些模型在特定任務上的性能大幅超越了通用模型，成為解決高階認知問題的新一代關鍵工具。

2.2.2.3 隱式推理

除了顯式推理方法，近期研究還探索了隱式推理方法的潛力，即在不明顯暴露推理過程的前提下進行推理。這類方法旨在通過減少生成的 token 數量來提升效率，同時維持甚至提升推理表現。

Quiet-STaR【91】是對 Self-Taught Reasoner 方法的泛化，教會語言模型在生成文本的每個 token 時提供對未來文本的推理解釋，從而提升預測能力。該方法應對了多個關鍵挑戰，包括計算成本、模型對“生成內部思維”模式的不熟悉，以及對超越單 token 預測的需求。實驗結果顯示，在持續預訓練后，數學推理準確率從 5.9% 提升至 10.9%，常識推理從 36.3% 提升至 47.2%，標志著模型向更通用、可擴展推理方向的重要進展。

Chain of Continuous Thought（Coconut）【92】提出了在連續隱空間中進行推理的新范式，而非使用自然語言。該方法利用語言模型的最終隱藏狀態作為推理狀態的表示，并將其直接反饋為后續輸入嵌入。Coconut 在推理任務中顯著減少了生成的推理 token 數量，同時提升了推理性能。它還能編碼多個潛在的下一個推理步驟，使模型具備“廣度優先”搜索能力，而非僅沿單一路徑推理。

同時，對 transformer 模型中隱式推理能力的分析研究【143】揭示了其局限性。研究發現，當模型在固定模式的數據上訓練時，能夠通過隱式推理在域內與域外測試中實現高準確率；但在非固定模式數據上訓練時，模型往往通過“捷徑學習”過擬合特定模式，導致泛化能力不足。這說明當前語言模型的隱式推理能力在某些任務中雖強，但在廣泛泛化方面仍存在明顯限制。

總體而言，非結構化推理方法的演化展現了語言模型在不同推理范式下的出色適應能力。從簡單提示策略到復雜的隱式推理機制，這些方法依托 LLM 的內在能力，在不依賴明確結構約束的情況下實現復雜邏輯推理。這種靈活性不僅使問題求解過程更自然直觀，也在保持推理效率的同時，保障了廣泛任務中的推理效果。

2.2.3 規劃

規劃是人類認知的基本組成部分，使個體能夠在復雜、動態的環境中組織行為、預測結果并實現目標【144】。形式上，規劃可描述為從初始狀態到目標狀態的路徑構建過程，記作:?。其中是起始狀態，是可能動作的序列，是目標狀態。

不同于直接推理，規劃涉及在執行之前生成假設性的動作序列，這些動作在部署前作為計算節點處于非激活狀態。這種認知能力源自多個專門神經回路之間的協作，例如額前皮層（負責執行控制）和海馬體（支持情景前瞻和空間映射）。來自決策理論、心理學和控制論的研究——如理性框架、前景理論和反饋回路——展示了規劃如何幫助人類超越被動行為，通過有意識的意圖和自適應策略主動塑造未來。這一能力不僅支撐著智能行為，也為開發擬仿并增強此能力的大語言模型（LLM）智能體提供了參考模型【145, 146】。

在人類認知中，規劃作為一種分層過程運行，將即時決策與長期目標整合。這反映了大腦的模塊化結構，不同神經系統協作以平衡當前需求與未來可能性——這一動態正是控制理論中穩定性與優化原則的體現。相應地，基于LLM的智能體也通過利用其豐富的語言知識和上下文推理能力來執行規劃任務，將輸入轉化為可執行步驟。無論面對結構化任務還是不可預測挑戰，這些模型通過目標分解、結果評估和策略優化等方式模擬人類的規劃方式，實現生物靈感與人工智能的融合。

本節將探討規劃的理論基礎與實踐技術，從順序方法到并行探索，凸顯其在智能系統中的關鍵角色。盡管LLM在自動規劃方面顯示出潛力，其性能仍面臨一系列限制，主要源于世界知識的不足【147】。LLM往往缺乏對世界動態的深層理解，依賴模式識別而非真實因果推理，限制了其處理子目標交互與環境變化的能力【148】。此外，它們對靜態預訓練數據的依賴，也限制了在實時場景中的適應能力，從而影響其在動態規劃任務中的泛化能力【149】。由于缺乏內在的“系統2型”推理機制，LLM難以獨立生成結構化的最優規劃方案【150】。

不過，研究者已經提出多種策略來應對這些挑戰，如：

任務分解（Task Decomposition）

任務分解通過將復雜目標拆解為更小、可管理的子任務來增強LLM的規劃能力，從而降低問題復雜度并提升系統化推理。Least-to-Most Prompting【138】是此方法的典范，引導LLM逐步解決子問題。ADaPT【151】進一步優化了這一策略，依據任務復雜度與模型能力動態調整分解方式，特別適用于交互式決策情境。這些方法還能實現并行子任務處理、反向誤差追蹤和獨立性判斷【132】，為推理提供結構化框架。

在LLM規劃中，任務被視為可執行單元——不同于形式模型中的靜態狀態描述——強調結構化的行動序列來達成預期結果 [66]。這些任務形式多樣：有些是需具體求解的子問題（如數學方程），有些涉及工具調用（如在旅行規劃中查詢天氣API）【152, 153】，還有一些表現為依賴圖中的節點（如項目管理中的目標優先排序）【154】。通過清晰、模塊化地定義目標，這些方法提升了推理與行動效率，使智能體能更精準地應對復雜問題空間【93】。

搜索（Searching）

由于LLM本質上的隨機性?[155]，并行采樣結合聚合推理能夠提升推理質量。任務分解結構組織了單獨的解軌跡，從而構建出一個包含多個通往目標路徑及其關聯的解空間【72, 156】。該解空間支持對多種潛在方案進行采樣【157】，可結合反思、評審、并行采樣與知識指導進行探索【158】。受限于計算資源，無法窮舉解空間時，有效導航顯得尤為關鍵。

常見方法包括：

樹搜索算法，如LAT【159】

啟發式策略，如PlanCritic的遺傳算法【160】

自一致性檢查（CoT-SC），識別重復解路徑【78】

基于獎勵的模型，如ARMAP，對中間與最終結果進行評估以優化路徑【106】

這一迭代探索與優化過程提升了策略的適應性，使智能體能夠在復雜問題中生成更穩健的解法。

世界知識（World Knowledge）

有效規劃要求智能體能在動態環境中導航、預見變化并預測結果，因此世界知識尤為重要。RAP【74】探討了LLM、智能體系統與世界模型之間的關系，將LLM定位為雙重角色：作為世界模型，它預測行為后的狀態變化【107, 161】；作為智能體，它基于當前狀態與目標選擇行動【70】。該框架模擬人類認知——在采取行動前模擬其后果——并統一了語言模型、智能體模型與世界模型的角色【162】。

智能體還通過整合外部知識增強LLM能力，彌補其對世界理解的不足。ReAct【70]】使用行動-觀察循環（action-observation loop）獲取環境反饋，結合實時數據與語言知識，在復雜場景中提升決策能力，使模型在執行過程中持續完善其世界模型，支持自適應規劃。

另一個方法是LLM+P【163】，它將LLM與PDDL（規劃領域定義語言）結合，將自然語言輸入轉化為正式表示，再由傳統規劃器求解【164, 165】。這種混合方法彌補了LLM在結構化規劃中的不足，融合其語言靈活性與傳統系統的可靠性。

進一步的進展還包括：