以下是主流AI Agent認知框架的詳細說明、對比及表格總結:
1. 各認知框架詳解
(1) ReAct (Reasoning + Action)
定義 :結合推理(Reasoning)和行動(Action)的循環過程。核心機制 : 模型先推理(Reason)生成可能的解決方案或步驟。 執行(Act)具體操作(如查詢工具、調用API)。 根據反饋結果迭代優化。 適用場景 :需要逐步解決問題的復雜任務(如多步驟推理、工具調用)。示例 :用戶問“紐約到巴黎的航班價格”,模型先推理需要查詢航班數據,再調用API獲取實時價格。
(2) 函數調用(Function Calling)
定義 :模型通過預定義的函數接口直接調用外部工具或API。核心機制 : 模型生成符合函數參數的自然語言指令。 系統解析指令并調用對應函數執行。 適用場景 :需要調用結構化工具(如數據庫查詢、API接口)的任務。示例 :調用天氣API獲取實時天氣數據。
(3) 計劃與執行(Plan-And-Execute)
定義 :分階段處理任務,先制定計劃再執行。核心機制 : 計劃階段 :模型生成詳細步驟或子任務。執行階段 :逐步完成每個子任務并整合結果。 適用場景 :復雜多步驟任務(如編寫代碼、解決問題)。示例 :解決數學題時先規劃解題步驟,再逐步計算。
(4) 自問自答(Self-Ask)
定義 :模型通過生成問題并自行回答來逐步推導答案。核心機制 : 模型生成中間問題,模擬人類的思考過程。 逐步回答問題,最終整合答案。 適用場景 :需要分步推理或知識補全的任務(如閱讀理解、邏輯推理)。示例 :閱讀一段文字后,自問關鍵細節并回答以提煉答案。
(5) 批判修正(Critique & Revise / Self-Reflection)
定義 :模型自我檢查輸出并迭代優化。核心機制 : 生成初步答案 :模型輸出初始結果。批判階段 :模型評估答案的合理性。修正階段 :根據批判結果調整并重新生成。 適用場景 :需要高準確性的任務(如寫作、代碼調試)。示例 :模型生成代碼后,自我檢查語法錯誤并修正。
(6) 思維鏈(Chain-of-Thought, COT)
定義 :通過逐步展開中間推理步驟生成最終答案。核心機制 : 模型以自然語言詳細描述推理過程。 分步驟推導,最終整合為答案。 適用場景 :需要展示思考過程的任務(如數學題、邏輯推理)。示例 :解決數學題時分步寫出計算過程。
(7) 思維樹(Tree-of-Thought, TOT)
定義 :通過分支探索多種可能的推理路徑。核心機制 : 模型生成多個可能的中間思路(分支)。 評估并選擇最優路徑繼續推理。 適用場景 :需要探索多種可能性的任務(如創意生成、策略規劃)。示例 :設計解決方案時生成多個分支思路并篩選最佳方案。
2. 核心差異對比
關鍵維度對比
框架 核心機制 是否依賴外部工具 是否分階段 是否自我修正 典型輸出形式 ReAct 推理+行動循環 是 是 部分(迭代) 動態步驟結果 函數調用 直接調用函數 是 否 否 工具返回的數據 計劃與執行 分階段計劃+執行 可選 是 否 結構化步驟輸出 自問自答 生成問題并回答 否 是 否 分步推理過程 批判修正 自我檢查+迭代優化 否 是 是 修正后的最終答案 思維鏈(COT) 逐步展開推理過程 否 是 否 詳細推理步驟 思維樹(TOT) 分支探索多種路徑 否 是 否 多分支結果+最優選擇
技術特點差異
是否需要外部工具 : ReAct、函數調用依賴外部工具,其他框架主要依賴模型自身推理。 推理路徑 : 迭代能力 : 批判修正框架具備自我迭代能力,其他框架多為單次推理。
3. 選擇建議
需求場景 推薦框架 理由 需要逐步推理并調用工具 ReAct 動態推理與行動結合 直接調用外部API或函數 函數調用 簡潔高效,適合結構化任務 復雜多步驟任務規劃 計劃與執行 明確分階段處理 需要展示中間思考過程 思維鏈(COT) 詳細推理過程透明 需要探索多種可能性 思維樹(TOT) 分支式探索最優解 需要高準確性輸出 批判修正 自我檢查與迭代優化
總結表格
框架名稱 核心特點 適用場景 優缺點 ReAct 推理+行動循環 多步驟工具調用 靈活但需要工具支持;適合復雜任務 函數調用 直接調用函數 結構化API調用 簡單高效;依賴工具接口 計劃與執行 分階段計劃+執行 復雜任務規劃 結構清晰;需明確步驟劃分 自問自答 生成問題并回答 分步推理任務 思維過程透明;計算開銷較大 批判修正 自我檢查+迭代優化 高精度輸出需求 輸出質量高;需多次迭代 思維鏈(COT) 逐步展開推理過程 需要展示推理過程 可解釋性強;線性路徑可能遺漏最優解 思維樹(TOT) 分支探索多種路徑 需要探索多種可能性 創新性強;計算資源需求高
總結
工具依賴型 :ReAct、函數調用 → 需結合外部工具。推理過程透明 :COT、Self-Ask → 適合需要解釋的場景。探索與優化 :TOT、Critique & Revise → 多分支或高精度需求。 根據具體任務需求(如是否需要工具、推理路徑、輸出形式)選擇合適的框架。