AGI（4）大模型的推理綜述

本文源自基于基礎模型的推理綜述《A Survey of Reasoning with Foundation Models》，因為原文有點難于理解，在這個論文的基礎上增加了自己的解釋和理解，重新整理成此文。大家可以通過查看原文閱讀原始論文。

1、推理的概念

推理是解決復雜問題的一項關鍵能力，作為人工智能通用技術 (AGI) 領域的一種基本方法論。隨著基礎模型LLM的持續發展，人們越來越關注探索其在推理任務中的能力。

推理是一種思維過程，它基于已有的信息、知識或事實，通過邏輯規則和方法，推導出新的結論或判斷。簡單來說，推理是從已知的前提出發，經過邏輯思考，得出未知結論的過程。

2、推理的類型

推理分為三種主要類型：歸納推理、演繹推理和溯因推理。

歸納推理：是從個別性知識推出一般性結論的推理。它是根據一類事物中的部分對象具有某種屬性，從而推斷出該類事物的所有對象都具有這種屬性的推理方式。例如，觀察到烏鴉A是黑的、烏鴉B是黑的、烏鴉C是黑的，然后得出結論“所有的烏鴉都是黑的”。這種推理是從特殊到一般的推理過程。
演繹推理：是從一般性前提推出特殊性結論的推理。它是根據已知的一般性規律或原則，對特定的情況進行推理，從而得出結論。例如，著名的三段論，已知“所有的人都會死”（一般性前提），“蘇格拉底是人”（特殊性前提），那么可以推出“蘇格拉底會死”（特殊性結論）。這種推理是從一般到特殊的推理過程。
溯因推理：是從結果到原因的推理。它是根據已知的事實或現象，推測出導致這個事實或現象產生的原因。例如，看到地面是濕的，推測可能是下雨了。這種推理是試圖尋找解釋現象的最合理的原因。

3、推理任務

推理任務分為以下幾種：

常識推理：探索推斷和運用日常直覺知識的能力。
數學推理：專注于解決數學問題和推導出邏輯結論的能力。
邏輯推理：檢查基于形式邏輯進行推斷和決策的過程。
因果推理：調查對因果關系及其影響的理解。
多模態推理：涉及跨多種數據模態（例如文本、圖像和感官信息）進行推理。
視覺推理：專注于需要解釋和處理視覺數據才能完成的任務。
體驗式推理：探索在具身智能體與其環境交互的背景下的推理。

3.1 常識推理

常識推理是指基于日常生活經驗和常識知識進行的推理。它依賴于人們對世界的普遍認知和經驗，而不需要復雜的邏輯或數學工具。常識推理通常用于解決日常生活中的簡單問題。比如如果一個人在戶外，看到天空烏云密布，他應該怎么做？根據常識，烏云密布推理可能會下雨。結論是尋找避雨的地方。

最近的研究表明，語言模型能夠習得某些方面的常識知識。常識推理中基礎模型的三個研究領域。 (a) 通過理解日常知識，基礎模型可以根據問題中的隱含知識進行推理并推導出答案。 (b) 基礎模型從一般的物理知識中推斷出廣泛的物理屬性。 (c) 基礎模型根據一組對象推理空間屬性。如下圖

3.2 數學推理

數學推理是指通過數學公式、定理和邏輯規則進行的推理。它依賴于數學知識和嚴格的邏輯結構，通常用于解決數學問題或進行科學計算。例如解方程 2x+3=7。方程的解是 x=2。

3.3 邏輯推理

邏輯推理是指通過邏輯規則和形式化方法進行的推理。它依賴于邏輯規律（如演繹推理、歸納推理等），通常用于解決邏輯問題或進行論證分析。例如已知所有金屬都能導電，銅是金屬，那么銅是否能導電？前提1：所有金屬都能導電（一般性前提）。前提2：銅是金屬（特殊性前提）。結論：根據演繹推理，銅能導電（特殊性結論）。

增強大型語言模型邏輯推理能力的兩種主要方法。 (a) 上下文學習利用具體的提示作為演示來引出邏輯推理。 (b) 微調使用額外的訓練樣本更新專門的模型參數。

3.4 因果推理

因果推理是一種分析方法，旨在探究事件之間的因果關系，即確定一個事件（原因）是否會導致另一個事件（結果）的發生。

它超越了簡單的關聯性分析，試圖揭示變量之間的直接聯系，預測干預措施的效果，并為決策提供支持。

因果推理的工作原理基于觀察數據或實驗結果，通過使用統計和數學模型來推斷變量間的因果關系，通常涉及構建因果圖或利用潛在結果模型來表示變量間的相互作用。例如醫學研究中，科學家們希望通過因果推理來確定吸煙是否會導致肺癌，觀察數據：收集大量人群的吸煙習慣和肺癌發病率數據。控制變量：通過隨機對照試驗（RCT）或觀察性研究，控制其他可能影響肺癌的因素（如年齡、性別、遺傳因素等）。因果分析：使用統計方法（如因果推斷模型）分析吸煙與肺癌之間的因果關系。結論：如果數據顯示吸煙者患肺癌的概率顯著高于非吸煙者。

下圖反映不同因果推理任務的因果圖示例。 (a) 因果發現識別給定系統中變量之間的潛在因果關系。 (b) 效應推斷根據已知的因果關系估計對系統進行特定干預的結果（例如，重量）。 (c) 屬性決定特定原因對給定結果負責的程度。 (d) 判斷基于對因果關系的感知后果和影響做出決定。

3.5 視覺推理（Visual Reasoning）

視覺推理是一種結合了視覺理解和推理能力的技術，使計算機能夠理解和推理圖像中的復雜信息。它不僅要求計算機識別圖像中的物體或場景，還需要理解它們之間的關系，并通過推理做出判斷或預測。例如，看到一個人正在打開冰箱門，視覺推理可以推測出這個人可能想拿冰箱里的蘋果。視覺推理的技術框架通常包括視覺理解（如圖像分類、物體檢測）和推理機制（如關系推理、因果推理）。

3.6 多模態推理（Multimodal Reasoning）

多模態推理是指機器通過整合多種感官模態信息（如文本、圖像、音頻、視頻等），結合邏輯分析與語義理解，推導出隱含結論的過程。它模仿人類在處理復雜信息時的方式，通過融合不同模態的數據來增強理解和推理能力。例如，一個智能客服系統需要處理用戶通過文字、語音和圖片等多種方式提出的問題。

多模態輸入：用戶通過語音提問“我的快遞到哪里了？”并上傳了一張快遞單的照片。文本理解：系統通過語音識別技術將語音轉換為文本。圖像理解：系統通過光學字符識別（OCR）技術從快遞單照片中提取快遞單號。綜合推理：系統結合文本和圖像信息，查詢快遞物流系統，獲取快遞的實時位置。

模態推理任務可以大致分為圖像-文本對齊、文本到圖像生成、多模態到文本生成和多模態理解。當前的多模態基礎模型主要涉及三種關鍵技術來處理推理任務，包括多模態指令調優、多模態上下文學習和 LLM 輔助視覺推理。

3.7 體驗式推理（Experiential Reasoning）

體驗式推理是一種基于個體經驗或情境的推理方式，它強調通過實際體驗或情境模擬來理解和解決問題。雖然搜索結果中沒有直接提到體驗式推理的定義，但可以類比于在實際場景中通過感知、互動和反饋來形成推理的過程。例如，在自動駕駛中，車輛通過實時感知路況并結合過往經驗做出決策，這可以看作是一種體驗式推理的應用。

3.8 智能體推理（Agent Reasoning）

智能體推理（Agent Reasoning）是指智能體（Agent）通過邏輯、知識、經驗等手段來分析信息、解決問題并做出決策的過程。智能體可以是軟件程序、機器人，或者是任何能夠自主感知環境并采取行動的系統。智能體推理的核心在于模擬人類的思維方式，通過推理來應對復雜環境和任務。智能體推理分為內省推理、外省推理、具身推理和多智能體推理。?

3.8.1 內省推理

內省推理不需要與環境交互，僅依賴于內部知識和推理來生成靜態的工具使用計劃。內省推理盡管簡單，但卻缺乏根據中間執行結果調整或修改計劃的能力。如下圖

內省推理可能在動態和不確定的環境中存在局限性，在這種環境中，外部反饋和與環境的互動對于有效計劃至關重要。

3.8.2 外省推理

內省推理盡管簡單，但卻缺乏根據中間執行結果調整或修改計劃的能力。相反，外省推理通過增量生成計劃來運行。它通過迭代地與環境交互并結合從先前執行中獲得的反饋來實現這一點。外省推理主動整合通過與環境交互收集的外部信息。這允許外省推理根據實時反饋和先前行動的觀察結果來調整和改進其計劃。

通過積極參與環境并利用反饋，外省推理提供了一種更靈活、更迅速的計劃生成方法，這尤其適用于需要適應和從經驗中學習能力的復雜和動態情況。外省推理與大型語言模型相關的幾項工作包括 Self-Ask [514]、ReAct 、ToolFormer 和 LLM-Planner 。 Self-Ask 主動生成并回應其自身后續查詢，然后再處理原始問題。?

同時，ReAct 利用大型語言模型同時生成推理軌跡和特定于任務的動作。這種雙重方法增強了這些元素之間的交互，推理軌跡有助于制定、監控和修改行動計劃，以及管理意外情況。相反，行動促進了模型與外部實體（如知識庫或環境）的參與和補充數據的獲取。 ToolFormer旨在智能地確定要使用的適當API、調用時機、要提供的特定參數以及如何有效地將獲得的結果集成到后續符元預測中。 LLM-Planner 利用大型語言模型的能力，在具體化智能體的背景下進行高效的少樣本規劃。

3.8.3 具身推理

最近的研究強調了大語言模型 (LLM) 在機器人領域取得的成功應用。此外，規劃可以被認為是一種時間推理形式，這增加了將大語言模型集成到機器人技術中的重要性。 Gato作為一個多模態、多任務和多具身的一般性策略發揮作用。它利用監督學習，參數數量驚人地達到了12億。這項技術已被認為是一種“通用”人工智能，代表著向實現人工通用智能邁出的重要一步。

機器人Transformer 1 (RT-1) 在一個包含超過13萬個情節的數據集上進行訓練，這些情節涵蓋了700多個任務。這個龐大的數據集是在17個月的時間里，使用Everyday Robots公司的13臺機器人組成的機器人集群收集的。 RT-1 作為一個可擴展的預訓練模型展示了其有前景的特性，展示了其根據數據大小、模型大小和數據多樣性等因素進行泛化的能力。利用從參與現實世界任務的真實機器人收集的大規模數據，有助于提高RT-1的魯棒性及其在實際場景中泛化的潛力。?

在RT-1能力的基礎上，機器人Transformer 2 (RT-2) 進一步增強了模型對世界的理解，從而使機器人任務的執行更加高效和準確。通過結合思維鏈推理，RT-2實現了多階段語義推理能力。這種擴展為RT-2配備了一套源于在龐大的互聯網規模數據集上進行廣泛訓練而產生的新興能力。顯著的進步包括：模型對陌生物體的泛化能力顯著提高；能夠理解其原始訓練數據中不存在的指令；以及在響應用戶指令時能夠進行基本的推理。這些增強功能提高了RT-2的性能，并拓寬了其處理更廣泛任務的能力，并提高了復雜性。?

之后，RT-X 進一步擴展了RT-1和RT-2到跨具身設置，并展示了更好的可遷移性和零樣本能力。 RoboFlamingo利用預訓練的視覺語言模型 (VLMs) 來實現復雜的單步視覺語言理解。它包含一個明確的策略頭，以有效地捕獲順序歷史數據。這種設計賦予它實現開環控制策略所需的靈活性，并且經過微調可在資源受限的平臺上高效部署。

3.8.4 多智能體推理?

（圖：單主體推理和多主體推理的區別）?

多智能體推理是指多個智能體在共享環境或上下文內進行推理、決策和交流的認知過程。與單智能體推理相比，它涉及智能體感知、解釋和推理其他主體的行為、目標、信念和意圖，并相應地調整自身行為的能力。它們的區別在圖中進行了簡要總結。

最近的研究引入了多智能體辯論的概念，這是一種很有前景的方法，可以提高推理能力并確保在各種場景下的事實準確性。在Zhang 等人的工作中，他們引入了一個框架，該框架利用大型語言模型 (LLM) 的能力來促進具體環境中多個智能體之間的合作互動。?

這種創新方法使具體智能體能夠有效地制定策略、進行溝通和與其他智能體以及人類進行協作，從而提高它們完成復雜長期任務的能力。同樣，Du 等人提出了一種方法，該方法涉及多個語言模型實例參與辯論。通過反復的推理和響應生成，這些模型共同努力得出最終的共同答案。這種方法已證明在各種任務中的數學和策略推理方面取得了顯著改進。

與上述研究相比，Nascimento 等人提出將 LLM（例如基于 GPT 的技術）集成到多智能體系統 (MAS) 中。他們介紹了將 LLM 集成到 MAS 中以創建自適應智能體的概念。這種集成是通過基于 LLM 的 MAPE-K（監控、分析、規劃、執行和知識）模型[155, 540] 實現的，該模型使智能體能夠根據從 LLM 獲得的知識和見解來調整和調整其行為。

聯邦學習 (FL) 作為一種能夠協同開發公共模型同時保護保持分散的數據的技術而日益突出。 Chen 等人提出了聯邦 LLM 的概念，包括三個關鍵要素：聯邦 LLM 的預訓練、這些模型的微調以及針對聯邦 LLM 的提示工程。這種方法利用聯邦學習的潛力，通過利用 LLM 來增強多智能體推理。

這些研究工作證明了多智能體辯論方法在增強推理能力和事實準確性方面的有效性。通過利用大型語言模型的強大功能并實現智能體之間的合作互動，這些研究有助于發展能夠進行復雜推理并在各個領域提高性能的 AI 系統。

4、附錄:推理和泛化能力的區別

推理能力和泛化能力是大模型非常重要的兩大能力。

模型的泛化能力指模型對未見過的新數據的適應能力。核心目標是讓模型在訓練數據之外的場景中，也能保持較好的預測或表現效果。舉例：用貓狗圖片訓練模型，若它能準確識別新拍攝的貓狗照片，就說明泛化能力強。

推理能力指模型基于已有的知識和輸入信息，進行邏輯推導、得出新結論的能力。核心目標是使模型能像人一樣，通過分析和推理解決復雜問題。舉例：給模型一個數學推理題，它能依據規則一步步推導出正確答案，體現的就是推理能力。

簡單理解，泛化能力就像你學了識別蘋果和香蕉后，看到沒見過的芒果也能認出是水果，是模型對新數據的“認生”能力；推理能力則像你知道“蘋果比香蕉重，香蕉比橘子重”，能推出“蘋果比橘子重”，是模型用已知信息“算明白”新問題的本事。前者是“見過類似的就會認”，后者是“沒見過但能想通”。