AGI(4)大模型的推理綜述

本文源自基于基礎模型的推理綜述《A Survey of Reasoning with Foundation Models》,因為原文有點難于理解,在這個論文的基礎上增加了自己的解釋和理解,重新整理成此文。大家可以通過查看原文閱讀原始論文。

1、推理的概念

推理是解決復雜問題的一項關鍵能力,作為人工智能通用技術 (AGI) 領域的一種基本方法論。 隨著基礎模型LLM的持續發展,人們越來越關注探索其在推理任務中的能力。

推理是一種思維過程,它基于已有的信息、知識或事實,通過邏輯規則和方法,推導出新的結論或判斷。簡單來說,推理是從已知的前提出發,經過邏輯思考,得出未知結論的過程

2、推理的類型

推理分為三種主要類型:歸納推理、演繹推理和溯因推理。

  • 歸納推理:是從個別性知識推出一般性結論的推理。它是根據一類事物中的部分對象具有某種屬性,從而推斷出該類事物的所有對象都具有這種屬性的推理方式。例如,觀察到烏鴉A是黑的、烏鴉B是黑的、烏鴉C是黑的,然后得出結論“所有的烏鴉都是黑的”。這種推理是從特殊到一般的推理過程。
  • 演繹推理:是從一般性前提推出特殊性結論的推理。它是根據已知的一般性規律或原則,對特定的情況進行推理,從而得出結論。例如,著名的三段論,已知“所有的人都會死”(一般性前提),“蘇格拉底是人”(特殊性前提),那么可以推出“蘇格拉底會死”(特殊性結論)。這種推理是從一般到特殊的推理過程。
  • 溯因推理:是從結果到原因的推理。它是根據已知的事實或現象,推測出導致這個事實或現象產生的原因。例如,看到地面是濕的,推測可能是下雨了。這種推理是試圖尋找解釋現象的最合理的原因。

3、推理任務

推理任務分為以下幾種:

  • 常識推理:探索推斷和運用日常直覺知識的能力。
  • 數學推理 :專注于解決數學問題和推導出邏輯結論的能力。
  • 邏輯推理:檢查基于形式邏輯進行推斷和決策的過程。
  • 因果推理:調查對因果關系及其影響的理解。
  • 多模態推理:涉及跨多種數據模態(例如文本、圖像和感官信息)進行推理。
  • 視覺推理:專注于需要解釋和處理視覺數據才能完成的任務。
  • 體驗式推理:探索在具身智能體與其環境交互的背景下的推理。

3.1 常識推理

常識推理是指基于日常生活經驗和常識知識進行的推理。它依賴于人們對世界的普遍認知和經驗,而不需要復雜的邏輯或數學工具。常識推理通常用于解決日常生活中的簡單問題。比如如果一個人在戶外,看到天空烏云密布,他應該怎么做?根據常識,烏云密布推理可能會下雨。結論是尋找避雨的地方。

最近的研究表明,語言模型能夠習得某些方面的常識知識。常識推理中基礎模型的三個研究領域。 (a) 通過理解日常知識,基礎模型可以根據問題中的隱含知識進行推理并推導出答案。 (b) 基礎模型從一般的物理知識中推斷出廣泛的物理屬性。 (c) 基礎模型根據一組對象推理空間屬性。如下圖

3.2 數學推理

數學推理是指通過數學公式、定理和邏輯規則進行的推理。它依賴于數學知識和嚴格的邏輯結構,通常用于解決數學問題或進行科學計算。例如解方程 2x+3=7。方程的解是 x=2。

3.3 邏輯推理

邏輯推理是指通過邏輯規則和形式化方法進行的推理。它依賴于邏輯規律(如演繹推理、歸納推理等),通常用于解決邏輯問題或進行論證分析。例如已知所有金屬都能導電,銅是金屬,那么銅是否能導電?前提1:所有金屬都能導電(一般性前提)。前提2:銅是金屬(特殊性前提)。結論:根據演繹推理,銅能導電(特殊性結論)。

增強大型語言模型邏輯推理能力的兩種主要方法。 (a) 上下文學習利用具體的提示作為演示來引出邏輯推理。 (b) 微調使用額外的訓練樣本更新專門的模型參數。

3.4 因果推理

因果推理是一種分析方法,旨在探究事件之間的因果關系,即確定一個事件(原因)是否會導致另一個事件(結果)的發生。

它超越了簡單的關聯性分析,試圖揭示變量之間的直接聯系,預測干預措施的效果,并為決策提供支持。

因果推理的工作原理基于觀察數據或實驗結果,通過使用統計和數學模型來推斷變量間的因果關系,通常涉及構建因果圖或利用潛在結果模型來表示變量間的相互作用。例如醫學研究中,科學家們希望通過因果推理來確定吸煙是否會導致肺癌,觀察數據:收集大量人群的吸煙習慣和肺癌發病率數據。控制變量:通過隨機對照試驗(RCT)或觀察性研究,控制其他可能影響肺癌的因素(如年齡、性別、遺傳因素等)。因果分析:使用統計方法(如因果推斷模型)分析吸煙與肺癌之間的因果關系。結論:如果數據顯示吸煙者患肺癌的概率顯著高于非吸煙者。

下圖反映不同因果推理任務的因果圖示例。 (a) 因果發現識別給定系統中變量之間的潛在因果關系。 (b) 效應推斷根據已知的因果關系估計對系統進行特定干預的結果(例如,重量)。 (c) 屬性決定特定原因對給定結果負責的程度。 (d) 判斷基于對因果關系的感知后果和影響做出決定。

3.5 視覺推理(Visual Reasoning)

視覺推理是一種結合了視覺理解和推理能力的技術,使計算機能夠理解和推理圖像中的復雜信息。它不僅要求計算機識別圖像中的物體或場景,還需要理解它們之間的關系,并通過推理做出判斷或預測。例如,看到一個人正在打開冰箱門,視覺推理可以推測出這個人可能想拿冰箱里的蘋果。視覺推理的技術框架通常包括視覺理解(如圖像分類、物體檢測)和推理機制(如關系推理、因果推理)。

3.6 多模態推理(Multimodal Reasoning)

多模態推理是指機器通過整合多種感官模態信息(如文本、圖像、音頻、視頻等),結合邏輯分析與語義理解,推導出隱含結論的過程。它模仿人類在處理復雜信息時的方式,通過融合不同模態的數據來增強理解和推理能力。例如,一個智能客服系統需要處理用戶通過文字、語音和圖片等多種方式提出的問題。

多模態輸入:用戶通過語音提問“我的快遞到哪里了?”并上傳了一張快遞單的照片。文本理解:系統通過語音識別技術將語音轉換為文本。圖像理解:系統通過光學字符識別(OCR)技術從快遞單照片中提取快遞單號。綜合推理:系統結合文本和圖像信息,查詢快遞物流系統,獲取快遞的實時位置。

模態推理任務可以大致分為圖像-文本對齊、文本到圖像生成、多模態到文本生成和多模態理解。 當前的多模態基礎模型主要涉及三種關鍵技術來處理推理任務,包括多模態指令調優、多模態上下文學習和 LLM 輔助視覺推理。

3.7 體驗式推理(Experiential Reasoning)

體驗式推理是一種基于個體經驗或情境的推理方式,它強調通過實際體驗或情境模擬來理解和解決問題。雖然搜索結果中沒有直接提到體驗式推理的定義,但可以類比于在實際場景中通過感知、互動和反饋來形成推理的過程。例如,在自動駕駛中,車輛通過實時感知路況并結合過往經驗做出決策,這可以看作是一種體驗式推理的應用。

3.8 智能體推理(Agent Reasoning)

智能體推理(Agent Reasoning)是指智能體(Agent)通過邏輯、知識、經驗等手段來分析信息、解決問題并做出決策的過程。智能體可以是軟件程序、機器人,或者是任何能夠自主感知環境并采取行動的系統。智能體推理的核心在于模擬人類的思維方式,通過推理來應對復雜環境和任務。智能體推理分為內省推理、外省推理、具身推理和多智能體推理。?

3.8.1 內省推理

內省推理不需要與環境交互,僅依賴于內部知識和推理來生成靜態的工具使用計劃。內省推理盡管簡單,但卻缺乏根據中間執行結果調整或修改計劃的能力。 如下圖

內省推理可能在動態和不確定的環境中存在局限性,在這種環境中,外部反饋和與環境的互動對于有效計劃至關重要。

3.8.2 外省推理

內省推理盡管簡單,但卻缺乏根據中間執行結果調整或修改計劃的能力。 相反,外省推理通過增量生成計劃來運行。 它通過迭代地與環境交互并結合從先前執行中獲得的反饋來實現這一點。 外省推理主動整合通過與環境交互收集的外部信息。 這允許外省推理根據實時反饋和先前行動的觀察結果來調整和改進其計劃 。

通過積極參與環境并利用反饋,外省推理提供了一種更靈活、更迅速的計劃生成方法,這尤其適用于需要適應和從經驗中學習能力的復雜和動態情況。 外省推理與大型語言模型相關的幾項工作包括 Self-Ask [514]、ReAct 、ToolFormer 和 LLM-Planner 。 Self-Ask 主動生成并回應其自身后續查詢,然后再處理原始問題。?

同時,ReAct 利用大型語言模型同時生成推理軌跡和特定于任務的動作。 這種雙重方法增強了這些元素之間的交互,推理軌跡有助于制定、監控和修改行動計劃,以及管理意外情況。 相反,行動促進了模型與外部實體(如知識庫或環境)的參與和補充數據的獲取。 ToolFormer旨在智能地確定要使用的適當API、調用時機、要提供的特定參數以及如何有效地將獲得的結果集成到后續符元預測中。 LLM-Planner 利用大型語言模型的能力,在具體化智能體的背景下進行高效的少樣本規劃。

3.8.3 具身推理

最近的研究強調了大語言模型 (LLM) 在機器人領域取得的成功應用。 此外,規劃可以被認為是一種時間推理形式,這增加了將大語言模型集成到機器人技術中的重要性。 Gato作為一個多模態、多任務和多具身的一般性策略發揮作用。 它利用監督學習,參數數量驚人地達到了12億。 這項技術已被認為是一種“通用”人工智能,代表著向實現人工通用智能邁出的重要一步。

機器人Transformer 1 (RT-1) 在一個包含超過13萬個情節的數據集上進行訓練,這些情節涵蓋了700多個任務。 這個龐大的數據集是在17個月的時間里,使用Everyday Robots公司的13臺機器人組成的機器人集群收集的。 RT-1 作為一個可擴展的預訓練模型展示了其有前景的特性,展示了其根據數據大小、模型大小和數據多樣性等因素進行泛化的能力。 利用從參與現實世界任務的真實機器人收集的大規模數據,有助于提高RT-1的魯棒性及其在實際場景中泛化的潛力。?

在RT-1能力的基礎上,機器人Transformer 2 (RT-2) 進一步增強了模型對世界的理解,從而使機器人任務的執行更加高效和準確。 通過結合思維鏈推理,RT-2實現了多階段語義推理能力。 這種擴展為RT-2配備了一套源于在龐大的互聯網規模數據集上進行廣泛訓練而產生的新興能力。 顯著的進步包括:模型對陌生物體的泛化能力顯著提高;能夠理解其原始訓練數據中不存在的指令;以及在響應用戶指令時能夠進行基本的推理。 這些增強功能提高了RT-2的性能,并拓寬了其處理更廣泛任務的能力,并提高了復雜性。?

之后,RT-X 進一步擴展了RT-1和RT-2到跨具身設置,并展示了更好的可遷移性和零樣本能力。 RoboFlamingo利用預訓練的視覺語言模型 (VLMs) 來實現復雜的單步視覺語言理解。 它包含一個明確的策略頭,以有效地捕獲順序歷史數據。 這種設計賦予它實現開環控制策略所需的靈活性,并且經過微調可在資源受限的平臺上高效部署。

3.8.4 多智能體推理?

(圖:單主體推理和多主體推理的區別)?

多智能體推理是指多個智能體在共享環境或上下文內進行推理、決策和交流的認知過程。 與單智能體推理相比,它涉及智能體感知、解釋和推理其他主體的行為、目標、信念和意圖,并相應地調整自身行為的能力。 它們的區別在圖中進行了簡要總結。

最近的研究引入了多智能體辯論的概念,這是一種很有前景的方法,可以提高推理能力并確保在各種場景下的事實準確性。 在Zhang 等人的工作中,他們引入了一個框架,該框架利用大型語言模型 (LLM) 的能力來促進具體環境中多個智能體之間的合作互動。?

這種創新方法使具體智能體能夠有效地制定策略、進行溝通和與其他智能體以及人類進行協作,從而提高它們完成復雜長期任務的能力。 同樣,Du 等人提出了一種方法,該方法涉及多個語言模型實例參與辯論。 通過反復的推理和響應生成,這些模型共同努力得出最終的共同答案。 這種方法已證明在各種任務中的數學和策略推理方面取得了顯著改進。

與上述研究相比,Nascimento 等人提出將 LLM(例如基于 GPT 的技術)集成到多智能體系統 (MAS) 中。他們介紹了將 LLM 集成到 MAS 中以創建自適應智能體的概念。 這種集成是通過基于 LLM 的 MAPE-K(監控、分析、規劃、執行和知識)模型[155, 540] 實現的,該模型使智能體能夠根據從 LLM 獲得的知識和見解來調整和調整其行為。

聯邦學習 (FL) 作為一種能夠協同開發公共模型同時保護保持分散的數據的技術而日益突出。 Chen 等人提出了聯邦 LLM 的概念,包括三個關鍵要素:聯邦 LLM 的預訓練、這些模型的微調以及針對聯邦 LLM 的提示工程。 這種方法利用聯邦學習的潛力,通過利用 LLM 來增強多智能體推理。

這些研究工作證明了多智能體辯論方法在增強推理能力和事實準確性方面的有效性。 通過利用大型語言模型的強大功能并實現智能體之間的合作互動,這些研究有助于發展能夠進行復雜推理并在各個領域提高性能的 AI 系統。

4、附錄:推理和泛化能力的區別

推理能力和泛化能力是大模型非常重要的兩大能力。

模型的泛化能力指模型對未見過的新數據的適應能力。核心目標是讓模型在訓練數據之外的場景中,也能保持較好的預測或表現效果。舉例:用貓狗圖片訓練模型,若它能準確識別新拍攝的貓狗照片,就說明泛化能力強。

推理能力指模型基于已有的知識和輸入信息,進行邏輯推導、得出新結論的能力。核心目標是使模型能像人一樣,通過分析和推理解決復雜問題。舉例:給模型一個數學推理題,它能依據規則一步步推導出正確答案,體現的就是推理能力。

簡單理解,泛化能力就像你學了識別蘋果和香蕉后,看到沒見過的芒果也能認出是水果,是模型對新數據的“認生”能力;推理能力則像你知道“蘋果比香蕉重,香蕉比橘子重”,能推出“蘋果比橘子重”,是模型用已知信息“算明白”新問題的本事。前者是“見過類似的就會認”,后者是“沒見過但能想通”。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/84754.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/84754.shtml
英文地址,請注明出處:http://en.pswp.cn/web/84754.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Rust 中的宏與函數

在 Rust 編程中,宏(Macro)和函數(Function)是兩種非常重要的編程工具。雖然它們都可以用來組織代碼和實現復用,但它們在定義方式、作用原理、性能、靈活性以及適用場景等方面存在諸多不同。本文將詳細介紹 …

c++中左值與右值

在 C++ 中,左值(lvalue) 和 右值(rvalue) 是表達式的基本屬性,它們決定了表達式能否被賦值、取地址等操作。 1. 核心定義 左值(lvalue) 特點:表示一個具名的、持久的對象,可位于賦值語句左側。示例: int x = 42; // x是左值 x = 100; // 合法:左值可…

DeepSeek14-open-webui 常用概念區分

I、“Tools & Functions” 與 Pipelines(工作流系統)區別 以下是“Tool & Functions”與“Pipelines”的區別、適用場景及作用的詳細分析,內容基于參考文檔提取與總結: 一、本質區別 維度Tool & FunctionsPipeline…

PaddleOCR + Flask 構建 Web OCR 服務實戰

1、前言 隨著圖像識別技術的發展,OCR(光學字符識別)已經成為很多應用場景中的基礎能力。PaddleOCR 是百度開源的一個高性能 OCR 工具庫,支持中英文、多語言、輕量級部署等特性。 而 Flask 是一個輕量級的 Python Web 框架,非常適合快速構建 RESTful API 或小型 Web 應用…

C++結構體初始化與成員函數實現語法詳解

C結構體初始化與成員函數實現語法詳解 一、結構體靜態成員初始化語法 在C中,靜態成員變量需要在類外部進行定義和初始化。提供的代碼展示了如何為MAIN_PROPULSION_CAN類的靜態成員變量進行初始化: MAIN_PROPULSION_CAN::VoltageThresholds MAIN_PROPU…

買了新內存條插上bios識別,進入系統不可用,b450主板,內存插槽A1A2 可以點亮,B1B2不可以,A2B2不可以,B1B2還是不可以

提示:買了新內存條插上bios識別,進入系統不可用,b450主板,內存插槽A1A2 可以點亮,B1B2不可以,A2B2不可以 文章目錄 前言——環境一、第一種情況,開機不能點亮二、第二種情況, 總內存&#xff0c…

7.4.1_2B樹的插入刪除

B樹插入: 假如是m階B樹,插入關鍵字時都要滿足每個節點上的關鍵字個數最少為m/2向上取整-1關鍵字,最多有m-1個關鍵字,且每次插入的新元素一定是放在最底層的終端節點(因為如果不是放在終端節點,會導致該節點上可能有葉子…

Linux系統基本操作指令

Linux系統基本操作指令 文章目錄 Linux系統基本操作指令一、介紹二、基礎設置2.1 設置ubuntu與window的共享目錄2.2 ubuntu系統簡單介紹 三、Linux命令及工具介紹3.1 目錄管理命令(功能,格式,參數,系統參數)3.2 文件操作命令 四、網絡命令4.1…

系統思考VS心智模式

在這張圖片中,我們看到的是兩杯相同價格的咖啡,它們的價格顯示方式不同。一杯咖啡的原價和現價都寫得很大,而另一杯的價格則以較小的字體呈現。這種微妙的設計差異揭示了一個有趣的心理現象——心智模式。 人們在面對同樣的價格時&#xff0…

all()函數和any()函數

參考文獻 在if上使用.all和.any # 中心點未改變,說明達到穩態,結束遞歸if (self.points new_center).all():sum self.__sumdis(result)return result, self.points, sum

Maven:依賴管理就像樂高拼裝的藝術

目錄 🏗? 第一章:Maven是高級樂高玩家🔍 依賴管理的基本單元 🧩 第二章:多模塊項目——樂高巨艦組裝術🌟 為什么要拆分模塊?🛠? 父子POM配置示范 ?? 第三章:依賴沖突…

空間數據挖掘 期末復習

前言:此篇復習筆記結合了課程ppt和deepseek回答進行總結,如有謬誤懇請指正。 期末考例題 (名詞解釋*10、簡答*6、論述*6) 一、名詞解釋 數據挖掘 過擬合(Overfitting) Apriori算法 決策樹(…

跳跳桿、彈跳桿、Poto stick:百年彈跳玩具的健康與使用分享(大模型改寫)

跳跳桿:百年彈跳神器的健康爭議與安全指南 (用DeepSeek改寫前一篇文章,可惜沒有接廣告,否則植入一些鏈接多好) 🔍 一、健康功效:驚喜與風險并存 爭議性健康主張 坊間流傳跳跳桿可能具備&…

WHAT - React Native 開發 App 從 0 到上線全流程周期

文章目錄 一、React Native App 開發流程總覽二、各階段詳細說明需求分析 & 產品規劃技術選型 & 方案確定項目初始化A. 使用 Expo(推薦新手)B. 使用 React Native CLI(自由度更高) UI 開發 功能開發(主開發階…

Windows11 無法發現局域網內設備解決方法

臨時解決 發生問題絕大多數Windows11 24H2版本,該版本目前來看沒有永久解決方案 初步問題可以定位在FDResPub服務問題,重啟該服務可以短暫恢復,臨時解決方案就是重啟該服務,然后把網絡設備右鍵創建快捷方式 做成批處理文件 創建…

張 心理健康咨詢相關論文;AI心理咨詢數字孿生:個性化風格的突破

張 心理健康咨詢相關論文 EmoLLM:多模態情感理解與大型語言模型的結合 PsyDT:使用 LLM 構建具有個性化咨詢風格的心理咨詢師數字孿生 目前,大型語言模型 (LLM) 在心理咨詢領域取得了重大進展。然而,現有的心理健康 LLM 忽略了一個關鍵問題,即他們沒有考慮不同的心理咨…

通達信【千軍趨勢決策系統】幅圖指標

指標功能說明 本指標基于價格波動與趨勢轉折點,結合K線形態分析,提供多維度買賣信號,適用于股票、期貨等趨勢交易場景。 核心信號解讀 「橫掃千軍」 觸發條件:短期、中期、長期趨勢同時確認反轉向上。 用法:趨勢共振信號,提示較強多頭機會,可結合成交量驗證。 「出擊!…

大模型LoRA微調實踐

大模型LoRA微調實踐 準備工作 數據集:采用 GitHub 上的 Chinese-medical-dialogue-data 中文醫療對話數據集 Github地址如下: https://github.com/Toyhom/Chinese-medical-dialogue-data 微調模型: Qwen 1.5B模型(Qwen2、2.5均…

跟著AI學習C#之項目實踐Day1

🧭 實戰項目:博客平臺系統 - Day1 🏗? 目標 創建新的 ASP.NET Core 項目添加 EF Core 和 Identity 支持實現用戶注冊、登錄功能運行并測試基本身份驗證流程 🗒? 任務清單 1. 創建新項目 打開 Visual Studio 或 Visual Studi…

Java面試復習指南:基礎、面向對象、Java 8新特性及并發編程

Java面試復習指南:基礎、面向對象、Java 8新特性、常用框架及并發編程 面試中,Java開發者常被問及多個核心技術點。本文從以下幾個方面幫助考生快速復習: Java基礎 概念解析:Java是一種面向對象的高級編程語言,具有…