ReAct論文解讀(1)—什么是ReAct?

什么是ReAct?

在大語言模型(LLM)領域中,ReAct 指的是一種結合了推理(Reasoning)行動(Acting) 的提示方法,全稱是 “ReAct: Synergizing Reasoning and Acting in Language Models”,最早由 Google Research 在 2022 年提出。

簡單理解

ReAct 提示(prompting)讓語言模型不僅進行推理(思考下一步),還能主動調用工具或采取行動,并根據反饋結果繼續推理和行動。

舉個例子:
假設模型要回答一個關于當前天氣的問題,而它本身并不知道當前天氣。

傳統方式(純推理)

問:今天北京的天氣如何?
答:對不起,我沒有聯網,無法查看當前天氣。

ReAct方式(推理 reason+ 行動act)

  1. 模型先思考:要回答這個問題,我需要查找當前北京的天氣。
  2. 行動:調用一個天氣 API 或瀏覽器搜索。
  3. 接收結果:北京今天晴 32°C。
  4. 再次思考:得到了天氣數據,現在可以回答了。
  5. 輸出最終答案:北京今天晴,氣溫 32°C。

ReAct 的核心結構:

ReAct 提示通常包含多個交替的步驟,比如:

  • Thought: 我需要知道X才能解答。
  • Action: 查找X(比如調用工具或執行代碼)
  • Observation: 得到X的結果。
  • Thought: 基于結果,我可以得出結論。
  • Answer: Y。

ReAct 的優點:

  • 更強的邏輯推理能力
  • 可以調用外部工具(如計算器、搜索引擎)
  • 可以進行多步思考和調整
  • 效果優于單純的Chain-of-Thought(CoT)推理

應用場景

  • 多步驟問答
  • 工具增強型問答(Tool-augmented QA)
  • 任務規劃
  • Web搜索、代碼執行等

ReAct與CoT區別

什么是CoT?

Chain-of-Thought (CoT) 推理是指一種讓大語言模型(LLM)在回答問題時,能夠通過分步推理的方式展開思考,而不是直接給出最終答案。CoT 方法幫助模型通過逐步推理得出答案,從而避免“跳過”關鍵的推理過程,提升其推理和解答能力。

CoT 推理的核心概念:

CoT 推理的關鍵是將問題分解為多個中間步驟,讓模型清楚地表達思考過程。這種方法模擬了人類在解決復雜問題時常常采用的思考方式:通過逐步分析、推導每一個小問題,最終得出結論。

舉個例子:

假設我們有一個數學問題:

問題:如果有3個蘋果,給了你2個蘋果,現在你一共有多少個蘋果?

沒有CoT的回答

答:5個蘋果。

使用CoT的回答

  1. 我有3個蘋果。

  2. 給了我2個蘋果。

  3. 所以我總共有3 + 2 = 5個蘋果。

可以看到,CoT 會讓模型逐步地列出每一步的推理過程,而不僅僅是直接給出答案。

CoT 在不同領域的應用:

  1. 數學推理:例如數學運算題,CoT 可以幫助模型一步步進行數值推導。
  2. 自然語言理解:處理含有多步驟的語言理解任務,如推理題、翻譯、總結等。
  3. 決策過程:例如在游戲、機器人控制、醫學診斷等場景中,CoT 可以幫助模型分步驟做出決策。

CoT 與 ReAct 的對比:

  • CoT 專注于推理的過程,即通過思考和推導一步步得到答案

  • ReAct 則結合了推理和行動,也就是說,它不僅進行推理,還會根據需要調用外部工具或執行某些行動(如API調用、搜索等)。

例子對比:

  1. CoT 例子
  • 問:一個果園里有 5 個樹,每棵樹上有 10 個蘋果,一共有多少個蘋果?

  • CoT 推理:

    1. 每棵樹上有 10 個蘋果。2. 共有 5 棵樹。3. 所以總共有 5 * 10 = 50 個蘋果。
    
  1. ReAct 例子(在需要查找信息的情況下):
  • 問:今天紐約的天氣如何?

  • ReAct 推理:

     1. 我需要知道今天紐約的天氣。2. 行動:調用天氣查詢 API 或搜索天氣信息。3. 觀察:得到今天紐約的天氣是晴天,氣溫 30°C。4. 輸出:今天紐約的天氣是晴天,氣溫 30°C。
    

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/914326.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/914326.shtml
英文地址,請注明出處:http://en.pswp.cn/news/914326.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【云服務器安全相關】服務器防火墻常見系統日志信息說明

目錄? 一、防火墻日志是做什么的?🛠? 二、常見防火墻日志信息及說明🧪 三、典型日志示例解析1. 被阻斷的訪問(DROP)2. 被允許的訪問(ACCEPT)3. 被拒絕的端口訪問4. 可疑端口掃描行為&#x1f…

011_視覺能力與圖像處理

視覺能力與圖像處理 目錄 視覺能力概述支持的圖像格式圖像上傳方式使用限制最佳實踐應用場景API使用示例視覺能力概述 多模態交互 Claude 3 系列模型具備強大的視覺理解能力,可以分析和理解圖像內容,實現真正的多模態AI交互。這種能力使Claude能夠: 圖像內容分析:理解圖…

ansible自動化部署考試系統前后端分離項目

1. ?ansible編寫劇本步驟1??創建roles目錄結構2??在group_vars/all/main.yml中定義變量列表3??在tasks目錄下編寫tasks任務4??在files目錄下準備部署文件5??在templates目錄下創建j2模板文件6??在handlers目錄下編寫handlers7??在roles目錄下編寫主playbook8??…

【AI論文】GLM-4.1V-Thinking:邁向具備可擴展強化學習的通用多模態推理

摘要:我們推出GLM-4.1V-Thinking,這是一款旨在推動通用多模態推理發展的視覺語言模型(VLM)。在本報告中,我們分享了在以推理為核心的訓練框架開發過程中的關鍵發現。我們首先通過大規模預訓練開發了一個具備顯著潛力的…

Linux進程通信——匿名管道

目錄 1、進程間通信基礎概念 2、管道的工作原理 2.1 什么是管道文件 3、匿名管道的創建與使用 3.1、pipe 系統調用 3.2 父進程調用 fork() 創建子進程 3.3. 父子進程的文件描述符共享 3.4. 關閉不必要的文件描述符 3.5 父子進程通過管道進行通信 父子進程通信的具體例…

sql:sql在office中的應用有哪些?

在Office軟件套件中,主要是Access和Excel會用到SQL(結構化查詢語言),以下是它們在這兩款軟件中的具體應用: 在Access中的應用 創建和管理數據庫對象: 創建表:使用CREATE TABLE語句可以創建新的數…

零基礎完全理解視覺語言模型(VLM):從理論到代碼實踐

本文是《從LLM到VLM:視覺語言模型的核心技術與Python實現》的姊妹篇,主要面向零基礎的讀者,希望用更通俗易懂的語言帶領大家入門VLM。本教程的完整代碼可以在GitHub上找到,如果你有任何問題或建議,歡迎交流討論。 寫在…

數據結構 Map和Set

文章目錄📕1. 二叉搜索樹??1.1 查找操作??1.2 插入操作??1.3 刪除操作📕2. Map的使用??2.1 Map的常用方法??2.2 TreeMap和HashMap的區別??2.3 HashMap的底層實現📕3. Set的使用??3.1 Set的常用方法??3.2 TreeSet和HashSet的區…

樹莓派5-系統 Debian 12 開啟VNC遠程訪問踩坑記錄

簡單記錄一下踩坑,安裝vnc遠程訪問服務并設置開機自啟1.查看系統版本,我這里的系統版本是 12cat /etc/os-release2.安裝VNC服務sudo apt install realvnc-vnc-server realvnc-vnc-viewer -y3.創建服務單元文件:sudo nano /etc/systemd/system…

TASK2 夏令營:用AI做帶貨視頻評論分析

TASK2 夏令營:用AI做帶貨視頻評論分析**電商評論洞察賽題:從Baseline到LLM進階優化學習筆記**一、 賽題核心解讀1.1. 任務鏈條與目標1.2. 關鍵挑戰與評分機制二、 Baseline方案回顧與瓶頸分析2.1. Baseline技術棧2.2. 核心瓶頸三、 進階優化策略&#xf…

Docker:安裝命令筆記

目錄 零、安裝:略 一、鏡像 1.0、獲取鏡像: 1.1、查看鏡像: 1.2、刪除鏡像: 二、容器 2.0、創建并啟動容器 2.1、tomcat和jdk9的“創建并啟動容器”的命令 2.2、容器操作 2.3、容器日志操作 零、安裝:略 略 …

Python七彩花朵

系列文章 序號直達鏈接Tkinter1Python李峋同款可寫字版跳動的愛心2Python跳動的雙愛心3Python藍色跳動的愛心4Python動漫煙花5Python粒子煙花Turtle1Python滿屏飄字2Python藍色流星雨3Python金色流星雨4Python漂浮愛心5Python愛心光波①6Python愛心光波②7Python滿天繁星8Pytho…

【保姆級圖文詳解】MCP架構(客戶端-服務端)、三種方式使用MCP服務、Spring AI MCP客戶端和服務端開發、MCP部署方案、MCP安全性

文章目錄前言一、MCP(model context protocol)1.1、概念描述1.2、MCP作用與意義1.3、MCP架構二、使用MCP(model context protocol)2.1、云平臺使用MCP2.2、軟件客戶端使用MCP2.3、Spring AI程序中使用MCP三、Spring AI MCP(model context protocol)開發過程3.1、MCP服務端開發3…

Linux的 iproute2 配置:以太網(Ethernet)、綁定(Bond)、虛擬局域網(VLAN)、網橋(Bridge)筆記250713

Linux的 iproute2 配置:以太網(Ethernet)、綁定(Bond)、虛擬局域網(VLAN)、網橋(Bridge)筆記250713 在 Linux 中使用 iproute2 工具集配置網絡是現代且推薦的方法,它取代了舊的 ifconfig、route、brctl、vconfig 等命令。iproute2 提供了統一的接口 ip …

當信任上鏈解碼區塊鏈溯源系統開發邏輯與產業變革

當信任上鏈:解碼區塊鏈溯源系統的開發邏輯與產業變革在上海某高端超市的進口水果區,消費者王女士拿起一盒車厘子,用手機掃描包裝上的二維碼,屏幕立刻彈出一串動態信息:智利瓦爾帕萊索港口的裝船時間、海關清關的具體日…

可視化DIY小程序工具!開源拖拽式源碼系統,自由搭建,完整的源代碼包分享

溫馨提示:文末有資源獲取方式傳統的小程序開發對技術要求較高,這使得許多非技術人員望而卻步。可視化DIY小程序工具應運而生,它通過拖拽式操作和開源代碼系統,極大地降低了開發門檻,讓更多人能夠快速構建個性化小程序。…

【MLLM】多模態理解GLM-4.1V-Thinking模型

note GLM-4.1V-Thinking模型引入 課程采樣強化學習(RLCS, Reinforcement Learning with Curriculum Sampling) 策略,在多個復雜推理任務中實現能力突破,整體性能達到 10B 級別視覺語言模型的領先水平。GLM-4.1V-9B-Thinking 通過…

【C++詳解】STL-priority_queue使用與模擬實現,仿函數詳解

文章目錄一、priority_queue使用仿函數控制優先級sort算法里的仿函數二、手撕優先級隊列優先級隊列的容器適配器入堆出堆top/size/empty迭代器區間構造初始化(解耦)三、仿函數仿函數控制冒泡排序仿函數控制priority_queue比較邏輯仿函數使用場景仿函數的其他使用場景源碼一、pr…

在mac m1基于ollama運行deepseek r1

1 下載和安裝 在ollama的官網下載mac m1版本的ollama https://ollama.com/ 最終獲得如下所示的下載地址 https://github.com/ollama/ollama/releases/latest/download/Ollama.dmg 然后點擊安裝,然后測試 ollama list 2 運行deepseek r1 deepseek-r1:8b 比較適…

TCP與UDP協議詳解:網絡世界的可靠信使與高速快遞

> 互聯網的骨架由傳輸層協議支撐,而TCP與UDP如同血管中的紅細胞與血小板,各司其職卻又缺一不可 ### 一、初識傳輸層雙雄:網絡通信的基石 想象你要給朋友寄送重要文件: - **TCP** 如同順豐快遞:**簽收確認+物流追蹤**,確保文件完整送達 - **UDP** 如同普通信件:**直接…