【論文筆記】【強化微調】AgentThink:思維鏈推理 + 工具調用

AgentThink: A Unified Framework for Tool-Augmented Chain-of-Thought Reasoning in Vision-Language Models for Autonomous Driving

1. 引述

這是一篇自動駕駛領域的論文。我對這篇論文主要感興趣的點在于其對于工具調用(Tool Call)的設計。這一點同時也被設計在了其強化微調時的獎勵函數上。

2. 方法

2.1 思維鏈設計

論文思維鏈的每個步驟都被組織成五個要素:

  • 所選工具(顯式輸出在思考過程中,也就是 <tool>)
    模型在該步驟決定要調用的外部模塊/工具名稱(比如 “Open-Vocab Detector” 或 “Depth Estimator”),或者標記不調用任何工具。

  • 子問題?
    針對當前推理目標,模型提出的一個更細粒度的問題。

    例如在判斷能否左轉時,子問題可能是“前方來車速度如何?”或“左側車道上有沒有行人?”

  • 不確定性標記
    一個布爾值,標記“內部知識能否直接回答子問題”:

    • 如果模型內部已有足夠知識,可直接判斷,則標記為 False

    • 否則標記為 True,表示需要調用工具輔助判斷。

  • 初步答案

    • 當不確定性標記為 False 時,模型直接給出問題的回答;

    • 若不確定性標記為 True,此處留空,等待工具返回結果后再進行下一步推理。

  • 下一步動作選擇
    指示是“繼續推理”(Continue Reasoning)還是“結束推理并輸出最終答案”(Conclude)。

2.2?工具調用

在開放詞匯目標檢測、軌跡預測等指定任務上,專門針對這方面的模型必然效果比語言模型好。如果讓 LLM 去做這些任務,那么大概率是會生成幻覺的,就好比早期的 GPT,你問它數學題,它輸出錯誤答案(幻覺);而現在的 GPT 遇到復雜的數學問題會直接求助 Python,這就是工具調用(Tool Call)。

上圖是論文的一個對比實驗圖,對比使用 tool 和不使用 tool 的效果。

論文的附錄里面寫了所有使用的 tool,而結果上這些 tool 是一個個的函數。在 SFT 階段,論文對大模型輸出形式進行微調(預熱),在微調輸出思維鏈那一塊兒就用 <tool> 來指定調用哪個函數。

2.3?獎勵函數

論文在摘要提到他們的創新包括: GRPO 微調、調用工具、思維鏈。事實上,GRPO 微調的論文現在一抓一大把,微調不是創新,微調的設置才是創新,確切來說(主要)是獎勵函數的設計。

工具調用和思維鏈這兩個創新需要和微調關聯起來,意思就是說獎勵函數的設計是包括了這兩個創新點。

論文的獎勵函數設計思路如下:

  • 最終答案獎勵:答案正確就基于正反饋
  • 推理步驟獎勵:思維鏈的推理是否正確(判斷答案是不是蒙出來的,或者答案錯誤但是思路是對的)
  • 工具調用獎勵:在 “解題” 過程中,是否用了正確的輔助工具

具體的設計公式(給多少點獎勵)論文并未提及。

2.4?方法流程

論文首先是構建了一個數據集。使用特定提示模板,讓 GPT-4o 在每一步推理中決定是否調用工具,并生成“子問題 → (工具調用)→ 中間答案 → 下一步動作”的完整鏈式思維軌跡。

接著使用千問7B作為 LLM,使用 SFT 對模型進行預熱,也就是規范模型輸出格式,并告訴模型其將要面臨的具體任務(比如這個數據集都是自動駕駛的數據,那么模型在監督微調之后,后續的回復就會更傾向自動駕駛)

最后在實際推理時,模型根據每步的“不確定”標記,實時決定是否調用工具,并將工具輸出融入后續推理。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/85441.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/85441.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/85441.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

前端頁面Javascript進階DOM與BOM

一、DOM基礎概念 DOM 是文檔對象模型&#xff0c;提供編程接口用于操作 HTML 和 XML 文檔。它將文檔表示為節點樹&#xff0c;每個節點代表文檔的一部分&#xff0c;如元素、文本、屬性等。通過 DOM&#xff0c;開發者可以訪問和修改文檔的結構、樣式與內容。 文檔節點類型 …

AWS CloudFormation深度解析:構建現代云原生應用基礎設施

在現代云原生應用開發中,基礎設施即代碼(Infrastructure as Code, IaC)已成為標準實踐。本文將深入解析一個完整的AWS CloudFormation模板,該模板為GlowChat Connector應用構建了生產級的基礎設施。 模板概述 這個CloudFormation模板是一個兩部分部署架構中的第一部分,專…

Oracle 查看所有表的字段名、數據類型及長度

1.只查看某個特定表的字段名 SELECT column_name, data_type, data_length FROM user_tab_columns WHERE table_name 你的表名 -- 注意大寫 ORDER BY column_id;2.查看當前用戶下所有表的字段名 SELECT table_name, column_name, data_type, data_length FROM user_tab_colu…

創客匠人分享知識付費監管升級下的行業價值重構:從合規挑戰到發展機遇的實踐路徑

引言&#xff1a;監管政策背后的行業邏輯轉向 知識付費領域的監管體系升級&#xff0c;本質上是對行業發展路徑的重新校準。隨著 "內容產品需具備知識沉淀載體" 等新規落地&#xff0c;行業正在經歷從 "流量驅動型增長" 到 "價值驅動型發展" 的…

邊緣計算的認識和應用

邊緣計算 邊緣計算是一種分布式計算范式&#xff0c;它將計算能力和數據存儲放置在離數據源更近的位置&#xff0c;而不是依賴于集中式的數據中心。通過在“邊緣”進行數據處理&#xff0c;邊緣計算可以減少延遲、提高響應速度、節省帶寬&#xff0c;并增強數據隱私和安全性。…

Arduino R4 WIFI橫向滾動顯示16×16LED屏

實現一個從左向右橫向滾動的"吉祥如意"顯示效果。 arduino r4 WiFi滾動顯示16*16led #include <SPI.h>// 引腳定義 const int RowA 2, RowB 3, RowC 4, RowD 5; const int OE 6; const int LATCH 10;// 字模數據 (吉祥如意) const PROGMEM byte characte…

html css js網頁制作成品——HTML+CSS+js力學光學天文網頁設計(4頁)附源碼

目錄 一、&#x1f468;?&#x1f393;網站題目 二、??網站描述 三、&#x1f4da;網站介紹 四、&#x1f310;網站效果 五、&#x1fa93; 代碼實現 &#x1f9f1;HTML 六、&#x1f947; 如何讓學習不再盲目 七、&#x1f381;更多干貨 一、&#x1f468;?&#x1f…

嵌入式開發之freeRTOS移植

FreeRTOS 是一款廣泛應用于嵌入式系統的開源實時操作系統&#xff08;RTOS&#xff09;&#xff0c;其移植過程需要結合具體硬件平臺和編譯器進行適配。以下是 FreeRTOS 移植的詳細步驟和關鍵注意事項&#xff1a; 一、移植前的準備工作 1. 硬件平臺確認 處理器架構&#xf…

【算法 day07】LeetCode 344.反轉字符串 | 541. 反轉字符串II | 卡碼網:54.替換數字

344.反轉字符串 題目鏈接 | 文檔講解 |視頻講解 : 鏈接 1.思路&#xff1a; 采用雙指針&#xff0c;left從0開始移動,right從尾元素進行移動 循環判斷條件&#xff1a;left< right,邊界值使用舉例法&#xff0c;eg: [ h ,e ,l,o ]偶數個不會相遇, [h ,e ,l ,l ,o ]奇數個&…

從檢索到生成:RAG 如何重構大模型的知識邊界?

引言&#xff1a;知識邊界的突破與重構 在人工智能技術快速發展的今天&#xff0c;大型語言模型&#xff08;LLMs&#xff09;已經展現出強大的文本生成和理解能力。然而&#xff0c;這些模型在實際應用中仍面臨著知識時效性、事實準確性和可溯源性等核心挑戰。檢索增強生成&a…

前端基礎知識CSS系列 - 05(BFC的理解)

一、是什么 我們在頁面布局的時候&#xff0c;經常出現以下情況&#xff1a; 這個元素高度怎么沒了&#xff1f;這兩欄布局怎么沒法自適應&#xff1f;這兩個元素的間距怎么有點奇怪的樣子&#xff1f;...... 原因是元素之間相互的影響&#xff0c;導致了意料之外的情況&…

Prompt Engineering 學習指南:從入門到精通的最佳路徑與資源

本 Prompt Engineering 技術報告,旨在提供一個從入門到精通的清晰學習路徑、核心方案,并附上最關鍵的 GitHub 倉庫資源。您可以將此報告作為快速提升 Prompt 能力的“速查手冊”和“成長地圖”。 Prompt Engineering 學習指南:從入門到精通的最佳路徑與資源 技術報告摘要 (…

fastmcp MCPConfig多服務器使用案例;sse、stdio、streamable-http使用

1、sse、stdio、streamable-http使用 參考&#xff1a;https://gofastmcp.com/deployment/running-server#the-run-method stdio本地使用&#xff1b;sse、streamable-http遠程調用&#xff08; Streamable HTTP—New in version: 2.3.0&#xff09; 調用&#xff1a; stdio、…

網站服務器被DDOS攻擊打不開,是要換高防服務器還是加CDN能防護住?

高防云服務器、高防 IP 和高防 CDN 作為常見應對網絡攻擊的重要利器&#xff0c;它們各自有著獨特的特點和應用場景&#xff0c;從技術架構看&#xff0c;高防云服務器是資源型防護&#xff0c;深度整合計算與防御資源&#xff1b;高防IP是流量型防護&#xff0c;以代理模式實現…

深入解析原型模式:從理論到實踐的全方位指南

深入解析原型模式&#xff1a;從理論到實踐的全方位指南 引言&#xff1a;為什么需要原型模式&#xff1f; 在軟件開發過程中&#xff0c;對象創建是一個頻繁且關鍵的操作。傳統方式&#xff08;如直接使用new關鍵字&#xff09;在某些場景下會顯得效率低下且不夠靈活。想象這…

HuggingFace鏡像配置失效問題深度解析:Python模塊導入機制的陷阱

前言 在使用HuggingFace的transformers和datasets庫時&#xff0c;國內用戶經常會遇到網絡連接問題。雖然設置了鏡像源環境變量&#xff0c;但仍然報錯無法連接到huggingface.co。本文將深入分析這個問題的根因&#xff0c;并從Python模塊導入機制的角度解釋為什么環境變量設置…

leetcode146-LRU緩存

leetcode 146 思路 什么是LRU緩存&#xff1f; LRU&#xff08;Least Recently Used&#xff09;緩存是一種常見的緩存淘汰策略&#xff0c;核心思想是&#xff1a;當緩存容量滿時&#xff0c;優先淘汰最久未使用的數據。LeetCode 146 題要求實現一個支持get和put操作的 LR…

MQTT:構建高效物聯網通信的輕量級協議

MQTT – 輕量級物聯網消息推送協議 MQTT&#xff08;Message Queuing Telemetry Transport&#xff09;是機器對機器(M2M)/物聯網(IoT)連接協議。它被設計為一個極其輕量級的發布/訂閱消息傳輸協議。對于需要較小代碼占用空間和/或網絡帶寬非常寶貴的遠程連接非常有用&#xf…

AI自動生成復雜架構圖,流程圖,思維導圖

AI自動生成復雜架構圖&#xff0c;流程圖&#xff0c;思維導圖方案 1. 背景 在我們自己去繪制架構圖&#xff0c;流程圖&#xff0c;思維導圖的時候&#xff0c;我們通常需要花費大量的時間去繪制。 目前的一些直接生圖的模型也只能生成簡單的流程圖&#xff0c;不能生成復雜…

129. 求根節點到葉節點數字之和 --- DFS +回溯(js)

129. 求根節點到葉節點數字之和 --- DFS 回溯&#xff08;js&#xff09; 題目描述解題思路完整代碼 題目描述 129. 求根節點到葉節點數字之和 解題思路 和 257. 二叉樹的所有路徑&#xff08;js&#xff09; 是一樣的思路。 不一樣的地方就是遇到葉子節點的時候把路徑拼接…