LLM-Based Agent綜述及其框架學習(五)

文章目錄

  • 摘要
  • Abstract
  • 1. 引言
  • 2. 文本輸出
  • 3. 工具的使用
    • 3.1 理解工具
    • 3.2 學會使用工具
    • 3.3 制作自給自足的工具
    • 3.4 工具可以擴展LLM-Based Agent的行動空間
    • 3.5 總結
  • 4. 具身動作
  • 5. 學習智能體框架
    • 5.1 CrewAI學習進度
    • 5.2 LangGraph學習進度
    • 5.3 MCP學習進度
  • 參考
  • 總結

摘要

??本文圍繞基于大語言模型(LLM)的智能體(Agent)展開探討,重點分析了其動作模塊的構建與功能實現。智能體通過模擬人類認知過程,整合感知信息并進行推理決策,最終執行與環境交互的動作。LLM賦予智能體強大的文本生成能力,使其成為高效的語言生成器。然而,智能體在專業知識、決策透明度和抗干擾能力等方面存在局限,而工具的使用能有效彌補這些不足。通過理解工具功能、學習使用工具甚至自主創建工具,智能體能夠擴展行動空間,提升任務完成的質量和效率。工具不僅幫助智能體獲取外部資源,還能實現多模態輸出,從而拓展應用場景。特別值得關注的是"數字具身"智能體的發展,這類智能體能夠通過工具或多模態方式與物理環境動態交互,實現從純文本輸出到具身行為的跨越。具身智能體通過與環境的持續互動獲得智能,其行為模式更接近人類,能夠主動感知、理解并修改環境。這一范式被視為實現通用人工智能(AGI)的關鍵路徑,其核心在于將模型智能與物理世界緊密結合。未來,隨著工具使用能力的提升和具身行為的完善,LLM-Based Agent有望在更廣泛領域展現類人的適應性和創造性。

Abstract

??This article focuses on Large Language Model (LLM)-based agents, with a particular emphasis on the construction and functional implementation of their action modules. These agents simulate human cognitive processes by integrating perceptual information, performing reasoning and decision-making, and ultimately executing actions to interact with their environment. LLMs endow agents with powerful text generation capabilities, making them efficient language generators. However, agents still face limitations in areas such as domain-specific knowledge, decision transparency, and robustness against interference. The use of tools can effectively mitigate these shortcomings. By understanding tool functionalities, learning to use tools, and even creating tools autonomously, agents can expand their action space and improve task performance in terms of both quality and efficiency. Tools not only help agents access external resources but also enable multimodal outputs, thereby broadening their application scenarios. Particularly noteworthy is the development of “digitally embodied” agents—agents capable of dynamically interacting with the physical environment through tools or multimodal means, bridging the gap between pure text output and embodied behavior. These embodied agents acquire intelligence through continuous interaction with their environment, exhibiting behavior patterns more akin to those of humans. They can actively perceive, understand, and modify their surroundings. This paradigm is considered a key pathway toward achieving Artificial General Intelligence (AGI), with its core lying in the deep integration of model intelligence and the physical world. In the future, as tool-use capabilities advance and embodied behaviors become more sophisticated, LLM-based agents are expected to demonstrate human-like adaptability and creativity across a wider range of domains.

1. 引言

??人類感知環境后,大腦會對感知到的信息進行整合、分析、推理,并做出決策。隨后,他們利用自己的神經系統來控制自己的身體,根據環境做出適應性或創造性的行動,比如進行對話、躲避障礙物或生火。當一個智能體擁有類似大腦的結構,具有知識、記憶、推理、規劃和泛化能力,以及多模態感知能力時,它也有望擁有類似于人類的各種各樣的行動,以應對周圍的環境。在智能體的構建中,動作模塊接收大腦模塊發送的動作序列,并執行與環境交互的動作。下面將介紹關于LLM-Based Agent概念框架中關于動作模塊的內容。

2. 文本輸出

??基于transformer的生成式大型語言模型的興起和發展賦予了LLM-Based Agent固有的語言生成能力。它們生成的文本質量在流暢性、相關性、多樣性、可控性等各個方面都表現優異。因此,LLM-Based Agent可以是非常強大的語言生成器。

3. 工具的使用

??工具是工具使用者能力的擴展。當面對復雜的任務時,人類使用工具來簡化任務解決和提高效率,從而釋放時間和資源。同樣,如果智能體也學會使用和利用工具,它們也有可能更高效、更高質量地完成復雜任務。
??LLM-Based Agent在某些方面存在局限性,使用工具可以增強代理的能力。首先,盡管LLM-Based Agent具有強大的知識庫和專業知識,但它們不具備記住每一條訓練數據的能力。他們也可能由于上下文提示的影響而無法轉向正確的知識,甚至產生幻覺知識。再加上缺乏語料庫、訓練數據以及針對特定領域和場景的調優,在專注于特定領域時,智能體的專業知識也受到限制。專門的工具使法學碩士能夠增強他們的專業知識,適應領域知識,并以可插拔的形式更適合特定于領域的需求。此外,LLM-Based Agent的決策過程缺乏透明度,使得它們在醫療保健和金融等高風險領域不那么值得信賴。此外,大語言模型容易受到對抗性攻擊,并且它們對輕微輸入修改的魯棒性不足。相比之下,在工具的幫助下完成任務的智能體表現出更強的可解釋性和魯棒性。工具的執行過程可以反映代理處理復雜需求的方法,并增強其決策的可信度。此外,由于工具是專門為其各自的使用場景而設計的,使用此類工具的代理可以更好地處理輕微的輸入修改,并且對對抗性攻擊更具彈性。
??LLM-Based Agent不僅需要使用工具,而且非常適合工具集成。利用通過預訓練過程和CoT提示積累的豐富世界知識,大語言模型在復雜的交互環境中表現出卓越的推理和決策能力,這有助于智能體以適當的方式分解和處理用戶指定的任務。此外,大語言模型在意圖理解等方面顯示出顯著的潛力。當代理與工具相結合時,可以降低工具使用的門檻,從而充分釋放人類用戶的創造潛力。

3.1 理解工具

??智能體有效使用工具的前提是全面理解工具的應用場景和調用方法。如果沒有這種理解,智能體使用工具的過程就會變得不可信,無法真正增強智能體的能力。利用大語言模型強大
的零次和少次學習能力[40];41],智能體可以通過使用描述工具功能和參數的零樣本提示,或提供特定工具使用場景和相應方法演示的少量樣本提示來獲取關于工具的知識。這些學習方法與人類通過查閱工具手冊或觀察他人使用工具進行學習的方法類似。當面對復雜的任務時,單一的工具往往是不夠的。因此,智能體首先要以適當的方式將復雜的任務分解成子任務,它們對工具的理解在任務分解中起著重要的作用。

3.2 學會使用工具

??智能體學習使用工具的方法主要包括從演示中學習和從反饋中學習。這涉及到模仿人類專家的行為,以及了解其行為的后果,并根據從環境和人類那里收到的反饋進行調整。環境反饋包括關于行動是否成功完成任務的結果反饋和捕獲由行動引起的環境狀態變化的中間反饋;人類反饋包括顯式評估和隱式行為,如點擊鏈接。如果智能體嚴格地應用工具而沒有適應性,那么它將無法在所有場景中獲得可接受的性能。智能體需要將他們在特定情境中學習到的工具使用技能推廣到更一般的情境中,比如將一個在Yahoo搜索上訓練過的模型轉移到谷歌搜索上。要做到這一點,智能體有必要掌握工具使用策略中的共同原則或模式,這可以通過元工具學習來實現。增強智能體對簡單工具和復雜工具之間關系的理解,比如復雜工具是如何建立在更簡單工具的基礎上的,可以有助于智能體概括工具使用的能力。這使得智能體能夠有效地辨別各種應用場景之間的細微差別,并將之前學到的知識轉移到新的工具中。課程學習允許智能體從簡單的工具開始,逐步學習復雜的工具,這與需求是一致的。此外,受益于對用戶意圖推理和規劃能力的理解,智能體可以更好地設計工具利用和協作的方法,從而提供更高質量的結果。

3.3 制作自給自足的工具

??現有的工具通常是為了人類的方便而設計的,這對于智能體來說可能不是最優的。為了讓智能體更好地使用工具,就需要專門為智能體設計的工具。這些工具應該更加模塊化,具有更適合智能體的輸入輸出格式。如果提供了說明和演示,LLM-Based Agent還具有通過生成可執行程序或將現有工具集成為更強大的工具來創建工具的能力。他們還可以學習進行自我調試。此外,如果作為工具制造者的智能體成功地創建了一個工具,除了使用工具本身外,它還可以為多智能體系統中的其他智能體生成包含工具代碼和演示的包。推測一下,在未來,智能體可能會變得自給自足,并在工具方面表現出高度的自主性。

3.4 工具可以擴展LLM-Based Agent的行動空間

??在工具的幫助下,智能體可以在推理和規劃階段利用各種外部資源,如web應用程序和其他語言模型。這一過程可以為LLM-Based Agent提供高專業度、可靠性、多樣性和高質量的信息,促進他們的決策和行動。例如,基于搜索的工具可以借助外部數據庫、知識圖和網頁來提高智能體可訪問知識的范圍和質量,而領域特定工具可以增強智能體在相應領域的專業知識。一些研究人員已經開發出基于大語言模型的控制器,生成SQL語句來查詢數據庫,或者將用戶查詢轉換為搜索請求,并使用搜索引擎獲得期望的結果。更重要的是,LLM-Based Agent可以使用科學工具執行化學中的有機合成等任務,或者與Python解釋器接口,以提高其在復雜的數學計算任務中的性能。對于多智能體系統,通信工具(如電子郵件)可以作為智能體在嚴格的安全約束下相互交互的手段,促進它們的協作,并表現出自主性和靈活性。

3.5 總結

??雖然前面提到的工具增強了智能體的能力,但與環境交互的媒介仍然是基于文本的。然而,工具是為了擴展語言模型的功能而設計的,它們的輸出并不局限于文本。用于非文本輸出的工具可以使智能體行為的模式多樣化,從而擴展了LLM-Based Agent的應用場景。例如,圖像處理和生成可以由一個利用視覺模型的智能體來完成。在航空航天工程中,智能體正在被探索用于物理建模和求解復雜微分方程;在機器人領域,需要智能體來規劃物理操作并控制機器人執行等等。能夠通過工具或以多模態方式與環境或世界動態交互的智能體可以被稱為數字具身。具身智能體一直是具身學習研究的中心焦點。

4. 具身動作

??在追求通用人工智能(AGI)的過程中,具身智能體被認為是一個關鍵的范式,它努力將模型智能與物理世界相結合。具體化假說從人類智能發展過程中汲取靈感,提出智能體的智能來自于與環境的持續互動和反饋,而不是僅僅依賴于精心策劃的教科書。類似地,與傳統的深度學習模型(從互聯網數據集學習明確的能力來解決領域問題)不同,人們預計LLM-Based Agent的行為將不再局限于純文本輸出或調用精確的工具來執行特定的領域任務。相反,它們應該能夠主動感知、理解和與物理環境交互,做出決策,并基于LLM廣泛的內部知識產生特定的行為來修改環境。我們將這些統稱為具體化的行為,它使智能體能夠以一種與人類行為非常相似的方式與世界進行交互和理解。

5. 學習智能體框架

5.1 CrewAI學習進度

??CrewAI學習進度指路:CrewAI Community Version(五)——Flows基礎

5.2 LangGraph學習進度

??LangGraph學習進度指路:LangGraph(四)——加入人機交互控制

5.3 MCP學習進度

??MCP學習進度指路:MCP(一)——QuickStart

參考

Zhiheng Xi, Wenxiang Chen, Xin Guo. and et al. The Rise and Potential of Large Language Model Based Agents: A Survey.

總結

??本文探討了基于大語言模型的智能體如何通過工具使用和具身行為實現類人交互能力。研究表明,雖然LLM賦予智能體強大的文本生成能力,但其在專業知識、決策透明度和抗干擾性等方面仍存在不足。通過理解工具功能、學習使用方法和自主創建工具,智能體顯著擴展了行動能力邊界。特別值得注意的是,工具不僅幫助智能體獲取外部資源,還能實現多模態輸出,推動智能體從純文本交互向"數字具身"形態演進。這種能夠通過多模態方式與環境動態交互的具身智能體,被視為實現通用人工智能的重要路徑,其核心在于將模型智能與物理世界深度融合,通過持續互動獲得類人的適應性和創造性。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/81692.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/81692.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/81692.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

游戲引擎學習第298天:改進排序鍵 - 第1部分

關于向玩家展示多個房間層所需的兩種 Z 值 我們在前一天基本完成了為渲染系統引入分層 Z 值的工作,但還沒有完全完成所有細節。我們開始引入圖形渲染中的分層概念,即在 Z 軸方向上擁有多個獨立圖層,每個圖層內部再使用一個單獨的 Z 值來實現…

一些C++入門基礎

關鍵字 圖引自 C 關鍵詞 - cppreference.com 命名空間 命名空間解決了C沒辦法解決的各類命名沖突問題 C的標準命名空間:std 命名空間中可以定義變量、函數、類型: namespace CS {//變量char cs408[] "DS,OS,JW,JZ";int cs 408;//函數vo…

學習筆記:黑馬程序員JavaWeb開發教程(2025.4.6)

12.4 登錄校驗-JWT令牌-介紹 JWT(JSON Web Token) 簡潔是指JWT是一個簡單字符串,自包含指的是JWT令牌,看似是一個隨機字符串,但是可以根據需要,自定義存儲內容 Header是JSON數據格式,原始JSO…

香港科技大學物理學理學(科學計算與先進材料物理與技術)碩士招生宣講會——深圳大學

香港科技大學物理學理學(科學計算與先進材料物理與技術)碩士招生宣講會——深圳大學專場 🕙時間:2025年5月23日(星期五)14:30 🏫地點:深圳大學滄海校區致原樓1101 &#x1f9d1…

數據庫優化技巧:MySQL 重復數據查詢與刪除(僅保留一條)的性能優化策略

目錄 一、查詢重復數據 二、刪除重復數據 方法 1:創建臨時表,操作完成后再刪除臨時表(安全可靠,適合大表) 步驟 1:創建臨時表存儲需刪除的 ID 步驟 2:根據臨時表刪除數據 方法 2&#xff1a…

分布式ID生成器:原理、對比與WorkerID實戰

一、為什么需要分布式ID? 在微服務架構下,單機自增ID無法滿足跨服務唯一性需求,且存在: ? 單點瓶頸:數據庫自增ID依賴單表寫入 ? 全局唯一性:跨服務生成可能重復 ? 擴展性差:分庫分表后ID規…

Golang的代碼注釋規范與實踐

# Golang的代碼注釋規范與實踐 一、注釋的重要性 代碼注釋是程序員交流的橋梁 代碼注釋是程序員之間溝通交流的重要形式,良好的注釋能夠幫助其他開發者更快地理解代碼的意圖和實現方式。 代碼維護離不開注釋 在項目維護過程中,良好的注釋能夠幫助開發者回…

Qt讀取Excel文件的技術實現與最佳實踐

目錄 一、成果展示二、核心方法及原理1. QAxObject(基于COM接口)2. 第三方庫QXlsx3. ODBC數據庫驅動三、實現步驟詳解1. QAxObject讀取Excel(需安裝Excel/WPS)2. QXlsx讀取Excel(跨平臺方案)四、技術選型與對比五、應用場景與優化建議1. 高頻數據處理2. 跨平臺工具開發3.…

機器學習第十五講:決策樹全面講解:像玩“20個問題“游戲猜身份[特殊字符]

機器學習第十五講:決策樹全面講解:像玩"20個問題"游戲猜身份🎮 資料取自《零基礎學機器學習》。 查看總目錄:學習大綱 關于DeepSeek本地部署指南可以看下我之前寫的文章:DeepSeek R1本地與線上滿血版部署&…

CCpro工程編程軟件

CXpro?? 是一個軟件應用套件,用以完成 ABB Cylon CB 系列 BACnet 控制器的設計、工程、編程、配置、測試、調試和維護。 主要優勢 CXpro?? 提供改進的導航和頁面命名,使開發人員能夠輕松地圍繞大型策略進行操作。它也允許立即訪問可快速更新的點和…

數據庫(二):ORM技術

什么是 ORM? ORM(Object-Relational Mapping) 是一種用于實現 對象模型(面向對象)與關系模型(數據庫)之間映射的技術,使程序員可以通過操作對象的方式訪問數據庫數據,而無…

系統設計——項目設計經驗總結1

摘要 在系統設計的時候,注意域的區分,功能區分、類的區分、方法區分范圍和定義。在系統設計的時候的,需要思考類、方法在什么情況下會涉及到修改,遵循記住:一個類應該只有一個原因被修改! 當不滿足&#x…

【Java高階面經:微服務篇】3.熔斷機制深度優化:從抖動治理到微服務高可用架構實戰

一、熔斷抖動的本質剖析與核心成因 1.1 熔斷機制的核心價值與抖動危害 熔斷機制作為微服務彈性架構的核心組件,通過模擬電路斷路器邏輯,在服務出現異常時自動阻斷請求鏈,防止故障擴散引發雪崩。但頻繁的“熔斷-恢復-熔斷”抖動會導致: 用戶體驗惡化:請求成功率波動大,響…

深入淺出人工智能:機器學習、深度學習、強化學習原理詳解與對比!

各位朋友,大家好!今天咱們聊聊人工智能領域里最火的“三劍客”:機器學習 (Machine Learning)、深度學習 (Deep Learning) 和 強化學習 (Reinforcement Learning)。 聽起來是不是有點高大上? 別怕,我保證把它們講得明明…

【動手學深度學習】1.1~1.2 機器學習及其關鍵組件

目錄 一、引言1.1. 日常生活中的機器學習1.2. 機器學習中的關鍵組件1)數據2)模型3)目標函數4)優化算法 一、引言 1.1. 日常生活中的機器學習 應用場景: 以智能語音助手(如Siri、Alexa)的喚醒…

Pytorch針對不同電腦配置詳細講解+安裝(CPU)

一、前言 安裝pytorch前,應按照我前邊的博文中,安裝完anaconda和pycharm,并且配置完環境變量以后哈。 Pytorch是什么? 它是一個庫,是一個開源的機器學習框架,專注于深度學習任務,由Facebook的人工智能研…

[python] 輕量級定時任務調度庫schedule使用指北

schedule是一款專為簡化定時任務調度而設計的Python庫,它通過直觀的語法降低了周期性任務的實現門檻。作為進程內調度器,它無需額外守護進程,輕量且無外部依賴,適合快速搭建自動化任務。不過,該庫在功能完整性上有所取…

React的合成事件(SyntheticEventt)

文章目錄 前言 前言 React的合成事件(SyntheticEvent)是React為了統一不同瀏覽器的事件處理行為而封裝的一套跨瀏覽器事件系統。它與原生事件的主要區別如下: 1. 事件綁定方式 ? 合成事件:使用駝峰命名法綁定事件(如…

報表控件stimulsoft教程:如何在報表和儀表板中創建熱圖

Stimulsoft Ultimate (原Stimulsoft Reports.Ultimate)是用于創建報表和儀表板的通用工具集。該產品包括用于WinForms、ASP.NET、.NET Core、JavaScript、WPF、PHP、Java和其他環境的完整工具集。無需比較產品功能,Stimulsoft Ultimate包含了…

[免費]蒼穹微信小程序外賣點餐系統修改版(跑腿點餐系統)(SpringBoot后端+Vue管理端)【論文+源碼+SQL腳本】

大家好,我是java1234_小鋒老師,看到一個不錯的微信小程序醫院預約掛號管理系統(uni-appSpringBoot后端Vue管理端),分享下哈。 項目視頻演示 【免費】蒼穹微信小程序外賣點餐系統修改版(跑腿點餐系統)(SpringBoot后端Vue管理端) Java畢業設計…