文章目錄
- 摘要
- Abstract
- 1. 引言
- 2. 文本輸出
- 3. 工具的使用
- 3.1 理解工具
- 3.2 學會使用工具
- 3.3 制作自給自足的工具
- 3.4 工具可以擴展LLM-Based Agent的行動空間
- 3.5 總結
- 4. 具身動作
- 5. 學習智能體框架
- 5.1 CrewAI學習進度
- 5.2 LangGraph學習進度
- 5.3 MCP學習進度
- 參考
- 總結
摘要
??本文圍繞基于大語言模型(LLM)的智能體(Agent)展開探討,重點分析了其動作模塊的構建與功能實現。智能體通過模擬人類認知過程,整合感知信息并進行推理決策,最終執行與環境交互的動作。LLM賦予智能體強大的文本生成能力,使其成為高效的語言生成器。然而,智能體在專業知識、決策透明度和抗干擾能力等方面存在局限,而工具的使用能有效彌補這些不足。通過理解工具功能、學習使用工具甚至自主創建工具,智能體能夠擴展行動空間,提升任務完成的質量和效率。工具不僅幫助智能體獲取外部資源,還能實現多模態輸出,從而拓展應用場景。特別值得關注的是"數字具身"智能體的發展,這類智能體能夠通過工具或多模態方式與物理環境動態交互,實現從純文本輸出到具身行為的跨越。具身智能體通過與環境的持續互動獲得智能,其行為模式更接近人類,能夠主動感知、理解并修改環境。這一范式被視為實現通用人工智能(AGI)的關鍵路徑,其核心在于將模型智能與物理世界緊密結合。未來,隨著工具使用能力的提升和具身行為的完善,LLM-Based Agent有望在更廣泛領域展現類人的適應性和創造性。
Abstract
??This article focuses on Large Language Model (LLM)-based agents, with a particular emphasis on the construction and functional implementation of their action modules. These agents simulate human cognitive processes by integrating perceptual information, performing reasoning and decision-making, and ultimately executing actions to interact with their environment. LLMs endow agents with powerful text generation capabilities, making them efficient language generators. However, agents still face limitations in areas such as domain-specific knowledge, decision transparency, and robustness against interference. The use of tools can effectively mitigate these shortcomings. By understanding tool functionalities, learning to use tools, and even creating tools autonomously, agents can expand their action space and improve task performance in terms of both quality and efficiency. Tools not only help agents access external resources but also enable multimodal outputs, thereby broadening their application scenarios. Particularly noteworthy is the development of “digitally embodied” agents—agents capable of dynamically interacting with the physical environment through tools or multimodal means, bridging the gap between pure text output and embodied behavior. These embodied agents acquire intelligence through continuous interaction with their environment, exhibiting behavior patterns more akin to those of humans. They can actively perceive, understand, and modify their surroundings. This paradigm is considered a key pathway toward achieving Artificial General Intelligence (AGI), with its core lying in the deep integration of model intelligence and the physical world. In the future, as tool-use capabilities advance and embodied behaviors become more sophisticated, LLM-based agents are expected to demonstrate human-like adaptability and creativity across a wider range of domains.
1. 引言
??人類感知環境后,大腦會對感知到的信息進行整合、分析、推理,并做出決策。隨后,他們利用自己的神經系統來控制自己的身體,根據環境做出適應性或創造性的行動,比如進行對話、躲避障礙物或生火。當一個智能體擁有類似大腦的結構,具有知識、記憶、推理、規劃和泛化能力,以及多模態感知能力時,它也有望擁有類似于人類的各種各樣的行動,以應對周圍的環境。在智能體的構建中,動作模塊接收大腦模塊發送的動作序列,并執行與環境交互的動作。下面將介紹關于LLM-Based Agent概念框架中關于動作模塊的內容。
2. 文本輸出
??基于transformer的生成式大型語言模型的興起和發展賦予了LLM-Based Agent固有的語言生成能力。它們生成的文本質量在流暢性、相關性、多樣性、可控性等各個方面都表現優異。因此,LLM-Based Agent可以是非常強大的語言生成器。
3. 工具的使用
??工具是工具使用者能力的擴展。當面對復雜的任務時,人類使用工具來簡化任務解決和提高效率,從而釋放時間和資源。同樣,如果智能體也學會使用和利用工具,它們也有可能更高效、更高質量地完成復雜任務。
??LLM-Based Agent在某些方面存在局限性,使用工具可以增強代理的能力。首先,盡管LLM-Based Agent具有強大的知識庫和專業知識,但它們不具備記住每一條訓練數據的能力。他們也可能由于上下文提示的影響而無法轉向正確的知識,甚至產生幻覺知識。再加上缺乏語料庫、訓練數據以及針對特定領域和場景的調優,在專注于特定領域時,智能體的專業知識也受到限制。專門的工具使法學碩士能夠增強他們的專業知識,適應領域知識,并以可插拔的形式更適合特定于領域的需求。此外,LLM-Based Agent的決策過程缺乏透明度,使得它們在醫療保健和金融等高風險領域不那么值得信賴。此外,大語言模型容易受到對抗性攻擊,并且它們對輕微輸入修改的魯棒性不足。相比之下,在工具的幫助下完成任務的智能體表現出更強的可解釋性和魯棒性。工具的執行過程可以反映代理處理復雜需求的方法,并增強其決策的可信度。此外,由于工具是專門為其各自的使用場景而設計的,使用此類工具的代理可以更好地處理輕微的輸入修改,并且對對抗性攻擊更具彈性。
??LLM-Based Agent不僅需要使用工具,而且非常適合工具集成。利用通過預訓練過程和CoT提示積累的豐富世界知識,大語言模型在復雜的交互環境中表現出卓越的推理和決策能力,這有助于智能體以適當的方式分解和處理用戶指定的任務。此外,大語言模型在意圖理解等方面顯示出顯著的潛力。當代理與工具相結合時,可以降低工具使用的門檻,從而充分釋放人類用戶的創造潛力。
3.1 理解工具
??智能體有效使用工具的前提是全面理解工具的應用場景和調用方法。如果沒有這種理解,智能體使用工具的過程就會變得不可信,無法真正增強智能體的能力。利用大語言模型強大
的零次和少次學習能力[40];41],智能體可以通過使用描述工具功能和參數的零樣本提示,或提供特定工具使用場景和相應方法演示的少量樣本提示來獲取關于工具的知識。這些學習方法與人類通過查閱工具手冊或觀察他人使用工具進行學習的方法類似。當面對復雜的任務時,單一的工具往往是不夠的。因此,智能體首先要以適當的方式將復雜的任務分解成子任務,它們對工具的理解在任務分解中起著重要的作用。
3.2 學會使用工具
??智能體學習使用工具的方法主要包括從演示中學習和從反饋中學習。這涉及到模仿人類專家的行為,以及了解其行為的后果,并根據從環境和人類那里收到的反饋進行調整。環境反饋包括關于行動是否成功完成任務的結果反饋和捕獲由行動引起的環境狀態變化的中間反饋;人類反饋包括顯式評估和隱式行為,如點擊鏈接。如果智能體嚴格地應用工具而沒有適應性,那么它將無法在所有場景中獲得可接受的性能。智能體需要將他們在特定情境中學習到的工具使用技能推廣到更一般的情境中,比如將一個在Yahoo搜索上訓練過的模型轉移到谷歌搜索上。要做到這一點,智能體有必要掌握工具使用策略中的共同原則或模式,這可以通過元工具學習來實現。增強智能體對簡單工具和復雜工具之間關系的理解,比如復雜工具是如何建立在更簡單工具的基礎上的,可以有助于智能體概括工具使用的能力。這使得智能體能夠有效地辨別各種應用場景之間的細微差別,并將之前學到的知識轉移到新的工具中。課程學習允許智能體從簡單的工具開始,逐步學習復雜的工具,這與需求是一致的。此外,受益于對用戶意圖推理和規劃能力的理解,智能體可以更好地設計工具利用和協作的方法,從而提供更高質量的結果。
3.3 制作自給自足的工具
??現有的工具通常是為了人類的方便而設計的,這對于智能體來說可能不是最優的。為了讓智能體更好地使用工具,就需要專門為智能體設計的工具。這些工具應該更加模塊化,具有更適合智能體的輸入輸出格式。如果提供了說明和演示,LLM-Based Agent還具有通過生成可執行程序或將現有工具集成為更強大的工具來創建工具的能力。他們還可以學習進行自我調試。此外,如果作為工具制造者的智能體成功地創建了一個工具,除了使用工具本身外,它還可以為多智能體系統中的其他智能體生成包含工具代碼和演示的包。推測一下,在未來,智能體可能會變得自給自足,并在工具方面表現出高度的自主性。
3.4 工具可以擴展LLM-Based Agent的行動空間
??在工具的幫助下,智能體可以在推理和規劃階段利用各種外部資源,如web應用程序和其他語言模型。這一過程可以為LLM-Based Agent提供高專業度、可靠性、多樣性和高質量的信息,促進他們的決策和行動。例如,基于搜索的工具可以借助外部數據庫、知識圖和網頁來提高智能體可訪問知識的范圍和質量,而領域特定工具可以增強智能體在相應領域的專業知識。一些研究人員已經開發出基于大語言模型的控制器,生成SQL語句來查詢數據庫,或者將用戶查詢轉換為搜索請求,并使用搜索引擎獲得期望的結果。更重要的是,LLM-Based Agent可以使用科學工具執行化學中的有機合成等任務,或者與Python解釋器接口,以提高其在復雜的數學計算任務中的性能。對于多智能體系統,通信工具(如電子郵件)可以作為智能體在嚴格的安全約束下相互交互的手段,促進它們的協作,并表現出自主性和靈活性。
3.5 總結
??雖然前面提到的工具增強了智能體的能力,但與環境交互的媒介仍然是基于文本的。然而,工具是為了擴展語言模型的功能而設計的,它們的輸出并不局限于文本。用于非文本輸出的工具可以使智能體行為的模式多樣化,從而擴展了LLM-Based Agent的應用場景。例如,圖像處理和生成可以由一個利用視覺模型的智能體來完成。在航空航天工程中,智能體正在被探索用于物理建模和求解復雜微分方程;在機器人領域,需要智能體來規劃物理操作并控制機器人執行等等。能夠通過工具或以多模態方式與環境或世界動態交互的智能體可以被稱為數字具身。具身智能體一直是具身學習研究的中心焦點。
4. 具身動作
??在追求通用人工智能(AGI)的過程中,具身智能體被認為是一個關鍵的范式,它努力將模型智能與物理世界相結合。具體化假說從人類智能發展過程中汲取靈感,提出智能體的智能來自于與環境的持續互動和反饋,而不是僅僅依賴于精心策劃的教科書。類似地,與傳統的深度學習模型(從互聯網數據集學習明確的能力來解決領域問題)不同,人們預計LLM-Based Agent的行為將不再局限于純文本輸出或調用精確的工具來執行特定的領域任務。相反,它們應該能夠主動感知、理解和與物理環境交互,做出決策,并基于LLM廣泛的內部知識產生特定的行為來修改環境。我們將這些統稱為具體化的行為,它使智能體能夠以一種與人類行為非常相似的方式與世界進行交互和理解。
5. 學習智能體框架
5.1 CrewAI學習進度
??CrewAI學習進度指路:CrewAI Community Version(五)——Flows基礎
5.2 LangGraph學習進度
??LangGraph學習進度指路:LangGraph(四)——加入人機交互控制
5.3 MCP學習進度
??MCP學習進度指路:MCP(一)——QuickStart
參考
Zhiheng Xi, Wenxiang Chen, Xin Guo. and et al. The Rise and Potential of Large Language Model Based Agents: A Survey.
總結
??本文探討了基于大語言模型的智能體如何通過工具使用和具身行為實現類人交互能力。研究表明,雖然LLM賦予智能體強大的文本生成能力,但其在專業知識、決策透明度和抗干擾性等方面仍存在不足。通過理解工具功能、學習使用方法和自主創建工具,智能體顯著擴展了行動能力邊界。特別值得注意的是,工具不僅幫助智能體獲取外部資源,還能實現多模態輸出,推動智能體從純文本交互向"數字具身"形態演進。這種能夠通過多模態方式與環境動態交互的具身智能體,被視為實現通用人工智能的重要路徑,其核心在于將模型智能與物理世界深度融合,通過持續互動獲得類人的適應性和創造性。