【多智能體】受木偶戲啟發實現多智能體協作編排

在這里插入圖片描述

😊你好,我是小航,一個正在變禿、變強的文藝傾年。
🔔本專欄《人工智能》旨在記錄最新的科研前沿,包括大模型、具身智能、智能體等相關領域,期待與你一同探索、學習、進步,一起卷起來叭!
🚩Paper:Multi-Agent Collaboration via Evolving Orchestration
💻時間:202505
💭推薦指數:🌟🌟🌟🌟

往期精彩專欄內容,歡迎訂閱:

🔗【多智能體】20250609:基于LLM自進化多學科團隊醫療咨詢多智能體框架
🔗【具身智能體】20250608:EvoAgent:針對長時程任務具有持續世界模型的自主進化智能體

創新性

  1. 動態編排:提出了一種集中式的“指揮者”(puppeteer)來動態選擇和組織代理(puppets),根據任務狀態的演變進行推理。這種編排方式超越了靜態的協作模式,提供了靈活且可擴展的代理協調。
  2. 自適應進化:通過強化學習(RL)不斷更新指揮者的策略,利用已完成任務的反饋來優化代理選擇。隨著時間的推移,指揮者學會了強調強代理軌跡并剪枝不有效的代理,使系統逐步進化到更高的效率和性能。
  3. 實驗驗證:在封閉域和開放域場景下的實驗表明,該方法在提高解決方案質量的同時減少了計算開銷。分析進一步揭示了指揮者演化過程中更緊湊、循環推理結構的涌現是關鍵改進的根源。
  4. 統一的框架:提出了一個統一的框架,通過集中式策略動態組織多樣化的基于LLM的代理,并通過強化學習不斷優化其協作過程。
  5. 拓撲結構演化:通過動態編排自然地促進了樹狀結構的交互,支持分支行為和并行路徑,增強了系統的可擴展性。演化過程中出現了緊湊和循環的推理結構,顯著提升了系統的內部反饋和信息重用效率。

補充這里可能會存在的疑點
論文中提出的動態指揮者是如何實現多代理協作的?其核心機制是什么?

動態指揮者通過一個集中式的指揮者(“木偶師”)來實現多代理協作。指揮者在每個時間步根據當前任務狀態動態地選擇激活哪個代理進行推理。這個過程被形式化為一個順序決策問題,生成了一個隱式的推理圖,支持靈活且可擴展的代理協調。具體來說,指揮者的選擇過程遵循以下公式: a t ~ π ( S t , τ ) = P ( a ∣ S t , τ ) a_{t}\sim\pi(S_{t},\tau)=P(a\mid S_{t},\tau) at?π(St?,τ)=P(aSt?,τ)其中, π \pi π是一個將可觀測上下文(如當前狀態和任務描述)映射到候選代理分布的函數。指揮者根據全局系統狀態和任務規范選擇代理,代理生成輸出并更新系統狀態,過程迭代進行,直到滿足停止準則。這種機制使得系統能夠在任務復雜性和代理數量增加時保持高效的協作和協調開銷。

論文中提到的自適應進化是如何通過強化學習優化指揮者策略的?具體優化目標是什么?

自適應進化通過強化學習來優化指揮者的策略,以最大化效率和最小化冗余。具體來說,使用REINFORCE作為底層優化框架,指揮者在每個推理回合后接收聯合評估解決方案質量和資源消耗的反饋。優化目標是最大化完整推理軌跡上的期望回報,公式如下: J ( θ ) = E π θ [ R ( τ ) ] , ? θ J ( θ ) ≈ 1 N ∑ n = 1 N ( ∑ t = 1 T ? θ log ? π θ ( a t ∣ S t ) ) ? R ( τ ) J(\theta)=E_{\pi_{\theta}}[R(\tau)],\quad\nabla_{\theta} J(\theta)\approx\frac{1}{N}\sum_{n=1}^{N}\left(\sum_{t=1}^{T}\nabla_ {\theta}\log\pi_{\theta}\left(a_{t}\mid S_{t}\right)\right)\cdot R(\tau) J(θ)=Eπθ??[R(τ)],?θ?J(θ)N1?n=1N?(t=1T??θ?logπθ?(at?St?))?R(τ)其中, R ( τ ) R(\tau) R(τ) 表示軌跡 τ \tau τ 的總獎勵, N N N 是樣本大小, T T T是總推理步數。通過這種RL驅動的優化,指揮者學會了強調強代理軌跡并剪枝掉較弱的代理,使系統逐步進化到更高的效率和性能。

研究背景

在這里插入圖片描述

  1. 研究問題:這篇文章要解決的問題是大型語言模型(LLMs)在復雜問題求解中的可擴展性和效率問題。LLMs的單體性質限制了其在復雜任務中的表現。
  2. 研究難點:該問題的研究難點包括:如何在任務復雜性和代理數量增加時保持高效的協作和協調開銷;如何避免靜態組織結構帶來的僵化和低效。
  3. 相關工作:該問題的研究相關工作包括基于靜態組織結構的多人協作方法,這些方法在任務多樣性和代理數量增加時表現出協調開銷大、系統性能下降和效率低下的問題。

研究方法

在這里插入圖片描述

這篇論文提出了一種基于集中式指揮者的多代理協作范式,用于解決LLMs在復雜問題求解中的可擴展性和效率問題。具體來說,

  1. 動態指揮者:首先,提出了一個集中式的指揮者(“木偶師”),它根據任務的動態狀態動態地指導代理(“木偶”)進行推理。這個過程被形式化為一個順序決策問題,生成了一個隱式的推理圖,支持靈活且可擴展的代理協調。
  2. 自適應進化:其次,為了最大化效率和最小化冗余,采用了強化學習來連續更新指揮者的策略。通過利用已完成任務的反饋,指揮者學會了強調強代理軌跡并剪枝掉較弱的代理,使系統逐步進化到更高的效率和性能。
  3. 策略優化:使用REINFORCE作為底層優化框架,系統地優化協作的有效性和效率。優化目標是通過最大化完整推理軌跡上的期望回報來改進指揮者的策略。
  4. 獎勵設計:設計了一個聯合考慮解決方案質量和計算效率的獎勵函數。通過在每個任務軌跡完成后分配一個終止獎勵,鼓勵指揮者優先考慮使用令牌消耗少的代理并盡早終止推理。

公式解釋:

  • 指揮者在每個時間步選擇激活一個代理的概率為: a t ~ π ( S t , τ ) = P ( a ∣ S t , τ ) a_{t}\sim\pi(S_{t},\tau)=P(a\mid S_{t},\tau) at?π(St?,τ)=P(aSt?,τ)其中, π \pi π是一個將可觀測上下文(如當前狀態和任務描述)映射到候選代理分布的函數。
  • 代理生成輸出并更新系統狀態為: o t = f a t ( s t ( a t ) , S t ) , S t + 1 = Φ ( S t , o t ) o_{t}=f_{a_{t}}(s_{t}(a_{t}),S_{t}),\quad S_{t+1}=\Phi(S_{t},o_{t}) ot?=fat??(st?(at?),St?),St+1?=Φ(St?,ot?)
  • 過程迭代進行,直到滿足停止準則: P ( a t + 1 ∣ S 0 , … , S t + 1 , τ ) = P ( a t + 1 ∣ S t + 1 , τ ) P(a_{t+1}\mid S_{0},\ldots,S_{t+1},\tau)=P(a_{t+1}\mid S_{t+1},\tau) P(at+1?S0?,,St+1?,τ)=P(at+1?St+1?,τ)
  • 最終聚合函數結合所有代理的輸出生成整體解決方案: o ? = F a g g ( o 0 , o 1 , … , o T ) = Φ ( S T , o T ) o^{*}=F_{agg}({o_{0},o_{1},\ldots,o_{T}})=\Phi(S_{T},o_{T}) o?=Fagg?(o0?,o1?,,oT?)=Φ(ST?,oT?)

實驗設計

為了全面評估所提出的框架,使用了多種公開可用的數據集,涵蓋閉域和開域推理任務。

  1. 閉域任務:包括GSM-Hard和MMLU-Pro,分別涉及復雜的算術問題和多樣化的學科知識。評估指標為準確性。
  2. 開域任務:包括SRDD和CommonGen-Hard,分別涉及軟件開發和常識推理。評估指標包括完整性、可執行性和一致性。
  3. 基線方法:為了評估方法的適應性,將代理池劃分為Mimas子空間(小型模型)和Titan子空間(大型模型),并選擇了多種代表性的基線方法,包括純模型、單代理方法和多代理方法。

結果與分析

  1. 性能提升:在所有評估的任務中,Puppeteer在進化階段始終表現出優越的平均性能。與使用相同基礎模型的其他代理工作流程和多代理基線方法相比,Puppeteer-Mono在幾乎所有評估任務中都表現出色。在這里插入圖片描述
  2. 效率提升:系統的性能提升并未帶來計算開銷的增加。通過調整獎勵設計中的權重因子 λ \lambda λ,可以在不同應用需求之間實現可適應的權衡。
  3. 組織拓撲進化:指揮者的動態指揮促進了樹狀、圖狀和循環狀的交互結構。隨著時間的推移,系統從松散的探索性交互模式轉變為緊密協調的專門集體。在這里插入圖片描述
  4. 緊湊性和循環性:優化過程中出現了顯著的緊湊性和循環性趨勢。緊湊性表現為圖密度的增加,循環性表現為循環結構的增加。在這里插入圖片描述

總體結論

這篇論文提出了一種新穎的框架,通過集中式的、可學習的“木偶師”指揮者來實現自適應的多代理LLMs協作。與傳統的靜態或手動設計的拓撲結構不同,該方法結合了上下文敏感的指揮和強化學習驅動的策略適應,實現了更原則化和高效的協作。實驗結果表明,該方法在解決方案質量和計算成本方面均優于現有方法。分析進一步揭示了指揮者促進緊湊、循環推理結構的出現,這是性能提升的關鍵原因。希望這項工作能為多代理協作中的動態和可擴展協調提供一個有價值的步驟。

📌 [ 筆者 ]   文藝傾年
📃 [ 更新 ]   2025.6.10
? [ 勘誤 ]   /* 暫無 */
📜 [ 聲明 ]   由于作者水平有限,本文有錯誤和不準確之處在所難免,本人也很想知道這些錯誤,懇望讀者批評指正!

在這里插入圖片描述

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/86527.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/86527.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/86527.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Java八股文——Spring篇

文章目錄 Java八股文專欄其它文章Java八股文——Spring篇SpringSpring的IoC和AOPSpring IoC實現機制Spring AOP實現機制 動態代理JDK ProxyCGLIBByteBuddy Spring框架中的單例Bean是線程安全的嗎?什么是AOP,你們項目中有沒有使用到AOPSpring中的事務是如…

NineData數據庫DevOps功能全面支持百度智能云向量數據庫 VectorDB,助力企業 AI 應用高效落地

NineData 的數據庫 DevOps 解決方案已完成對百度智能云向量數據庫 VectorDB 的全鏈路適配,成為國內首批提供 VectorDB 原生操作能力的服務商。此次合作聚焦 AI 開發核心場景,通過標準化 SQL 工作臺與細粒度權限管控兩大能力,助力企業安全高效…

開源技術驅動下的上市公司財務主數據管理實踐

開源技術驅動下的上市公司財務主數據管理實踐 —— 以人造板制造業為例 引言:財務主數據的戰略價值與行業挑戰 在資本市場監管日益嚴格與企業數字化轉型的雙重驅動下,財務主數據已成為上市公司財務治理的核心基礎設施。對于人造板制造業而言&#xff0…

借助它,普轉也能獲得空轉信息?

在生命科學研究領域,轉錄組技術是探索基因表達奧秘的有力工具,在疾病機制探索、生物發育進程解析等諸多方面取得了顯著進展。然而,隨著研究的深入,研究人員發現普通轉錄組只能提供整體樣本中的基因表達水平信息,卻無法…

synchronized 學習

學習源: https://www.bilibili.com/video/BV1aJ411V763?spm_id_from333.788.videopod.episodes&vd_source32e1c41a9370911ab06d12fbc36c4ebc 1.應用場景 不超賣,也要考慮性能問題(場景) 2.常見面試問題: sync出…

Java事務回滾詳解

一、什么是事務回滾? 事務回滾指的是:當執行過程中發生異常時,之前對數據庫所做的更改全部撤銷,數據庫狀態恢復到事務開始前的狀態。這是數據庫“原子性”原則的體現。 二、Spring 中的 Transactional 默認行為 在 Spring 中&am…

云災備數據復制技術研究

云災備數據復制技術:數字時代的“安全氣囊” 在當今信息化時代,數據就像城市的“生命線”,一旦中斷,后果不堪設想。想象一下,如果政務系統突然崩潰,成千上萬的市民服務將陷入癱瘓。這就是云災備技術的重要…

如何處理Shopify主題的顯示問題:實用排查與修復指南

在Shopify店鋪運營過程中,主題顯示問題是影響用戶體驗與品牌形象的常見痛點。可能是字體錯位、圖片無法加載、移動端顯示混亂、功能失效等,這些都可能造成客戶流失和轉化下降。 本文將從問題識別、原因分析、修復方法到開發者建議全方位解讀如何高效解決…

前端監控方案詳解

一、前端監控方案是什么? 前端監控方案是一套系統化的工具和流程,用于收集、分析和報告網站或Web應用在前端運行時的各種性能指標、錯誤日志、用戶行為等數據。它通常包括以下幾個核心模塊: 性能監控:頁面加載時間、資源加載時間…

Camera相機人臉識別系列專題分析之十二:人臉特征檢測FFD算法之libvega_face.so數據結構詳解

【關注我,后續持續新增專題博文,謝謝!!!】 上一篇我們講了: Camera相機人臉識別系列專題分析之十一:人臉特征檢測FFD算法之低功耗libvega_face.so人臉屬性(年齡,性別,膚…

如何配置HarmonyOS 5與React Native的開發環境?

配置 HarmonyOS 5 與 React Native 的開發環境需遵循以下步驟 一、基礎工具安裝 ?DevEco Studio 5.0? 從 HarmonyOS 開發者官網 下載安裝勾選組件: HarmonyOS SDK (API 12)ArkTS 編譯器JS/ArkTS 調試工具HarmonyOS 本地模擬器 ?Node.js 18.17 # 安裝后驗證版…

kotlin kmp 副作用函數 effect

在 Kotlin Multiplatform (KMP) Compose 中,“effect functions”(或“effect handlers”)是專門的可組合函數,用于在 UI 中管理副作用。 在 Compose 中,可組合函數應該是“純”的和聲明式的。這意味著它們應該理想地…

3.3.1_1 檢錯編碼(奇偶校驗碼)

從這節課開始,我們會探討數據鏈路層的差錯控制功能,差錯控制功能的主要目標是要發現并且解決一個幀內部的位錯誤,我們需要使用特殊的編碼技術去發現幀內部的位錯誤,當我們發現位錯誤之后,通常來說有兩種解決方案。第一…

【Pandas】pandas DataFrame isna

Pandas2.2 DataFrame Missing data handling 方法描述DataFrame.fillna([value, method, axis, …])用于填充 DataFrame 中的缺失值(NaN)DataFrame.backfill(*[, axis, inplace, …])用于**使用后向填充(即“下一個有效觀測值”&#xff09…

MQTT協議:物聯網時代的通信基石

MQTT協議:物聯網時代的通信基石 在當今快速發展的物聯網(IoT)時代,設備之間的通信變得尤為重要。MQTT(Message Queuing Telemetry Transport)協議作為一種輕量級的消息傳輸協議,正逐漸成為物聯…

Excel 表格內批量添加前綴與后綴的實用方法

我們經常需要為 Excel 表格中的內容統一添加前綴或后綴,例如給編號加“NO.”、給姓名加“會員_”等。手動操作效率低,本文將介紹幾種實用的方法,幫助你快速完成批量添加前綴和后綴的操作。 使用“&”運算符添加前綴或后綴(推…

uniapp 實現騰訊云IM群文件上傳下載功能

UniApp 集成騰訊云IM實現群文件上傳下載功能全攻略 一、功能背景與技術選型 在團隊協作場景中,群文件共享是核心需求之一。本文將介紹如何基于騰訊云IMCOS,在uniapp中實現: 群內文件上傳/下載文件元數據管理下載進度追蹤跨平臺文件預覽 二…

GO協程(Goroutine)問題總結

在使用Go語言來編寫代碼時,遇到的一些問題總結一下 [參考文檔]:https://www.topgoer.com/%E5%B9%B6%E5%8F%91%E7%BC%96%E7%A8%8B/goroutine.html 1. main()函數默認的Goroutine 場景再現: 今天在看到這個教程的時候,在自己的電…

uniapp微信小程序視頻實時流+pc端預覽方案

方案類型技術實現是否免費優點缺點適用場景延遲范圍開發復雜度?WebSocket圖片幀?定時拍照Base64傳輸? 完全免費無需服務器 純前端實現高延遲高流量 幀率極低個人demo測試 超低頻監控500ms-2s???RTMP推流?TRTC/即構SDK推流? 付費方案 (部分有免費額度&#x…

分布式鎖實戰:Redisson vs. Redis 原生指令的性能對比

分布式鎖實戰:Redisson vs. Redis 原生指令的性能對比 引言 在DIY主題模板系統中,用戶可自定義聊天室的背景、圖標、動畫等元素。當多個運營人員或用戶同時修改同一模板時,若沒有鎖機制,可能出現“甲修改了背景色,乙…