😊你好,我是小航,一個正在變禿、變強的文藝傾年。
🔔本專欄《人工智能》旨在記錄最新的科研前沿,包括大模型、具身智能、智能體
等相關領域,期待與你一同探索、學習、進步,一起卷起來叭!
🚩Paper:Multi-Agent Collaboration via Evolving Orchestration
💻時間:202505
💭推薦指數:🌟🌟🌟🌟
往期精彩專欄內容,歡迎訂閱:
🔗【多智能體】20250609:基于LLM自進化多學科團隊醫療咨詢多智能體框架
🔗【具身智能體】20250608:EvoAgent:針對長時程任務具有持續世界模型的自主進化智能體
創新性
- 動態編排:提出了一種集中式的“指揮者”(puppeteer)來動態選擇和組織代理(puppets),根據任務狀態的演變進行推理。這種編排方式超越了靜態的協作模式,提供了靈活且可擴展的代理協調。
- 自適應進化:通過強化學習(RL)不斷更新指揮者的策略,利用已完成任務的反饋來優化代理選擇。隨著時間的推移,指揮者學會了強調強代理軌跡并剪枝不有效的代理,使系統逐步進化到更高的效率和性能。
- 實驗驗證:在封閉域和開放域場景下的實驗表明,該方法在提高解決方案質量的同時減少了計算開銷。分析進一步揭示了指揮者演化過程中更緊湊、循環推理結構的涌現是關鍵改進的根源。
- 統一的框架:提出了一個統一的框架,通過集中式策略動態組織多樣化的基于LLM的代理,并通過強化學習不斷優化其協作過程。
- 拓撲結構演化:通過動態編排自然地促進了樹狀結構的交互,支持分支行為和并行路徑,增強了系統的可擴展性。演化過程中出現了緊湊和循環的推理結構,顯著提升了系統的內部反饋和信息重用效率。
補充這里可能會存在的疑點
論文中提出的動態指揮者是如何實現多代理協作的?其核心機制是什么?
動態指揮者通過一個集中式的指揮者(“木偶師”)來實現多代理協作。指揮者在每個時間步根據當前任務狀態動態地選擇激活哪個代理進行推理。這個過程被形式化為一個順序決策問題,生成了一個隱式的推理圖,支持靈活且可擴展的代理協調。具體來說,指揮者的選擇過程遵循以下公式: a t ~ π ( S t , τ ) = P ( a ∣ S t , τ ) a_{t}\sim\pi(S_{t},\tau)=P(a\mid S_{t},\tau) at?~π(St?,τ)=P(a∣St?,τ)其中, π \pi π是一個將可觀測上下文(如當前狀態和任務描述)映射到候選代理分布的函數。指揮者根據全局系統狀態和任務規范選擇代理,代理生成輸出并更新系統狀態,過程迭代進行,直到滿足停止準則。這種機制使得系統能夠在任務復雜性和代理數量增加時保持高效的協作和協調開銷。
論文中提到的自適應進化是如何通過強化學習優化指揮者策略的?具體優化目標是什么?
自適應進化通過強化學習來優化指揮者的策略,以最大化效率和最小化冗余。具體來說,使用REINFORCE作為底層優化框架,指揮者在每個推理回合后接收聯合評估解決方案質量和資源消耗的反饋。優化目標是最大化完整推理軌跡上的期望回報,公式如下: J ( θ ) = E π θ [ R ( τ ) ] , ? θ J ( θ ) ≈ 1 N ∑ n = 1 N ( ∑ t = 1 T ? θ log ? π θ ( a t ∣ S t ) ) ? R ( τ ) J(\theta)=E_{\pi_{\theta}}[R(\tau)],\quad\nabla_{\theta} J(\theta)\approx\frac{1}{N}\sum_{n=1}^{N}\left(\sum_{t=1}^{T}\nabla_ {\theta}\log\pi_{\theta}\left(a_{t}\mid S_{t}\right)\right)\cdot R(\tau) J(θ)=Eπθ??[R(τ)],?θ?J(θ)≈N1?n=1∑N?(t=1∑T??θ?logπθ?(at?∣St?))?R(τ)其中, R ( τ ) R(\tau) R(τ) 表示軌跡 τ \tau τ 的總獎勵, N N N 是樣本大小, T T T是總推理步數。通過這種RL驅動的優化,指揮者學會了強調強代理軌跡并剪枝掉較弱的代理,使系統逐步進化到更高的效率和性能。
研究背景
- 研究問題:這篇文章要解決的問題是大型語言模型(LLMs)在復雜問題求解中的可擴展性和效率問題。LLMs的單體性質限制了其在復雜任務中的表現。
- 研究難點:該問題的研究難點包括:如何在任務復雜性和代理數量增加時保持高效的協作和協調開銷;如何避免靜態組織結構帶來的僵化和低效。
- 相關工作:該問題的研究相關工作包括基于靜態組織結構的多人協作方法,這些方法在任務多樣性和代理數量增加時表現出協調開銷大、系統性能下降和效率低下的問題。
研究方法
這篇論文提出了一種基于集中式指揮者的多代理協作范式,用于解決LLMs在復雜問題求解中的可擴展性和效率問題。具體來說,
- 動態指揮者:首先,提出了一個集中式的指揮者(“木偶師”),它根據任務的動態狀態動態地指導代理(“木偶”)進行推理。這個過程被形式化為一個順序決策問題,生成了一個隱式的推理圖,支持靈活且可擴展的代理協調。
- 自適應進化:其次,為了最大化效率和最小化冗余,采用了強化學習來連續更新指揮者的策略。通過利用已完成任務的反饋,指揮者學會了強調強代理軌跡并剪枝掉較弱的代理,使系統逐步進化到更高的效率和性能。
- 策略優化:使用REINFORCE作為底層優化框架,系統地優化協作的有效性和效率。優化目標是通過最大化完整推理軌跡上的期望回報來改進指揮者的策略。
- 獎勵設計:設計了一個聯合考慮解決方案質量和計算效率的獎勵函數。通過在每個任務軌跡完成后分配一個終止獎勵,鼓勵指揮者優先考慮使用令牌消耗少的代理并盡早終止推理。
公式解釋:
- 指揮者在每個時間步選擇激活一個代理的概率為: a t ~ π ( S t , τ ) = P ( a ∣ S t , τ ) a_{t}\sim\pi(S_{t},\tau)=P(a\mid S_{t},\tau) at?~π(St?,τ)=P(a∣St?,τ)其中, π \pi π是一個將可觀測上下文(如當前狀態和任務描述)映射到候選代理分布的函數。
- 代理生成輸出并更新系統狀態為: o t = f a t ( s t ( a t ) , S t ) , S t + 1 = Φ ( S t , o t ) o_{t}=f_{a_{t}}(s_{t}(a_{t}),S_{t}),\quad S_{t+1}=\Phi(S_{t},o_{t}) ot?=fat??(st?(at?),St?),St+1?=Φ(St?,ot?)
- 過程迭代進行,直到滿足停止準則: P ( a t + 1 ∣ S 0 , … , S t + 1 , τ ) = P ( a t + 1 ∣ S t + 1 , τ ) P(a_{t+1}\mid S_{0},\ldots,S_{t+1},\tau)=P(a_{t+1}\mid S_{t+1},\tau) P(at+1?∣S0?,…,St+1?,τ)=P(at+1?∣St+1?,τ)
- 最終聚合函數結合所有代理的輸出生成整體解決方案: o ? = F a g g ( o 0 , o 1 , … , o T ) = Φ ( S T , o T ) o^{*}=F_{agg}({o_{0},o_{1},\ldots,o_{T}})=\Phi(S_{T},o_{T}) o?=Fagg?(o0?,o1?,…,oT?)=Φ(ST?,oT?)
實驗設計
為了全面評估所提出的框架,使用了多種公開可用的數據集,涵蓋閉域和開域推理任務。
- 閉域任務:包括GSM-Hard和MMLU-Pro,分別涉及復雜的算術問題和多樣化的學科知識。評估指標為準確性。
- 開域任務:包括SRDD和CommonGen-Hard,分別涉及軟件開發和常識推理。評估指標包括完整性、可執行性和一致性。
- 基線方法:為了評估方法的適應性,將代理池劃分為Mimas子空間(小型模型)和Titan子空間(大型模型),并選擇了多種代表性的基線方法,包括純模型、單代理方法和多代理方法。
結果與分析
- 性能提升:在所有評估的任務中,Puppeteer在進化階段始終表現出優越的平均性能。與使用相同基礎模型的其他代理工作流程和多代理基線方法相比,Puppeteer-Mono在幾乎所有評估任務中都表現出色。
- 效率提升:系統的性能提升并未帶來計算開銷的增加。通過調整獎勵設計中的權重因子 λ \lambda λ,可以在不同應用需求之間實現可適應的權衡。
- 組織拓撲進化:指揮者的動態指揮促進了樹狀、圖狀和循環狀的交互結構。隨著時間的推移,系統從松散的探索性交互模式轉變為緊密協調的專門集體。
- 緊湊性和循環性:優化過程中出現了顯著的緊湊性和循環性趨勢。緊湊性表現為圖密度的增加,循環性表現為循環結構的增加。
總體結論
這篇論文提出了一種新穎的框架,通過集中式的、可學習的“木偶師”指揮者來實現自適應的多代理LLMs協作。與傳統的靜態或手動設計的拓撲結構不同,該方法結合了上下文敏感的指揮和強化學習驅動的策略適應,實現了更原則化和高效的協作。實驗結果表明,該方法在解決方案質量和計算成本方面均優于現有方法。分析進一步揭示了指揮者促進緊湊、循環推理結構的出現,這是性能提升的關鍵原因。希望這項工作能為多代理協作中的動態和可擴展協調提供一個有價值的步驟。
📌 [ 筆者 ] 文藝傾年
📃 [ 更新 ] 2025.6.10
? [ 勘誤 ] /* 暫無 */
📜 [ 聲明 ] 由于作者水平有限,本文有錯誤和不準確之處在所難免,本人也很想知道這些錯誤,懇望讀者批評指正!