😊你好,我是小航,一個正在變禿、變強的文藝傾年。
🔔本專欄《人工智能》旨在記錄最新的科研前沿,包括大模型、具身智能、智能體
等相關領域,期待與你一同探索、學習、進步,一起卷起來叭!
🚩Paper:EvoFlow: Evolving Diverse Agentic Workflows On The Fly
💻時間:202502
💭推薦指數:🌟🌟🌟🌟🌟
往期精彩專欄內容,歡迎訂閱:
🔗【多智能體】20250610:受木偶戲啟發實現多智能體協作編排
🔗【多智能體】20250609:基于LLM自進化多學科團隊醫療咨詢多智能體框架
🔗【具身智能體】20250608:EvoAgent:針對長時程任務具有持續世界模型的自主進化智能體
創新性
- 范式轉變:首次明確將代理工作流程自動化表述為成本效益驅動的多目標優化問題,強調了LLM異質性和復雜性多樣性在多智能體系統發展中的關鍵作用。
- 實用解決方案:提出了一種基于生態位進化算法的框架EvoFlow,能夠在各種任務領域中自動演化出異質且復雜性自適應的代理工作流程,最小化人為干預。
- 實證評估:在七個基準測試上的廣泛實驗表明,EvoFlow具有多樣性、高性能和經濟性,優于之前的手工制作和自動化工作流程。
- 多樣性演化:能夠演化出從簡單I/O任務到復雜多輪交互的工作流程群體。
- 性能提升:在六個基準測試中,EvoFlow的性能比現有的手工設計或自動化工作流程提高了1.23%到29.86%。
- 經濟性:訓練成本僅為SOTA基線AFlow的1/3,推理成本僅為AFlow的1/5,同時在MATH基準上超越了AFlow 5.91%。
補充這里可能會存在的疑點
EvoFlow在處理多目標優化問題時是如何定義其優化目標的?
EvoFlow的多目標優化目標是通過平衡成本和性能來生成的。具體來說,EvoFlow的優化目標函數定義為: G ? = arg ? max ? G ∈ H ( I , E o ) [ u ( G , T ) , ? c ( G , T ) ] ? , \mathcal{G}^{\star}=\underset{\mathcal{G}\in\mathcal{H}(\mathcal{I},\mathcal{E}^{o})}{\arg\max}\left[u(\mathcal{G},T),-c(\mathcal{G},T)\right]^{\top}, G?=G∈H(I,Eo)argmax?[u(G,T),?c(G,T)]?,
其中, u ( ? ) u(\cdot) u(?)表示任務領域的性能評估函數, c ( ? ) c(\cdot) c(?)表示系統成本的評估函數。
這個目標函數表示在尋找一個工作流集合 G ? \mathcal{G}^{\star} G?,使得在性能和成本之間達到最佳平衡。具體來說, G ? \mathcal{G}^{\star} G?包括一組非支配的工作流,這些工作流在目標空間中分布均勻,并且位于帕累托前沿(Pareto front)附近。
EvoFlow在實驗中是如何設置初始工作流種群的?
EvoFlow的初始工作流種群是通過選擇一個包含多種強大單代理和多代理結構的籃子來初始化的。這些結構包括CoT(Chain-of-Thought)、Ensemble、Self-Reflexion、Multi-agent
Debate等。具體初始化過程如下:
- 從操作符節點池 O ( 0 ) \mathcal{O}^{(0)} O(0)中選擇多個操作符模板,并從LLM池 M \mathcal{M} M中隨機抽樣LLM實例和提示。
- 將選定的操作符模板實例化,生成初始工作流個體 G k \mathcal{G}_{k} Gk?,并為其分配多個效用指示標簽,這些標簽反映了工作流在特定任務領域的專長。
- 通過上述步驟生成初始工作流種群 P ( 0 ) P^{(0)} P(0),并為其分配多個效用指示標簽,以便快速匹配用戶查詢和相關工作流。
EvoFlow在進化過程中如何利用小生境選擇機制來維持種群的多樣性和質量?
具體步驟如下:
- 對于每個新個體 G ⊙ ( t ) \mathcal{G}_{\odot}^{(t)} G⊙(t)?,計算其在成本和效用標簽上的排名,以確定其所屬的小生境區域 P N A P^{NA} PNA。
- 在小生境區域內執行查詢,記錄每個個體在處理查詢時的累計成本和性能。
- 計算每個個體在小生境區域內的適應度值 F ( G ) \mathcal{F}(\mathcal{G}) F(G),適應度值較低的個體被認為更優。
- 在小生境區域內執行選擇操作,淘汰適應度值最低的個體 G worst \mathcal{G}^{\text{worst}} Gworst,并將
其他個體(包括父代、后代和新個體)更新到種群中。
通過這種方式,EvoFlow能夠在保持種群多樣性的同時,逐步進化出高性能的工作流。
研究背景
- 研究問題:這篇文章要解決的問題是如何自動優化一組異構且復雜度自適應的智能工作流程,以提供多樣化的解決方案。現有的自動化管道通常缺乏LLM異質性和復雜性調度,限制了它們結合較弱模型以實現更定制化和成本效益解決方案的潛力。
- 研究難點:該問題的研究難點包括:如何在多目標優化中平衡成本和性能;如何在大規模搜索空間中找到高效的進化算法;如何在保持種群多樣性的同時提高進化效率。
- 相關工作:該問題的研究相關工作包括早期的手動配置工作流(如CAMEL、AutoGen、MetaGPT),以及后續顯著減少人類干預的工作流(如DsPy、GPTSwarm、EvoAgent)。最近的研究表明,這些自動化管道能夠開發出驚人且強大的智能工作流,標志著向完全自主智能代理AI的重大進步。然而,這些管道仍然缺乏LLM異質性和復雜性多樣性。
研究方法
這篇論文提出了EvoFlow,一種基于小生境進化算法的框架,用于自動搜索異構且復雜度自適應的智能工作流程。具體來說,
- 標簽檢索:首先,EvoFlow通過標簽檢索從代理種群中提取父工作流程。標簽是通過LLM生成的,反映了工作流程的任務領域專長。
- 交叉和變異:然后,EvoFlow通過交叉和變異操作進化新工作流程。交叉操作在選定的父工作流程之間進行,變異操作包括LLM/提示/操作符變異,以提高后代的多樣性。
- 小生境選擇:最后,EvoFlow利用小生境選擇機制維持種群的多樣性和質量。小生境選擇通過計算每個個體在成本和效用標簽上的排名來確定小生境區域,并在該區域內執行查詢。
公式解釋:
- 調用節點 I i I_{i} Ii? 的定義: I i = ( M i , P i , τ i ) , , P i ∈ P , τ i ∈ [ 0 , 1 ] , I_{i}=(M_{i},P_{i},\tau_{i}),,P_{i}\in\mathcal{P},\tau_{i}\in[0,1], Ii?=(Mi?,Pi?,τi?),,Pi?∈P,τi?∈[0,1],其中 P i P_{i} Pi? 表示關聯的提示, P \mathcal{P} P 表示可行的提示空間, τ i \tau_{i} τi? 是溫度參數。 M i M_{i} Mi? 表示從可行模型池 M \mathcal{M} M 中選擇的LLM實例。
- 操作符節點 O j O_{j} Oj? 的定義: O j = ( I j o , E j o ) , I j o = I 1 , … , I n , E j o ? I j o × I j o , O_{j}=(\mathcal{I}{j}^{o},\mathcal{E}{j}^{o}),\mathcal{I} {j}^{o}={I{1},\ldots,I_{n}},\mathcal{E}{j}^{o}\subseteq\mathcal{I}{j}^{o}\times\mathcal{I}{j}^{o}, Oj?=(Ijo,Ejo),Ijo=I1,…,In?,Ejo?Ijo×Ijo,其中 I j o \mathcal{I}{j}^{o} Ijo 是選定的調用節點集合, E j o \mathcal{E}_{j}^{o} Ejo?表示調用節點之間的連接關系。
- 工作流 G \mathcal{G} G 的定義:KaTeX parse error: Expected '}', got '\right' at position 91: …_1,\ldots, O_ m\?r?i?g?h?t?},\mathcal{E}^a…
其中 O S \mathcal{O}^S OS 是操作符節點的子集, E a / E o \mathcal{E}^a/\mathcal{E}^{o} Ea/Eo表示操作符節點內部/之間的連接。 - EvoFlow的多目標優化目標: G ? = arg ? m a x G ∈ H ( I , E o ) [ u ( G , T ) , ? c ( G , T ) ] ? , \mathcal{G}^{\star}=\underset{\mathcal{G}\in\mathcal{H}(\mathcal{I},\mathcal{E}^{o})}{\arg\ max}\left[u(\mathcal{G},T),-c(\mathcal{G},T)\right]^{\top}, G?=G∈H(I,Eo)arg?max?[u(G,T),?c(G,T)]?,其中 u ( ? ) u(\cdot) u(?)表示任務領域的性能評估函數, c ( ? ) c(\cdot) c(?) 表示系統成本的評估函數, G ? \mathcal{G}^{\star} G?表示平衡成本和性能的帕累托最優工作流集合。
實驗設計
- 任務和基準:實驗在六個公共基準上進行,涵蓋四個領域:數學推理(GSM8K、MATH、MultiArith)、代碼生成(HumanEval、MBPP)、具身智能(ALFWorld)。對于MATH基準,選擇了難度為5的617個問題。
- 基線:比較了EvoFlow與手工設計的工作流(如Chain-of-Thought、ComplexCoT)和自動化工作
流(如GPTSwarm、ADAS)。 - LLM骨干網絡:使用了四個開源模型(llama-3.1-70b、Qwen-2.5-72b、Deepseek-V2.5、Hermes-3-70b)和一個閉源模型(gpt-4o-mini-0718)。
- 參數配置:選擇了七個操作符來初始化操作符節點的可行空間,種群大小為15,效用標簽數量為5。
結果與分析
- 同質性能:在六個基準上,EvoFlow的性能均優于現有的手工設計或自動化工作流。例如,在MATH基準上,EvoFlow比vanilla gpt-4o-mini提高了11.41%,比最先進的AFlow提高了6.42%。
- 異質性能:在異質設置中,EvoFlow通過優化四個開源模型,整體成本僅為ol-preview的12.4%。例如,在MATH基準上,EvoFlow比ol-preview提高了2.7%。
- 跨域性能:在跨域優化設置中,EvoFlow通過在MBPP數據集上的優化,提高了從87.62%到88.35%的性能,證明了其在不同領域間的優化能力。
總體結論
這篇論文提出了一種新的范式,將自主多代理工作流搜索從單目標優化轉向成本效益驅動的多目標優
化。通過基于小生境的進化算法,EvoFlow能夠自動進化出異構且復雜度自適應的智能工作流。廣泛的實驗結果表明,EvoFlow在性能上有顯著提升,同時在成本上具有顯著優勢。
📌 [ 筆者 ] 文藝傾年
📃 [ 更新 ] 2025.6.11
? [ 勘誤 ] /* 暫無 */
📜 [ 聲明 ] 由于作者水平有限,本文有錯誤和不準確之處在所難免,本人也很想知道這些錯誤,懇望讀者批評指正!