華為AI-agent新作：使用自然語言生成工作流

論文標題

WorkTeam: Constructing Workflows from Natural Language with Multi-Agents

論文地址

https://arxiv.org/pdf/2503.22473

作者背景

華為，北京大學

動機

當下AI-agent產品百花齊放，盡管有ReAct、MCP等框架幫助大模型調用工具，可以初步實現【需求】->【任務規劃】，但在實踐中我們或多或少還是往會去編排工作流——單純依靠大模型本身的任務理解與規劃能力，難以生成滿足復雜業務需要的執行計劃；

在這里插入圖片描述

于是本文設計了一種新的工作流生成框架，旨在提高大模型理解任務并調用工具的準確性

本文方法

本文提出WorkTeam框架，對原本由一個LLM規劃器承擔的職責進行了拆分：

一、監督agent

理解并拆分用戶問題，生成解決問題的子步驟（高層計劃），委派另外兩個agent生成工具編排結果與可執行的工作流，并檢查它們是否滿足用戶意圖、步驟是否完整正確。如果發現問題，監督者可以要求返工，或者嘗試其他解決思路?

二、協調agent

基于監督agent委派的子任務，生成工具編排結果。具體地，協調agent會規劃調用兩個工具：

組件篩選工具： 基于SentenceBERT嵌入模型，從組件庫中檢索出與當前指令最相關的一組候選組件
組件編排工具： 基于一個尺寸小一些的大模型，根據用戶指令和篩選出來的候選組件，生成符合邏輯的組件調用序列

三、填充agent

專注于填充工具調用序列的參數，它也會調用兩個工具：

模板查找工具： 根據編排流程中的每個組件，從工具庫中提取該組件的參數說明以及一個空白參數模板?（列出了該組件所需參數和上默認值，目的是降低參數填充任務的復雜度）
參數填充工具： 根據模板查找的結果，利用LLM分析用戶query和監督agent的指示，從中提取出所需要的具體信息并填入對應的參數模板，最終得到一個可執行的工作流

整個流程如下圖所示：

在這里插入圖片描述

這樣的拆分看起來十分簡單，但它其實抓住了當前單一大模型難以生成準確工作流的痛點。考慮我們在多agent系統中對大模型規劃器的期望：

理解用戶問題并規劃解決思路；
理解工具并編排工具調用過程；
填充符合工具協議的參數；
處理不符合預期的結果

這些任務都有一定難度，并且在執行過程中一般會產生極長的上下文，揉在一起交給大模型的是一個難度很大的任務，于是導致實踐中不得不像打補丁一樣，添加各種人工書寫的業務邏輯以解決大模型的紕漏。

這時候將上述職能拆分到多個agent中，便可以大大降低每個大模型處理任務的難度

實驗結果

一、測試數據

由于目前沒有公開可用的NL2Workflow基準數據集，作者構建了HW-NL2Workflow，包含3695個真實的企業工作流樣本，用于訓練和評估（也是此工作的貢獻之一）

在這里插入圖片描述

二、測試對象

實驗組： 三個agent都基于Qwen2.5-72B-Instruct構建；組件編排工具和參數填充工具使用LLaMA3-8B-Instruct實現，并在上述數據集上進行了微調；組件過濾工具則使用了微調后的SentenceBERT
對照組： GPT-4o、Qwen2.5-72B-Instruct、Qwen2.5-7B-Instruct、LLaMA3-8B-Instruct（單規劃器），以及一個針對NL2Workflow場景的RAG

三、測試指標

精確匹配率（EMR）： 模型生成的整個工作流與參考答案完全一致的比例，包括組件的種類、順序以及所有參數值都要匹配。這是一個嚴格的“全對”指標，只有工作流毫無差錯地重現參考方案才算成功
流程編排準確率（AA）：只關注組件序列的正確性，忽略參數填充是否正確。如果模型選用了正確的組件并按正確順序排列，即視為該樣本在編排上是正確的，即使某些參數值有誤也不影響此指標。該指標反映模型理解用戶指令中邏輯步驟的能力。
參數填充準確率（PA）： 評價參數層面的正確性。它統計生成的所有組件參數中，有多少比例的參數值與參考答案一致。計算方式為匹配的參數數量除以測試集中參數總數，不關心流程是否正確

四、測試結果

單Agent模型在復雜任務上表現不佳——即便是最強的GPT-4，其EMR也僅有18.1%，Qwen-72B為12.7%，而較小模型（Qwen-7B、LLaMA-8B）幾乎完全失敗；

檢索增強的基線（引用現有工作的RAG-NL2Workflow方法）后，性能有所改善，而本文提出的WorkTeam效果大幅領先

在這里插入圖片描述

總結

本文提出的workTeam方法，盡管有更大的計算開銷（需要3個大尺寸LLM），但從效果上來看極大提升了LLM生成復雜工作流的準確性；

agent的拆分簡單易實現，實際上就是對大模型規劃器職責進行分治，不讓一個LLM去負責多個高難度的長上下文任務

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/web/75049.shtml
繁體地址，請注明出處：http://hk.pswp.cn/web/75049.shtml
英文地址，請注明出處：http://en.pswp.cn/web/75049.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！