[論文閱讀] 人工智能 + 軟件工程 | LLM協作新突破:用多智能體強化學習實現高效協同——解析MAGRPO算法

LLM協作新突破:用多智能體強化學習實現高效協同——解析MAGRPO算法

論文:LLM Collaboration With Multi-Agent Reinforcement Learning

arXiv:2508.04652 (cross-list from cs.AI)
LLM Collaboration With Multi-Agent Reinforcement Learning
Shuo Liu, Zeyu Liang, Xueguang Lyu, Christopher Amato
Subjects: Artificial Intelligence (cs.AI); Software Engineering (cs.SE)

一段話總結:

本文將LLM協作建模為合作式多智能體強化學習(MARL) 問題,并形式化為Dec-POMDP,以解決現有LLM微調框架依賴個體獎勵導致協作困難的問題。為此,提出MAGRPO算法,通過集中式群體相對優勢進行聯合優化,同時保留去中心化執行以保證效率。實驗表明,在寫作(TLDR summarization、arXiv expansion)和編碼(HumanEval、CoopHumanEval)協作任務中,MAGRPO能使LLM agents通過有效協作生成高質量響應,且效率優于單agent和其他多agent基線方法。該研究為MARL方法應用于LLM協作開辟了道路,并指出了相關挑戰。

研究背景

想象一個場景:你讓兩個AI助手合作寫一篇科普文章,一個負責介紹背景,一個負責講解原理。結果呢?可能一個寫得太簡略,一個又過于冗長,風格完全不搭,甚至出現內容重復——這就是當前大型語言模型(LLM)協作時的常見問題。

近年來,LLM在各個領域大放異彩,但當需要多個LLM協同完成復雜任務(如聯合寫作、協作編碼)時,卻面臨諸多挑戰:

  • 現有方法要么讓LLM在推理時通過提示詞互動(比如“你補充一下我的觀點”),但模型固定不變,很容易答非所問或傳播錯誤信息;
  • 要么針對每個LLM單獨微調,設計復雜的個體獎勵(比如“這個LLM寫得好就加分”),但獎勵設計難度大,且多個LLM各自為戰,缺乏全局協作意識。

而在機器人、游戲等領域,多智能體系統(MAS)早已通過強化學習實現了高效協作(比如多個機器人協同搬運物體)。受此啟發,研究者們開始思考:能否將LLM協作也打造成一個“協作型團隊”,通過多智能體強化學習(MARL)讓它們學會協同工作?這正是本文要解決的核心問題。

主要作者及單位信息

  • 作者:Shuo Liu, Zeyu Liang, Xueguang Lyu, Christopher Amato*
  • 單位:Khoury College of Computer Sciences, Northeastern University(美國東北大學Khoury計算機學院)

創新點

本文的獨特之處在于跳出了“個體優化”的思維,為LLM協作提供了全新框架:

  1. 問題建模革新:首次將LLM協作明確建模為合作式多智能體強化學習問題,并通過Dec-POMDP(去中心化部分可觀測馬爾可夫決策過程) 形式化,讓協作目標更清晰。
  2. 算法創新:提出MAGRPO(Multi-Agent Group Relative Policy Optimization)算法,結合“集中式訓練、去中心化執行”模式——訓練時用全局信息優化協作策略,執行時每個LLM獨立決策,兼顧效率與協作性。
  3. 獎勵設計簡化:摒棄復雜的個體獎勵,采用聯合獎勵(比如“兩篇摘要是否結構合理、風格一致”),讓LLM自然學會分工協作,無需手動設計角色規則。
    在這里插入圖片描述

研究方法和思路

核心思路:把LLM協作變成“團隊游戲”

  1. 問題形式化:用Dec-POMDP定義協作規則

    • 每個LLM是一個“智能體”,接收自然語言提示(觀測),生成文本或代碼(動作)。
    • 環境根據所有LLM的聯合輸出更新狀態(比如任務進度、用戶反饋)。
    • 系統根據聯合輸出的質量給出聯合獎勵(比如寫作任務中獎勵“結構合理+風格一致”,編碼任務中獎勵“代碼可運行+功能互補”)。
    • 目標是讓所有LLM共同優化策略,最大化累計獎勵(即“團隊總分”)。
  2. MAGRPO算法:讓LLM學會“團隊配合”

    • 步驟1:多輪交互:每個回合中,LLM們根據各自的歷史(之前的提示和輸出)同步生成響應。
    • 步驟2:群體采樣:為了穩定訓練,每個LLM生成多個候選響應(比如每個生成3個版本),形成“響應群體”。
    • 步驟3:計算獎勵:系統根據聯合響應的質量(如結構、一致性、正確性)給出聯合獎勵。
    • 步驟4:優化策略:通過“群體相對優勢”(對比不同響應的獎勵差異)更新每個LLM的策略,讓它們逐漸學會“哪些輸出能讓團隊得分更高”。
    • 特點:訓練時用全局信息(所有LLM的輸出和獎勵)優化,執行時每個LLM僅根據自己的觀測獨立決策,既保證協作又不犧牲效率。

實驗方法:在寫作和編碼任務中“實戰測試”

  1. 寫作協作任務

    • TLDR摘要生成:2個LLM分工,一個寫精簡摘要,一個寫詳細摘要,要求結構合理、風格一致。
    • arXiv論文擴展:2個LLM從論文摘要擴展引言,一個寫背景,一個寫方法,要求內容連貫。
    • 對比基線:單LLM、并行生成(無協作)、順序生成(單向參考)、一輪討論(雙向參考)。
  2. 編碼協作任務

    • HumanEval/CoopHumanEval:2個LLM分工寫Python函數,一個寫輔助函數,一個寫主函數,要求代碼可運行、功能互補。
    • 對比基線:單LLM、樸素拼接(無協作)、順序生成(主函數參考輔助函數)、一輪討論(互相參考)。
  3. 評估指標

    • 寫作:結構(長度比)、風格一致性(詞匯相似度)、邏輯連貫性(過渡詞使用)。
    • 編碼:結構完整性(函數定義正確)、語法正確性、測試通過率、協作質量(主函數是否有效調用輔助函數)。

主要貢獻

  1. 理論層面:為LLM協作提供了堅實的數學框架(Dec-POMDP),證明了用MARL解決協作問題的可行性。
  2. 方法層面:MAGRPO算法無需復雜的個體獎勵設計,僅通過聯合獎勵就能讓LLM自主學會分工協作,降低了工程落地難度。
  3. 實踐層面:實驗表明,MAGRPO在寫作和編碼任務中全面超越現有方法:
    • 寫作任務:速度是單LLM的3倍,結構合理性和風格一致性得分超95%(基線最高71.5%)。
    • 編碼任務:多輪MAGRPO的測試通過率達74.6%,協作質量達86.2%(單LLM分別為63.4%和無協作指標)。
  4. 領域價值:打開了MARL與LLM結合的新方向,為未來更復雜的多LLM協作(如大型軟件開發、多步驟決策)奠定了基礎。

思維導圖:

在這里插入圖片描述


詳細總結:

1. 研究背景與動機
  • LLM與MAS的潛力:LLM在多領域表現優異,但協作能力未被充分優化;MAS在協作任務(如游戲、機器人)中已展現潛力,可用于提升LLM協作。
  • 現有方法的局限
    • 提示級交互(如辯論、角色分配):依賴固定模型,易產生沖突信息,提示設計困難。
    • 個體獎勵微調:需為每個agent設計復雜獎勵,且缺乏收斂保證。
2. 核心方法
  • 問題形式化:將LLM協作定義為Dec-POMDP,包含狀態(全局狀態含可訪問部分和用戶狀態)、觀測(自然語言提示)、動作(自然語言響應)、聯合獎勵(基于可訪問狀態和聯合動作)等要素。
  • MAGRPO算法
    • 核心思路:借鑒GRPO和MAPPO,通過群體蒙特卡洛樣本估計期望回報,計算群體相對優勢以穩定訓練。
    • 流程:每個episode中,agents同步生成響應,基于聯合獎勵更新歷史,最終通過隨機梯度下降優化策略。
3. 實驗設計與結果
任務類型數據集/任務評估指標關鍵結果(MAGRPO vs 基線)
寫作協作TLDR summarization結構(長度比)、風格一致性(Jaccard相似度)、邏輯連貫性(過渡詞)速度是單模型3倍,結構和連貫性得分更高(98.7% vs 單模型6.6%)
寫作協作arXiv expansion同上總回報顯著高于并行生成、順序生成等基線(93.1% vs 并行59.6%)
編碼協作HumanEval結構完整性、語法正確性、測試通過率、協作質量多輪MAGRPO測試通過率74.6%,協作質量86.2%,優于單模型(63.4%)和樸素拼接(40.1%)
編碼協作CoopHumanEval同上單輪/多輪MAGRPO總回報(83.7%/88.1%)高于所有基線,且方差更低
4. 貢獻與局限
  • 貢獻
    1. 將LLM協作建模為合作式MARL問題;
    2. 提出MAGRPO算法優化協作;
    3. 驗證其在寫作和編碼任務中的有效性;
    4. 分析現有方法局限和開放挑戰。
  • 局限與未來方向
    • 局限:使用同質agent、數據集和模型規模有限、獎勵模型簡單;
    • 未來:探索異質agent協作、擴大項目規模、設計更精細的獎勵模型。

關鍵問題:

  1. MAGRPO算法與現有多agent LLM協作方法的核心區別是什么?
    現有方法多依賴提示級交互(無微調)或個體/角色條件獎勵微調,存在協作低效、獎勵設計復雜、缺乏收斂保證等問題;而MAGRPO將LLM協作建模為合作式MARL問題,通過集中式群體相對優勢進行聯合優化,同時保留去中心化執行,無需復雜個體獎勵設計,且有更好的協作效果和收斂性。

  2. 在寫作協作實驗中,評估LLM生成內容質量的具體指標有哪些?
    包括三類指標:(1)結構:兩段摘要的長度比和獨特詞比;(2)風格一致性:基于獨特詞(或n-grams)的歸一化Jaccard相似度;(3)邏輯連貫性:過渡詞使用的類別數量(獎勵隨類別數對數增長)。總獎勵為這些指標的加權和。

  3. 該研究指出的LLM協作領域開放挑戰有哪些?
    主要包括:(1)LLM基于自然語言的表示形式對MARL建模的挑戰(如動作/觀測空間大);(2)訓練范式選擇(CTDE vs DTE)的權衡;(3)獎勵模型的設計需更精細以對齊人類偏好;(4)需探索異質agent協作及更大規模項目中的協作模式。

總結

本文通過將LLM協作建模為合作式多智能體強化學習問題,提出了MAGRPO算法,成功解決了現有方法中“協作低效”和“獎勵設計復雜”的痛點。實驗證明,經過MAGRPO訓練的LLM團隊,在寫作和編碼任務中能生成更高質量的結果,且效率顯著提升。

解決的主要問題

  • 現有LLM協作依賴提示詞或個體獎勵,協作性差、設計復雜。
  • LLM在多輪交互中難以保持風格一致、功能互補。

主要成果

  • 提出MAGRPO算法,實現LLM的高效協同訓練。
  • 在寫作和編碼任務中驗證了方法的優越性,為MARL在LLM領域的應用提供了范例。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/92701.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/92701.shtml
英文地址,請注明出處:http://en.pswp.cn/web/92701.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

使用OAK相機實現智能物料檢測與ABB機械臂抓取

大家好!今天我們很高興能與大家分享來自OAK的國外用戶——Vention 的這段精彩視頻,展示了他們的AI操作系統在現實中的應用——在演示中,進行實時的自動物料揀選。 OAK相機實時自動AI物料揀選視頻中明顯可以看到我們的OAK-D Pro PoE 3D邊緣AI相…

html5和vue區別

HTML5 是網頁開發的核心標準,而 Vue 是構建用戶界面的JavaScript框架,兩者在功能定位和開發模式上有顯著差異: 核心定位 HTML5是 HTML標準 的第五次重大更新(2014年發布),主要提供網頁結構定義、多媒體嵌入…

【前端八股文面試題】【JavaScript篇3】DOM常?的操作有哪些?

文章目錄🧭 一、查詢/獲取元素 (Selecting Elements)?? 二、修改元素內容與屬性 (Modifying Content & Attributes)🧬 三、創建與插入元素 (Creating & Inserting Elements)🗑? 四、刪除與替換元素 (Removing & Replacing)&am…

內存殺手機器:TensorFlow Lite + Spring Boot移動端模型服務深度優化方案

內存殺手機器:TensorFlow Lite Spring Boot移動端模型服務深度優化方案一、系統架構設計1.1 端云協同架構1.2 組件職責矩陣二、TensorFlow Lite深度優化2.1 模型量化策略2.2 模型裁剪技術2.3 模型分片加載三、Spring Boot內存優化3.1 零拷貝內存管理3.2 堆外內存模…

安全生產基礎知識(一)

本文檔圍繞安全生產基礎知識展開: 一、安全用電相關知識 用電安全要點 禁止用濕手觸摸燈頭、開關、插頭插座及用電器具。發現有人觸電,切勿用手拉扯,應立即拉開電源開關或用干燥木棍、竹竿挑開電線。電器通電后出現冒煙、燒焦味或著火時&…

Elasticsearch 搜索模板(Search Templates)把“可配置查詢”裝進 Mustache

1. 什么是 Search Template?能解決什么問題? 搜索模板是存儲在 ES 集群里的 Mustache 模板(lang: mustache)。你把一份標準 _search 請求體寫成模板,變量交給 params,每次調用只需傳參即可: 搜索…

cocos Uncaught TypeError: Cannot read properties of null (reading ‘SetActive‘)

報錯:Uncaught TypeError: Cannot read properties of null (reading SetActive) at b2RigidBody2D.setActive (rigid-body.ts:231:21) at b2RigidBody2D.onEnable (rigid-body.ts:78:14) at RigidBody2D.onEnable (rigid-body-2d.ts:551:24) at OneOffInvoker.invo…

Docker用戶組介紹以及管理策略

在Docker環境中,用戶組(尤其是默認的docker組)是管理用戶與Docker守護進程交互權限的核心機制。以下從概念介紹和具體管理操作兩方面詳細說明:一、Docker用戶組的核心概念 Docker守護進程(dockerd)默認通過…

【PyTorch】單目標檢測項目部署

【PyTorch】單目標檢測項目 兩種部署情況:部署在 PyTorch 數據集上,以及部署在本地存儲的單個映像上。 目錄 定義數據集 搭建模型 部署模型 定義數據集 詳細參照前文【PyTorch】單目標檢測項目 import torchvision import os import pandas as pd i…

Baumer高防護相機如何通過YoloV8深度學習模型實現火星隕石坑的檢測識別(C#代碼UI界面版)

《------往期經典推薦------》 AI應用軟件開發實戰專欄【鏈接】 序號 項目名稱 項目名稱 1 1.工業相機 + YOLOv8 實現人物檢測識別:(C#代碼,UI界面版) 2.工業相機 + YOLOv8 實現PCB的缺陷檢測:(C#代碼,UI界面版) 2 3.工業相機 + YOLOv8 實現動物分類識別:(C#代碼,U…

UniApp Vue3 TypeScript項目中使用xgplayer播放m3u8視頻的顯示問題

問題背景 在UniApp Vue3 TypeScript項目中使用xgplayer播放m3u8視頻時&#xff0c;遇到了一個棘手的問題&#xff1a;視頻畫面下移&#xff0c;只能聽到聲音&#xff0c;全屏后才能正常顯示。經過排查&#xff0c;發現是<video>元素在DOM渲染時被異常定位&#xff0c;導…

服務器硬件電路設計之 I2C 問答(三):I2C 總線上可以接多少個設備?如何保證數據的準確性?

在服務器硬件電路設計中&#xff0c;I2C 總線作為常用的串行通信協議&#xff0c;其設備連接數量和數據準確性至關重要。?I2C 總線上可連接的設備數量并非無限制。從理論上講&#xff0c;標準 I2C 設備采用 7 位地址&#xff0c;除去保留地址&#xff0c;最多可連接 112 個設備…

用LaTeX優化FPGA開發:結合符號計算與Vivado工具鏈

用 LaTeX 優化 FPGA 開發&#xff1a;結合符號計算與 Vivado 工具鏈&#xff08;一&#xff09; 系列文章目錄 第一章&#xff1a;深入了解 LaTeX&#xff1a;科技文檔排版的利器 第二章&#xff1a;LaTeX 下載安裝保姆級教程 第三章&#xff1a;LaTeX 創建工程并生成完整文檔…

人工智能系列(6)如何開發有監督神經網絡系統?

一. 開發有監督神經網絡系統的步驟1. 數據收集訓練數據通常由輸入–輸出成對組成&#xff0c;根據任務需求可能涵蓋不同情境&#xff08;如白天或夜晚的車輛識別&#xff09;&#xff0c;其類型可以是數值、圖像、音頻等多種形式&#xff1b;數據規模越大、越多樣&#xff0c;模…

CSS 選擇器進階:用更聰明的方式定位元素

在前端開發中&#xff0c;CSS 選擇器是我們與 DOM 對話的語言。雖然 class 和 id 是我們最熟悉的工具&#xff0c;但真正高效、優雅的樣式代碼&#xff0c;往往來自于對現代 CSS 選擇器的深入理解與巧妙運用。本文將帶你跳出基礎語法&#xff0c;探索那些能顯著提升開發效率和代…

常用排序方法

一、排序的概念及引用1、排序的概念排序&#xff1a;所謂排序&#xff0c;就是使一串記錄&#xff0c;按照其中的某個或某些關鍵字的大小&#xff0c;遞增或遞減的排列起來的操作。穩定性&#xff1a;假定在待排序的記錄序列中&#xff0c;存在多個具有相同的關鍵字的記錄&…

接口返回504 Gateway Time-out 錯誤,這意味著請求在網關或代理服務器等待上游服務器響應時超時。以下是可能的原因和排查建議:

問題分析1.后端處理耗時過長是某個方法執行時間過長&#xff0c;超過了網關的超時設置&#xff08;通常是幾十秒&#xff09;可能涉及大量數據查詢或復雜計算2.數據庫查詢性能問題查詢的數據量過大缺少必要的數據庫索引SQL語句執行效率低下排查建議1.檢查服務端日志查看應用日志…

DBAPI 實現不同角色控制查看表的不同列

DBAPI 實現不同角色控制查看表的不同列 場景說明 在數據庫管理系統中&#xff0c;對表進行列級別的權限控制是一項關鍵的安全措施&#xff0c;特別是在處理敏感數據或需要遵守特定數據訪問控制策略的情況下。合理的列權限控制不僅能保護敏感信息&#xff0c;還能幫助組織滿足合…

二維圖像處理(完整版)

目錄 1.變換矩陣 2.在矩陣的基礎上添加各種變換形式 3.開始變換 4.計算變換矩陣參數 新算子 二、閾值分割 新算子 三、blob分析案例 1.焊點 2.石頭 3.木材 4.車牌 5.骰子 新算子 四、傅里葉變換頻域分析 問題一 五、濾波處理 1.均值濾波 2.中值濾波 3.高斯…

計算機網絡:求地址塊128.14.35.7/20中的相關信息

128.14.35.7/20是某一地址塊&#xff0c;求該地址塊中的網絡地址&#xff0c;IP地址最大值&#xff0c;最小值&#xff0c;地址數 這里的最大值&#xff1a;廣播地址&#xff0c;最小值&#xff1a;網絡地址&#xff0c;地址數&#xff1a;可分配主機數 最關鍵的一步就點分十進…