2025-02-27,由北京郵電大學和理想汽車公司聯合創建。該平臺基于《Overcooked-AI》游戲環境,設計了更具挑戰性和實用性的交互任務,目的通過自然語言溝通促進多智能體協作。
一、研究背景
近年來,基于大型語言模型的智能體系統在復雜任務分解和規劃方面展現出巨大潛力,成為自然語言處理領域的研究熱點。然而,隨著研究的深入,人們發現單個智能體在處理復雜任務時存在局限性,而多智能體系統通過協作能夠顯著提升任務效率,解決單個智能體難以完成的挑戰。
目前遇到的困難和挑戰:
協作能力評估不足:現有基準測試大多關注任務完成效率,忽視了協作過程中的關鍵指標,導致無法準確衡量智能體的協作能力。
缺乏嚴格協作機制:許多平臺允許智能體獨立完成任務,即使任務被標記為“協作”,也難以區分協作對任務成功的真實貢獻。
評估指標單一:現有研究多依賴于任務完成率等結果導向的指標,缺乏對協作過程的動態評估,難以提供優化協作策略的依據。
鏈接地址:Collab-Overcooked|多智能體系統數據集|協作數據集
二、讓我們一起來看一下Collab-Overcooked
Collab-Overcooked 是一個基于《Overcooked-AI》游戲環境的多智能體協作基準測試平臺,專注于通過自然語言溝通促進智能體間的協作。
Collab-Overcooked 的構建基于以下關鍵設計:
資源隔離:智能體在獨立的環境中操作,必須通過共享的“柜臺”進行資源交換。
任務知識不對稱:只有部分智能體知道完成任務的具體方法,智能體之間需要通過溝通同步任務信息。
自然語言溝通:智能體通過自然語言發起和響應協作請求,模擬真實世界中的協作場景。
Collab-Overcooked的特點:
嚴格的協作依賴:任務設計確保智能體必須通過協作才能完成任務。
多樣化任務和目標:提供 30 個不同復雜度的任務,涵蓋多種協作場景。
過程導向的評估指標:引入 TES 和 ITES 等指標,能夠從粗粒度和細粒度兩個層面評估智能體的協作能力。
基準測試:
Collab-Overcooked 提供了 10 種不同規模的語言模型(包括開源和閉源模型)的基準測試結果。測試結果顯示,盡管語言模型在目標理解方面表現出色,但在主動協作和持續適應復雜任務方面存在顯著差距。這一發現為改進語言模型在多智能體系統中的協作能力提供了重要參考。
第一部分介紹了協作過程,分為發起協作和響應協作,并提供了一個一般示例。第二部分概述了 Collab-Overcooked Benchmark 的設計,強調了其資源隔離和非對稱任務知識的特點,并提供了一個智能體協作完成任務的例子。
三、讓我們一起來看一下Collab-Overcooked應用場景:
自然語言溝通優化案例:基于Collab-Overcooked的多智能體協作優化
比如在一個烹飪任務中,兩個智能體(Agent Alice和Agent Bob)需要協作完成一道“烤南瓜湯”。任務要求Agent Alice從食材區獲取南瓜,將其切成片,并將南瓜片放在共享的“柜臺”上;Agent Bob則需要從柜臺取南瓜片,放入烤箱烤制,最后將烤好的南瓜湯裝盤并交付。
優化前的溝通與協作
Agent Alice:在任務開始時,Alice直接執行了“獲取南瓜”和“切南瓜”的動作,但沒有與Bob溝通下一步的計劃。Bob在等待Alice完成動作時,沒有明確的指示,導致任務進度緩慢。
Agent Bob:Bob在Alice完成切南瓜后,沒有及時確認南瓜片是否已經準備好,導致烤箱空閑,任務進度受阻。
優化后的溝通與協作
研究人員通過分析溝通內容和協作效果,提出以下優化策略:
1、明確溝通內容:Alice在完成切南瓜后,主動通過自然語言向Bob發送消息:“我已經切好了南瓜片,你可以開始烤制了。”
2、實時反饋與確認:Bob在收到消息后,立即回復:“收到,我馬上開始烤制。”同時,Bob在烤制過程中,如果發現任何問題(如南瓜片數量不足),會及時與Alice溝通。
3、任務分解與分工:在任務開始前,兩個智能體通過自然語言協商任務分工。Alice負責食材的準備和切割,Bob負責烤制和裝盤。每個步驟都有明確的溝通節點,確保雙方對任務進度有清晰的了解。
通過Collab-Overcooked平臺的實驗,研究人員發現優化自然語言溝通策略可以顯著提升多智能體協作的效率和成功率。明確的溝通內容、實時反饋和任務分工是優化的關鍵點
想要了解經典數據集,請打開:
經典數據集從千萬數據集中千里挑一,經過了時間和應用的考研,已成為算法和模型性能評估的基準,是各個領域的數據集代表https://www.selectdataset.com/classics