論文略讀：If Multi-Agent Debate is the Answer, What is the Question?

論文略讀：If Multi-Agent Debate is the Answer, What is the Question?

news/2025/9/16 20:44:17/文章來源:https://blog.csdn.net/qq_40206371/article/details/148177918

202502 arxiv

1 intro

多智能體辯論（Multi-Agent Debate, MAD）：通過讓多個智能體在大模型推理時展開多輪辯論，可提升生成內容的事實準確性和推理質量
- 但論文認為，目前多智能體辯論在大多數情況下不敵簡單的單智能體方法 Chain-Of-Thought
  - 在 36 種實驗配置（覆蓋 9 個常見數據集與 4 種大模型）中，MAD 的勝率不足 20%。
——>論文提出Heter-MAD，通過簡單引入異構模型智能體，無需修改現有 MAD 框架即可穩定提升性能（最高達 30%）

2 主要結論

選取了?
- 5 種具有代表性的 MAD 框架
  - SoM、MP、EoT、ChatEval 和 AgentVerse
- 9 個涵蓋通用知識、數學推理和編程能力的基準數據集
- ?4 個基礎模型
  - GPT-4o-mini、Claude-3.5-haiku、Llama3.1-8b/70b
- 兩種baseline
  - Chain-of-Thought；self-consistency
- 評估指標
  - 性能、效率和魯棒性

在 36 個測試場景中，MAD 方法僅在不到 20% 的情況下優于CoT，更別說SC了

MAD 方法消耗了更多的 token，但未能帶來穩定的性能提升????????

增加智能體數量或辯論輪次并未顯著改善 MAD 的表現

3 異構MAD效果

論文認為，人類協作成功的關鍵在于個體多樣性
- 但現有 MAD 方法大多使用同一模型的多個實例進行評測，忽視了模型多樣性可能帶來的性能提升
——>提出了 Heter-MAD 方法：在MAD 框架中，每個 LLM 智能體隨機從異構模型池中選擇模型生成答案
- 無需改變現有 MAD 框架結構，卻能顯著且穩定地提升性能

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/906695.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/906695.shtml
英文地址，請注明出處：http://en.pswp.cn/news/906695.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！

相關文章

使用RUST在Arduino上進行編程（MacOS，mega板）

使用RUST在Arduino上進行編程（MacOS，mega板）

近年來，RUST成為了嵌入式編程的熱門語言，本文通過實現（1）LED閃燈，以及（2）在console（終端）實現“Hello Rust World”兩項功能來完成實操的入門。深入學習可以參考RUST語言…

閱讀更多...

（15）關于窗體的右鍵菜單的學習與使用，這關系到了信號與事件 event

（15）關于窗體的右鍵菜單的學習與使用，這關系到了信號與事件 event

（1）起因來源于 4.11 的老師講的例題，標準的，規范的使用右鍵菜單的代碼及參考資料如下： （2） 接著脫離上面的那個復雜的環境，用簡單的例子測試一下 ： 說明老師講的都是對…

閱讀更多...

C 語言學習筆記（指針4）

C 語言學習筆記（指針4）

內容提要指針函數指針與指針函數二級指針指針函數指針與指針函數函數指針定義函數指針本質上是指針，是一個指向函數的指針。函數都有一個入口地址，所謂指向函數的指針，就是指向函數的入口地址。（這里的函數名就代表…

閱讀更多...

C#串口打印機：控制類開發與實戰

C#串口打印機：控制類開發與實戰

C#串口打印機：控制類開發與實戰一、引言在嵌入式設備、POS 終端、工業控制等場景中，串口打印機因其穩定的通信性能和廣泛的兼容性，仍是重要的數據輸出設備。本文基于 C# 語言，深度解析一個完整的串口打印機控制類Printer&…

閱讀更多...

通過vue-pdf和print-js實現PDF和圖片在線預覽

通過vue-pdf和print-js實現PDF和圖片在線預覽

npm install vue-pdf npm install print-js <template><div><a-modal:visible"showDialog":footer"null"cancel"handleCancel":width"800":maskClosable"true":keyboard"…

閱讀更多...

SQL解析工具JSQLParser

SQL解析工具JSQLParser

目錄一、引言二、JSQLParser常見類2.1 Class Diagram2.2 Statement2.3 Expression2.4 Select2.5 Update2.6 Delete2.7 Insert2.8 PlainSelect2.9 SetOperationList2.10 ParenthesedSelect2.11 FromItem2.12 Table2.13 ParenthesedFromItem2.14 SelectItem2.15 BinaryExpressio…

閱讀更多...

安裝完dockers后就無法聯網了，執行sudo nmcli con up Company-WiFi，一直在加載中

安裝完dockers后就無法聯網了，執行sudo nmcli con up Company-WiFi，一直在加載中

Docker服務狀態檢查執行 systemctl status docker 確認服務是否正常若未運行，使用 sudo systemctl start docker && sudo systemctl enable docker 網絡配置沖突 Docker會創建docker0虛擬網橋，可能與宿主機網絡沖突檢查路由表 ip route sho…

閱讀更多...

Docker 運維管理

Docker 運維管理

Docker 運維管理一、Swarm集群管理1.1 Swarm的核心概念1.1.1 集群1.1.2 節點1.1.3 服務和任務1.1.4 負載均衡 1.2 Swarm安裝準備工作創建集群添加工作節點到集群發布服務到集群擴展一個或多個服務從集群中刪除服務ssh免密登錄二、Docker Compose與 Swarm 一起使用 Compose 三…

閱讀更多...

軟媒魔方——一款集合多種系統輔助組件的軟件

軟媒魔方——一款集合多種系統輔助組件的軟件

停更4年，但依舊吊炸天！ 親們，是不是覺得電腦用久了就像老牛拉車，慢得讓人著急？別急，我今天要給大家安利一個超好用的電腦優化神器——軟媒魔方！ 軟件介紹首先，這貨真心是免費的&a…

閱讀更多...

upload-labs通關筆記-第19關文件上傳之條件競爭

upload-labs通關筆記-第19關文件上傳之條件競爭

目錄一、條件競爭二、源碼分析 1、源碼分析 2、攻擊原理 3、滲透思路三、實戰滲透 1、構造腳本 2、制作圖片馬 3、獲取上傳腳本URL 4、構造訪問母狼腳本的Python代碼 5、bp不斷并發上傳母狼圖片馬 （1）開啟專業版bp （2&#xf…

閱讀更多...

分布式消息隊列kafka詳解

分布式消息隊列kafka詳解

分布式消息隊列kafka詳解引言 Apache Kafka是一個開源的分布式事件流平臺，最初由LinkedIn開發，現已成為處理高吞吐量、實時數據流的行業標準。Kafka不僅僅是一個消息隊列，更是一個完整的分布式流處理平臺，能夠發布、訂閱、存儲…

閱讀更多...

uni-app（3）：互相引用

uni-app（3）：互相引用

1 絕對路徑和相對路徑在日常開發中，經常會遇到使用絕對路徑還是相對路徑的問題，下面我們介紹下這兩種路徑。 1.1 絕對路徑絕對路徑：是指從項目根目錄開始的完整路徑。它用于指定文件或目錄的確切位置。絕對路徑通常以斜杠（/&am…

閱讀更多...

python與flask框架

python與flask框架

一、理論 Flask是一個輕量級的web框架，靈活易用。提供構建web應用所需的核心工具。 Flask依賴python的兩個庫 Werkzeug：flask的底層庫，提供了WSGI接口、HTTP請求和響應處理、路由等核心功能。 Jinja2：模板引擎&#xff0…

閱讀更多...

esp32-idf框架學習筆記/教程

esp32-idf框架學習筆記/教程

esp32型號: 環境搭建安裝:就按這個來,別的試了好多次都不行,這個一次成功!!!! vscode下ESP32開發環境配置（100%成功）_嗶哩嗶哩_bilibili esp芯片的兩種模式: ESP32 固件燒錄教程_嗶哩嗶哩_bilibili 1.運行模式 2.下載模式 esp32s3程序下載 1.數據…

閱讀更多...

VKontakte（VK）注冊教程

VKontakte（VK）注冊教程

VKontakte（簡稱VK）是俄羅斯最大的社交網絡平臺，類似于Facebook，用戶可以通過它進行社交、分享圖片、視頻、音樂等內容，并參與各類社群討論，是與俄羅斯及其他東歐地區的朋友建立聯系的便捷平臺。對于做俄羅斯…

閱讀更多...

STM32+ESP8266+ONENET+微信小程序上傳數據下發指令避坑指南

STM32+ESP8266+ONENET+微信小程序上傳數據下發指令避坑指南

之前只做過類似的但是以為這種爛大街的功能應該不難結果還是踩了不少坑，記錄幾個需要注意的點首先貼一個非常有用的視頻，里面講的很詳細，給的資料也很全【【新版OneNet云平臺】STM32ESP8266上傳數據，簡單易上手！】 h…

閱讀更多...

【知識點】關于vue3中markRow、shallowRef、shallowReactive的了解

【知識點】關于vue3中markRow、shallowRef、shallowReactive的了解

首先我們先了解一下這三個函數的定義以及區別 markRow 定義： 一個用于標記對象為非響應式的工具函數 shallowRef 定義： 一個用于創建淺層響應式引用的函數，只對 .value 本身進行響應式處理，不會遞歸地將 .value 指向的對象或…

閱讀更多...

后端開發實習生-抖音生活服務

后端開發實習生-抖音生活服務

職位描述 ByteIntern：面向2026屆畢業生（2025年9月-2026年8月期間畢業），為符合崗位要求的同學提供轉正機會。團隊介紹：生活服務業務依托于抖音、抖音極速版等平臺，致力于促進用戶與本地服務的連接。過去一…

閱讀更多...

OceanBase 共享存儲：云原生數據庫的存儲

OceanBase 共享存儲：云原生數據庫的存儲

目錄探會——第三屆 OceanBase 開發者大會重磅發布：OceanBase 4.3 開發者生態全面升級實戰演講：用戶案例與行業落地 OceanBase 共享存儲架構解析什么是共享存儲架構？ 云原生數據庫的架構性能、彈性與多云的統一為何OceanBase能…

閱讀更多...

C++ 結構體封裝模式與 Promise 鏈式調用：設計思想的異曲同工

C++ 結構體封裝模式與 Promise 鏈式調用：設計思想的異曲同工

C 結構體封裝模式與 Promise 鏈式調用：設計思想的異曲同工在軟件開發中，我們常常追求代碼的可維護性、可擴展性和可讀性。不同的編程語言和場景下，雖然實現方式各異，但背后的設計思想往往存在著奇妙的相似性。本文將探討 C 中結…

閱讀更多...

最新文章