剛剛,OpenAI開源PaperBench,重塑頂級AI Agent評測

今天凌晨1點,OpenAI開源了一個全新的AI Agent評測基準——PaperBench。

這個基準主要考核智能體的搜索、整合、執行等能力,需要對2024年國際機器學習大會上頂尖論文的復現,包括對論文內容的理解、代碼編寫以及實驗執行等方面的能力。

根據OpenAI公布的測試數據顯示,目前知名大模型打造的智能體,還無法戰勝頂級機器學習專業博士。但在輔助學習、了解科研內容方面很有幫助。

圖片

開源地址:https://github.com/openai/preparedness/

PaperBench組成介紹

PaperBench的核心是其任務模塊,主要定義了智能體需要完成的具體任務,需要從頭開始復現20篇ICML 2024會議上的Spotlight和Oral兩大類頂級論文,包括理解論文的貢獻,開發代碼庫以及成功執行實驗,以評測智能體從理論到實踐的全方位自動化能力。

為了確保評估的準確性和細致性,PaperBench開發了一套詳細的評分標準,以層次化的樹形結構呈現。使得評分過程能夠深入到每一個細節,從論文的核心貢獻到具體的實驗結果,再到代碼實現和執行要求,每一個環節都有相應的評分節點。

這些評分節點被精心設計為可單獨評分的任務,總數達到了8316個,從而實現了對智能體能力的全面評估。

圖片

評分模塊的核心是基于大模型的自動評分系統,它能根據評分標準自動評估智能體的復制嘗試。自動評分系統的引入大幅提高評分效率和可擴展性,使PaperBench能快速評估大量提交。

為驗證自動評分系統的準確性,PaperBench創建了單獨的評分系統基準測試JudgeEval,通過比較自動評分系統的輸出與人類專家的評分結果來評估其性能。這一過程不僅確保自動評分系統的可靠性,也為未來的評分系統改進提供重要參考。

規則模塊確保評估過程的公平性。它規定智能體在執行任務時可以使用的資源,例如允許智能體瀏覽互聯網,但禁止使用論文作者的原始代碼庫或其他在線復制資源。這些規則確保智能體的能力基于其自身的理解和實現,而非依賴現有代碼或資源。

圖片

PaperBench還包含一個輕量級評估變體模塊PaperBench Code-Dev,旨在降低評估門檻,使其更適合更廣泛的社區使用。

Code-Dev放寬了一些評測要求,例如,跳過了執行代碼以驗證結果是否復制的步驟,僅對代碼開發進行評估。這一變體雖犧牲了一些評估完整性,但大幅降低了評估成本和復雜性,使更多研究者能參與智能體的評估。

智能體測試環境

每個被測試的智能體在運行Ubuntu 24.04的Docker容器中執行任務,保證了環境的一致性和可重復性,接近真實研究場景的運行環境。

容器可訪問單個A10 GPU,這對于加速機器學習實驗至關重要。同時,容器具備聯網能力,智能體可下載軟件包、訪問在線資源。

為滿足實驗中的多種服務需求,研究人員為智能體提供了HuggingFace和OpenAI API的密鑰,其中OpenAI API預加載了1000美元額度。這確保了智能體在需要使用OpenAI的微調API或從HuggingFace下載數據集時,能夠順利操作。

圖片

智能體的本地工作目錄包含論文的PDF和Markdown格式文件、論文附錄以及指令文本文件,為智能體提供了豐富的信息來源和明確的指導。

在智能體設置方面,研究團隊基于Inspect AI的基本智能體開發了SimpleAgent。SimpleAgent運行工具使用循環,配備bash shell命令執行工具、Python代碼執行工具、web瀏覽器工具和分頁文件閱讀器工具,能夠高效完成任務。但是,大多數使用SimpleAgent的智能體存在提前結束任務的問題。

為解決這一問題,OpenAI開發了IterativeAgent通過修改系統提示,要求智能體每次只進行下一步操作,并移除了提交工具,確保在整個可用時間內持續工作。這些改進使IterativeAgent在實驗中表現出與SimpleAgent不同的行為模式,為研究不同智能體設置對模型復制能力的影響提供了新的視角。

評測數據

OpenAI通過該基準對?GPT - 4o、o1、o3 - mini、DeepSeek - R1、Claude 3.5 Sonnet?和?Gemini 2.0 Flash主流開閉源模型打造的智能體進行了綜合測試。

每個模型對每篇論文運行3次,每次運行的最長時間為12小時。結果顯示,Claude 3.5 Sonnet效果最好,平均復現分數達到21.0%;o1的得分較低,為13.2%;R1只有6%;其他測試模型的表現更差。

最讓人意外的是,OpenAI剛發布沒多久的o3-Mini-High直接墊底,看來這個評測還是相當客觀的

圖片

通過對智能體日志的手動檢查發現,除?Claude 3.5 Sonnet?外,其他模型經常提前結束任務,并且所有模型都未能有效規劃如何在有限時間內完成論文復現任務,o3 - mini?在工具使用方面也存在困難。

這表明智能體在執行長期任務方面存在不足,盡管它們在制定和編寫多步計劃方面有一定能力,但在實際執行長計劃時卻表現不佳。

為了進一步確定智能體和PaperBench的評測準確性,OpenAI還找來了8名頂級名校的機器學習專業博士,需要在與智能體相似的條件下,對?PaperBench中的4篇論文進行復現嘗試,每人對每篇論文進行3次獨立嘗試。

圖片

結果顯示,在復現嘗試的早期階段,o1的表現優于人類基線,但在24小時后,人類開始超越?o1

這表明模型在開始時能夠快速編寫大量代碼,但在后續有效規劃和改進提交內容方面存在不足,而人類在前期消化論文的時間較多,但后續能夠持續提升復現效果。也就是說,目前智能體的能力還無法超越人類。

本文素材來源OpenAI,如有侵權請聯系刪除

END

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/75495.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/75495.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/75495.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Golang封裝Consul 服務發現庫

以下是一個經過生產驗證的 Consul 服務發現封裝庫,支持注冊/注銷、健康檢查、智能發現等核心功能,可直接集成到項目中: package consulimport ("context""fmt""log""math/rand""net""os""sync"&quo…

自適應信號處理任務(過濾,預測,重建,分類)

自適應濾波 # signals creation: u, v, d N = 5000 n = 10 u = np.sin(np.arange(0, N/10., N/50000

PyTorch深度學習框架 的基礎知識

目錄 1.pyTorch檢查是否安裝成功 2.PyTorch的張量tensor 基礎創建方式(三種) 2.2用列表創建tensor 2.2使用元組創建 tensor 2.3使用ndarray創建創建 tensor 2.4 快速創建tensor的常用方法 3.pyTorch中的張量tensor的常用屬性 4. tensor中的基礎數據…

MySQL學習集--DDL

DDL 數據庫操作 查詢所有數據庫 SHOW DATABASES;查詢當前數據庫 SELECT DATABASE();創建 CREATE DATABASE[IF NOT EXISTS]數據庫名[DEFAULT CHARSET 字符集][COLLATE 排序規則];刪除 DROR DATABASE[IF EXISTS]數據庫名;使用 USE 數據庫名;表操作 創建表格 CREATE TABL…

Vue 3 中按照某個字段將數組分成多個數組

方法一:使用 reduce 方法 const originalArray [{ id: 1, category: A, name: Item 1 },{ id: 2, category: B, name: Item 2 },{ id: 3, category: A, name: Item 3 },{ id: 4, category: C, name: Item 4 },{ id: 5, category: B, name: Item 5 }, ];const grou…

LeetCode刷題 -- 48. 旋轉圖像

題目 算法題解:順時針旋轉矩陣(90度) 1. 算法描述 給定一個 n n 的二維矩陣,請將矩陣順時針旋轉 90 度。 例如: 輸入: [[1,2,3],[4,5,6],[7,8,9] ]輸出: [[7,4,1],[8,5,2],[9,6,3] ]2. 思…

Vulkan進階系列1 - Vulkan應用程序結構(完整代碼)

一: 概述 在前面的20多篇文章中,我們了解了Vulkan的基礎知識,和相關API的使用,接下來我們要從零開始寫一套完整Vulkan應用程序,在這個過程中加深對Vulkan中的各種概念的理解。 Vulkan 應用程序一般遵循 初始化 -> 運行循環 -> 資源清理 的結構,本實例也基本遵循了…

VTK的兩種顯示刷新方式

在類中先聲明vtk的顯示對象 vtkRenderer out_render; vtkVertexGlyphFilter glyphFilter; vtkPolyDataMapper mapper; // 新建制圖器 vtkActor actor; // 新建角色 然后在init中先初始化一下: out_rend…

【CSS3】04-標準流 + 浮動 + flex布局

本文介紹浮動與flex布局。 目錄 1. 標準流 2. 浮動 2.1 基本使用 特點 脫標 2.2 清除浮動 2.2.1 額外標簽法 2.2.2 單偽元素法 2.2.3 雙偽元素法(推薦) 2.2.4 overflow(最簡單) 3. flex布局 3.1 組成 3.2 主軸與側軸對齊方式 3.2.1 主軸 3.2.2 側軸 3.3 修改主…

詳細介紹一下C++的按位運算

在C中,按位運算(Bitwise Operations) 是直接對二進制位(bit)進行操作的低級運算,常用于處理硬件、優化性能、加密算法或底層資源管理。以下是按位運算符的詳細說明、示例和典型應用場景: 1.按位…

Flask與 FastAPI 對比:哪個更適合你的 Web 開發?

在開發 Web 應用時,Python 中有許多流行的 Web 框架可以選擇,其中 Flask 和 FastAPI 是兩款廣受歡迎的框架。它們各有特色,適用于不同的應用場景。本文將從多個角度對比這兩個框架,幫助你更好地選擇適合的框架來構建你的 Web 應用…

Python爬蟲第一戰(爬取優美圖庫網頁圖片)

本文是我在學習過程中記錄學習的點點滴滴,目的是為了學完之后鞏固一下順便也和大家分享一下,日后忘記了也可以方便快速的復習。 爬取網頁圖片 前言前言 今天學習的主要是關于如何利用Python爬取網頁圖片知識的理解和應用 # 1.獲取網頁信息,交給beautifulsoup # 2.獲取頁面里…

J1 ResNet-50算法實戰與解析

🍨 本文為🔗365天深度學習訓練營 中的學習紀錄博客🍖 原作者:K同學啊 | 接輔導、項目定制 一、理論知識儲備 1. 殘差網絡的由來 ResNet主要解決了CNN在深度加深時的退化問題(梯度消失與梯度爆炸)。 雖然B…

Python入門(3):語句

目錄 1 基本語句 1.1 表達式語句 1.2 賦值語句 2 控制流語句 2.1 條件語句 2.2 循環語句 while循環: for循環: 2.3 流程控制語句 1. break語句:退出整個循環體 2. continue語句:只跳過本次循環,還會進…

淺淺嘗試Numpy的函數s:

1.numpy.empty: numpy.empty方法用來創建一個指定形狀(shape),數據類型(dtype)且未被初始化的數組: numpy.empty(shape,dtype float,order C) 參數說明: shape:數組形狀。 dtype:數據類型&am…

【C++】nlohmann::json 配置加載技術實踐:從基礎到高級應用

一、nlohmann::json 庫概況與核心特性 nlohmann::json 是 C 社區最受歡迎的 JSON 庫之一,其設計理念簡潔即美,通過單頭文件實現完整的 JSON 解析、序列化和操作功能。 1.1 基本特性 nlohmann::json是一個現代C編寫的開源JSON庫,采用MIT協議…

運算放大器(四)濾波電路(濾波器)

1.濾波電路概述 濾波電路簡稱濾波器,是一種能使某一部分頻率的信號順利通過,而使其它頻率的信號被大幅衰減的電路。 2.濾波器的分類 (1)低通濾波器:低頻信號能夠通過,而高頻信號不能通過的濾波器稱為低通…

mac如何將jar包上傳到maven中央倉庫中

mac如何將jar包上傳到maven中央倉庫中 準備sonatype賬號 sonatype官網:https://central.sonatype.com/ 建議使用GitHub賬號注冊,方便 之后選擇查看用戶信息 選擇此選項獲取用戶token的username與password,建議提前復制一下謹防丟失 之后…

【通知】STM32MP157驅動開發課程全新升級!零基礎入門嵌入式Linux驅動,掌握底層開發核心技能!

在嵌入式Linux系統開發中,驅動程序開發是一項關鍵技術,它作為硬件與軟件之間的橋梁,實現了操作系統對硬件設備的控制。相較于嵌入式Linux應用開發,驅動開發由于涉及底層硬件且抽象程度較高,往往讓初學者感到難度較大。…