OpenAI發布ChatGPT Agent,AI智能體迎來關鍵變革

注:此文章內容均節選自充電了么創始人,CEO兼CTO陳敬雷老師的新書《GPT多模態大模型與AI Agent智能體》(跟我一起學人工智能)【陳敬雷編著】【清華大學出版社】

清華《GPT多模態大模型與AI Agent智能體》書籍配套視頻課程【陳敬雷】

文章目錄

  • GPT多模態大模型與AI Agent智能體系列三十四
    • OpenAI發布ChatGPT Agent,AI智能體迎來關鍵變革
    • 一、ChatGPT Agent功能展示
      • (一)日常生活任務處理
      • (二)互聯網瀏覽交互
      • (三)辦公文檔處理與API調用
    • 二、ChatGPT Agent基準測試表現
      • (一)人類最后考試(HLE)
      • (二)FrontierMath基準測試
      • (三)WebArena基準測試
      • (四)BrowserComp基準測試
      • (五)Spreadsheet Bench基準測試
      • (六)Internal Banking Benchmark基準測試
    • 三、ChatGPT Agent安全風險及防范
    • 四、ChatGPT Agent上線計劃
      • 更多技術內容
  • 總結

GPT多模態大模型與AI Agent智能體系列三十四

OpenAI發布ChatGPT Agent,AI智能體迎來關鍵變革

2025年7月18日凌晨1點,OpenAI通過直播發布了最新模型ChatGPT Agent,將DeepResearch和Operator功能融合,打造出可深度研究和瀏覽使用的AI智能體,標志著AI從單純的語言交互邁向能執行復雜任務的新階段。

一、ChatGPT Agent功能展示

(一)日常生活任務處理

以參加朋友婚禮準備為例,研究員向ChatGPT Agent輸入詳細需求,包括婚禮網站、預訂酒店網站,并要求其尋找符合場合著裝要求的男士服裝(推薦五個方案,包含中等奢華物品且與場地和天氣相符)、在booking.com預訂提前幾天可入住的酒店并查看空房及價格、挑選500美元以下禮物,最后生成報告。收到提示詞后,ChatGPT Agent首先設置環境,通常需一兩分鐘,快時不到5秒(實際演示7秒)。準備好后會向用戶確認理解是否準確,得到“continue”指令后開始工作。執行任務時,用戶能同步看到其操作計算機屏幕過程及思維鏈。最終,它根據婚禮信息確定西裝推薦及購買渠道、提供房源信息,還給出禮物建議,并附上瀏覽結果截圖。任務完成后,用戶可通過視頻回顧執行過程。

(二)互聯網瀏覽交互

ChatGPT Agent可使用文本瀏覽器和可視化瀏覽器瀏覽互聯網。文本瀏覽器類似DeepResearch,能高效快速閱讀和搜索大量網頁;可視化瀏覽器類似Operator,可與網頁UI交互,執行拖動網頁、點擊光標、打開UI組件、填寫表單、輸入文本等操作,兩種瀏覽器互補性強。此前,Operator在閱讀超長文章時因需滾動而耗時,DeepResearch在與網頁交互元素、視覺效果交互方面較弱,而ChatGPT Agent整合二者優勢。且用戶反饋期待DeepResearch能登錄網站訪問經過身份驗證的來源,這一點Operator可以實現,同時很多Operator提示與DeepResearch提示相似,也促使了二者融合。

(三)辦公文檔處理與API調用

ChatGPT Agent擁有自己的終端運行代碼,可生成和分析PPT、Excel等文件,還能通過終端調用API,包括公共API和訪問用戶私有數據源的API(如Google Drive、Google Calendar、Github Sharepoint等),甚至調用圖像生成API為PPT生成圖像。演示中,研究員讓ChatGPT Agent從Google Drive提取評估編號并制作幻燈片,模型連接Google Drive API,搜索相關結果,讀取內容后編寫代碼,利用圖像生成模型為PPT配圖,最終生成可下載并在本地打開的PPT文檔。

二、ChatGPT Agent基準測試表現

(一)人類最后考試(HLE)

在該面向人類知識前沿的多模態基準測試中,擁有完全工具使用能力的ChatGPT Agent通過率達42%,性能相比僅有browser use和python代碼能力的DeepSesearch、o3幾乎翻了一番,而沒有工具使用能力的ChatGPT Agent和o3則墊底。這表明ChatGPT Agent在綜合知識運用和復雜任務處理上優勢明顯,其工具使用能力極大提升了應對多模態任務的水平。

(二)FrontierMath基準測試

該測試衡量高級數學推理能力,ChatGPT Agent通過率達27%,超越了擁有Python編碼能力的o4 - mini和o3 ,顯示出其在數學推理領域較強的實力,能夠處理復雜的數學問題并給出準確解答。

(三)WebArena基準測試

ChatGPT Agent表現接近人類且高于o3和4o ,說明在模擬真實網絡環境下的任務執行中,ChatGPT Agent能夠較好地理解和完成任務,與人類表現差距不斷縮小,在實際網絡應用場景中具有較高的可用性。

(四)BrowserComp基準測試

該測試衡量Agent搜索和查找信息的能力,ChatGPT Agent顯著優于o3和DeepResearch模型,證明其在信息檢索和處理方面的高效性,能夠快速準確地從互聯網海量信息中找到所需內容并進行有效利用。

(五)Spreadsheet Bench基準測試

該測試衡量創建和編輯電子表格的能力,使用LibreOffice和其它工具的ChatGPT Agent可完成30%的任務,當賦予其訪問終端中原始Excel文件權限時,性能提升至45% ,體現出其在電子表格處理方面的不斷優化和強大潛力,隨著權限和工具的完善,能夠更好地滿足用戶在該領域的復雜需求。

(六)Internal Banking Benchmark基準測試

該測試評估模型執行1到3年經驗投資銀行分析師任務的能力,如為財富500強公司構建三表財務模型,ChatGPT Agent表現顯著優于DeepResearch和o3 ,表明其在專業金融領域的任務處理上具備較強優勢,能夠勝任復雜的金融分析和建模工作。

三、ChatGPT Agent安全風險及防范

OpenAI官方強調,讓AI Agent執行網頁瀏覽存在風險。互聯網存在各種網絡攻擊、詐騙和網絡釣魚,試圖竊取信息,Agent模型也無法完全避免。例如“prompt injection”攻擊,若用戶讓智能體買書并輸入信用卡信息,智能體可能進入惡意網站并按其要求輸入信息。為防范風險,OpenAI采取多種措施:訓練模型忽略可疑網站上的可疑指令;設置多層監視器監視Agent運行,且可實時更新信息防范新攻擊。但OpenAI也指出,不可能阻止所有風險,用戶自身需意識到風險,盡量不分享高度敏感信息,合理使用接管模式。

四、ChatGPT Agent上線計劃

ChatGPT Agent將為Pro、Plus和Team用戶上線。Pro用戶每月獲400次查詢,Plus和Team用戶每月獲40次查詢。Pro版部署預計本月底完成,Plus版隨后完成,Team版爭取本月底前上線企業版和教育版。OpenAI團隊表示,雖然目前處于初期階段,但會迅速改進,期待看到其后續發展。

更多技術內容

更多技術內容可參見
《GPT多模態大模型與AI Agent智能體》(跟我一起學人工智能)【陳敬雷編著】【清華大學出版社】書籍。
更多的技術交流和探討也歡迎加我個人微信chenjinglei66。

總結

此文章有對應的配套新書教材和視頻:

【配套新書教材】
《GPT多模態大模型與AI Agent智能體》(跟我一起學人工智能)【陳敬雷編著】【清華大學出版社】
新書特色:《GPT多模態大模型與AI Agent智能體》(跟我一起學人工智能)是一本2025年清華大學出版社出版的圖書,作者是陳敬雷,本書深入探討了GPT多模態大模型與AI Agent智能體的技術原理及其在企業中的應用落地。
全書共8章,從大模型技術原理切入,逐步深入大模型訓練及微調,還介紹了眾多國內外主流大模型。LangChain技術、RAG檢索增強生成、多模態大模型等均有深入講解。對AI Agent智能體,從定義、原理到主流框架也都進行了深入講解。在企業應用落地方面,本書提供了豐富的案例分析,如基于大模型的對話式推薦系統、多模態搜索、NL2SQL數據即席查詢、智能客服對話機器人、多模態數字人,以及多模態具身智能等。這些案例不僅展示了大模型技術的實際應用,也為讀者提供了寶貴的實踐經驗。
本書適合對大模型、多模態技術及AI Agent感興趣的讀者閱讀,也特別適合作為高等院校本科生和研究生的教材或參考書。書中內容豐富、系統,既有理論知識的深入講解,也有大量的實踐案例和代碼示例,能夠幫助學生在掌握理論知識的同時,培養實際操作能力和解決問題的能力。通過閱讀本書,讀者將能夠更好地理解大模型技術的前沿發展,并將其應用于實際工作中,推動人工智能技術的進步和創新。

【配套視頻】

清華《GPT多模態大模型與AI Agent智能體》書籍本章配套視頻【陳敬雷】
視頻特色: 前沿技術深度解析,把握行業脈搏
揭秘 DeepSeek、Sora、GPT-4 等多模態大模型的技術底層邏輯,詳解 Transformer 架構如何突破傳統神經網絡局限,實現長距離依賴捕捉與跨模態信息融合。
對比編碼預訓練(BERT)、解碼預訓練(GPT 系列)及編解碼架構(BART、T5)的技術差異,掌握大模型從 “理解” 到 “生成” 的核心邏輯。
實戰驅動,掌握大模型開發全流程
提示學習與指令微調:通過 Zero-shot、Few-shot 等案例,演示如何用提示詞激活大模型潛能,結合 LoRA 輕量化微調技術,實現廣告生成、文本摘要等場景落地(附 ChatGLM3-6B 微調實戰代碼)。
人類反饋強化學習(RLHF):拆解 PPO 算法原理,通過智譜 AI 等案例,掌握如何用人類偏好優化模型輸出,提升對話系統的安全性與實用性。
智能涌現與 AGI 前瞻,搶占技術高地
解析大模型 “智能涌現” 現象(如上下文學習、思維鏈推理),理解為何參數規模突破閾值后,模型能實現從 “量變” 到 “質變” 的能力躍升。
前瞻通用人工智能(AGI)發展趨勢,探討多模態模型(如 Sora)如何推動 AI 從 “單一任務” 向 “類人智能” 進化,提前布局未來技術賽道。

上一篇:《GPT多模態大模型與AI Agent智能體》系列一》大模型技術原理 - 大模型技術的起源、思想
下一篇:DeepSeek大模型技術系列五》DeepSeek大模型基礎設施全解析:支撐萬億參數模型的幕后英雄

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/92694.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/92694.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/92694.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

企業級安全威脅檢測與響應(EDR/XDR)架構設計

在這個網絡威脅如洪水猛獸的時代,企業的安全防護不能再像守城門的老大爺一樣只會喊"什么人?口令!"了。我們需要的是一套像FBI一樣具備全方位偵察能力的智能防護系統。 📋 文章目錄 1. 什么是EDR/XDR?別被這…

Stream流-Java

Stream流的作用&#xff1a;結合了Lambda表達式&#xff0c;簡化集合&#xff0c;數組的操作Stream流的使用步驟&#xff1a;1. 先得到一條Stream流&#xff08;流水線&#xff09;&#xff0c;并把數據放上去獲取方式方法名說明單列集合default Stream<E> stream()Colle…

Leetcode 327. 區間和的個數

1.題目基本信息 1.1.題目描述 給你一個整數數組 nums 以及兩個整數 lower 和 upper 。求數組中&#xff0c;值位于范圍 [lower, upper] &#xff08;包含 lower 和 upper&#xff09;之內的 區間和的個數 。 區間和 S(i, j) 表示在 nums 中&#xff0c;位置從 i 到 j 的元素…

MinIO 版本管理實踐指南(附完整 Go 示例)

? 前言 在構建企業級對象存儲系統時,“對象的版本管理”是一個關鍵特性。MinIO 作為一款高性能、Kubernetes 原生的 S3 兼容對象存儲系統,也支持強大的版本控制功能。 本文將通過 Go 示例代碼 + 實操講解 的形式,手把手帶你掌握 MinIO 的版本控制能力,包括開啟版本控制、…

數組toString方法及類型檢測修復方案

在 JavaScript 中&#xff0c;數組的 toString() 方法被覆蓋&#xff08;重寫&#xff09;為返回數組元素的逗號分隔字符串&#xff0c;而不是原始的 [object Array] 類型標識。以下是詳細解釋和修復方案&#xff1a;問題原因Array.prototype.toString 被覆蓋數組繼承自 Object…

mysql索引底層B+樹

B樹勝出的關鍵特性&#xff1a;矮胖樹結構&#xff1a;3-4層高度即可存儲2000萬條記錄&#xff08;假設每頁存1000條&#xff09; 葉子鏈表&#xff1a;所有數據存儲在葉子節點&#xff0c;并通過雙向鏈表連接 非葉導航&#xff1a;非葉子節點僅存儲鍵值&#xff0c;不保存數據…

AI開放課堂:釘釘MCP開發實戰

我們正處在AI技術爆發的時代&#xff0c;也處于企業數字化蓬勃發展的時代。如何利用AI技術&#xff0c;突破模型自身知識的局限&#xff0c;安全、高效地與外部世界連接和交互&#xff0c;是當前所有AI開發者在企業數字化中面臨的問題之一。 MCP&#xff08;Model Context Prot…

DigitalOcean 一鍵模型部署,新增支持百度開源大模型ERNIE 4.5 21B

使用過DigitalOcean GPU Droplet 服務器的用戶應該對我們的一鍵模型部署功能不陌生。DigitalOcean 的一鍵模型部署 (1-Click Models) 功能是 DO 為開發者和企業提供的一種便捷方式&#xff0c;用于快速部署和運行預訓練的生成式 AI 模型&#xff0c;尤其是大型語言模型 (LLM)。…

【嵌入式面試】嵌入式筆試與面試寶典(offer必來)

&#x1f48c; 所屬專欄&#xff1a;【嵌入式面試】 &#x1f600; 作??者&#xff1a;蘭舟比特 &#x1f43e; &#x1f680; 個人簡介&#xff1a;熱愛開源系統與嵌入式技術&#xff0c;專注 Linux、網絡通信、編程技巧、面試總結與軟件工具分享&#xff0c;持續輸出實用干…

企業級數據分析創新實戰:基于表格交互與智能分析的雙引擎架構

引言&#xff1a;數字化轉型中數據協同困境與系統融合挑戰 在數字化轉型實踐中&#xff0c;企業普遍面臨數據系統與業務運營的協同困境&#xff0c;主要表現為數據處理平臺與核心業務流程的架構隔離、分析成果與決策閉環的價值斷層、以及雙重數據維護帶來的資源損耗。這種系統…

openbmc 日志系統繼續分析

1.說明 1.1 總體說明 本節是繼: https://blog.csdn.net/wit_yuan/article/details/147142407?spm=1011.2415.3001.5331 后的繼續分析的文檔。 該篇內容主要目的是分析整個openbmc的日志系統。 注意解讀文檔: https://github.com/openbmc/docs/blob/master/designs/event-l…

【JIRA小白如何使用它進行bug管理】

JIRA小白如何使用它進行bug管理 提示&#xff1a;入職一般來說&#xff0c;公司會提供賬號&#xff0c;不需要部署如何提bug&#xff1a; JIRA有兩種提交方式 在執行測試用例中在bug管理項目中新建提bug建議或者注意事項&#xff1a; 標題&#xff1a;執行完A之后&#xff0c;發…

陪診小程序系統開發:開啟醫療陪護新時代

在快節奏的現代生活中&#xff0c;人們面臨著各種各樣的壓力&#xff0c;健康問題也日益凸顯。當生病就醫時&#xff0c;尤其是對于老年人、孕婦、殘障人士等特殊群體&#xff0c;獨自前往醫院往往會遇到諸多困難&#xff0c;如不熟悉醫院流程、行動不便、心理上感到孤獨無助等…

Leetcode—1035. 不相交的線【中等】

2025每日刷題&#xff08;214&#xff09; Leetcode—1035. 不相交的線最長公共子序列長度&#xff08;Longest Common Subsequence&#xff0c;LCS&#xff09; 給定兩個序列&#xff08;如字符串或數組&#xff09;&#xff0c;最長公共子序列&#xff08;LCS&#xff09;是同…

使用 Conda 工具鏈創建 UV 本地虛擬環境全記錄——基于《Python 多版本與開發環境治理架構設計》

Python 多版本環境治理理念驅動的系統架構設計&#xff1a;三維治理、四級隔離、五項自治 原則-CSDN博客 Python 多版本與開發環境治理架構設計-CSDN博客 【終極實戰】Conda/Poetry/Virtualenv/Pipenv/Hatch 多工具協同 AnacondaPyCharm&#xff1a;構建 Python 全版本棧隔離…

一文通透mamba2「力證Transformer are SSM」:從SSM、半可分矩陣、SMA、SSD到mamba2

前言 實話說&#xff0c;過去一兩月一直忙著我司兩大類項目的推進 一類是正在逐一上線基于大模型的論文翻譯、論文審稿、論文對話、論文修訂/潤色、論文idea提煉等等(截止到24年8月底&#xff0c;其中的審稿和翻譯已上線七月官網 )一類是正在抓緊做面向一個個工廠的具身智能機…

【Java基礎06】ArrayList

文章目錄1.ArrayList1.1 集合的基本使用1.2 集合的創建和成員方法1.3 練習一&#xff1a;集合的遍歷基本數據類型對應的包裝類1.4 練習二&#xff1a;使用集合存儲并遍歷學生對象1.4 練習三&#xff1a;添加用戶對象并判斷是否存在寫方法要思考的步驟1.5 練習四&#xff1a;添加…

ddos 放在多個云主機,同時運行

1. 起因&#xff0c; 目的: 我打開 grok, 被 cloudflare 攔截&#xff0c;問我是不是機器人。 這個情況&#xff0c;如果是別的小網站也就算了&#xff0c;很正常。 大公司也搞這種東西&#xff0c;要么是偷懶&#xff0c;要么是太小氣了。 一氣之下&#xff0c;我決定寫個 ddo…

lspci/setpci用法小結

目錄 1.lspci用法小結 2.lspci -t 3.setpci用法小結 1.lspci用法小結 參考博客&#xff1a;【PCIe】lspci用法小結 - 知乎 lspci是一個用來顯示系統中所有PCI總線設備或者連接到該總線上所有設備的工具 man lspci lspci(8) …

光通信從入門到精通:PDH→DWDM→OTN 的超詳細演進筆記

光通信從入門到精通&#xff1a;PDH→DWDM→OTN 的超詳細演進筆記 作者&#xff1a; 脫脫克克 日期&#xff1a;2025-07-24 關鍵詞&#xff1a;DWDM、OTN、G.709、光纖、帶寬、C-band、L-band、DSP、ROADM 摘要 本文用一條“高速公路”的比喻&#xff0c;把 40 年光傳輸技術演進…