OpenAI發布ChatGPT Agent，AI智能體迎來關鍵變革

注：此文章內容均節選自充電了么創始人，CEO兼CTO陳敬雷老師的新書《GPT多模態大模型與AI Agent智能體》（跟我一起學人工智能）【陳敬雷編著】【清華大學出版社】

清華《GPT多模態大模型與AI Agent智能體》書籍配套視頻課程【陳敬雷】

文章目錄

GPT多模態大模型與AI Agent智能體系列三十四
- OpenAI發布ChatGPT Agent，AI智能體迎來關鍵變革
- 一、ChatGPT Agent功能展示
- - （一）日常生活任務處理
  - （二）互聯網瀏覽交互
  - （三）辦公文檔處理與API調用
- 二、ChatGPT Agent基準測試表現
- - （一）人類最后考試（HLE）
  - （二）FrontierMath基準測試
  - （三）WebArena基準測試
  - （四）BrowserComp基準測試
  - （五）Spreadsheet Bench基準測試
  - （六）Internal Banking Benchmark基準測試
- 三、ChatGPT Agent安全風險及防范
- 四、ChatGPT Agent上線計劃
- - 更多技術內容
總結

GPT多模態大模型與AI Agent智能體系列三十四

OpenAI發布ChatGPT Agent，AI智能體迎來關鍵變革

2025年7月18日凌晨1點，OpenAI通過直播發布了最新模型ChatGPT Agent，將DeepResearch和Operator功能融合，打造出可深度研究和瀏覽使用的AI智能體，標志著AI從單純的語言交互邁向能執行復雜任務的新階段。

一、ChatGPT Agent功能展示

（一）日常生活任務處理

以參加朋友婚禮準備為例，研究員向ChatGPT Agent輸入詳細需求，包括婚禮網站、預訂酒店網站，并要求其尋找符合場合著裝要求的男士服裝（推薦五個方案，包含中等奢華物品且與場地和天氣相符）、在booking.com預訂提前幾天可入住的酒店并查看空房及價格、挑選500美元以下禮物，最后生成報告。收到提示詞后，ChatGPT Agent首先設置環境，通常需一兩分鐘，快時不到5秒（實際演示7秒）。準備好后會向用戶確認理解是否準確，得到“continue”指令后開始工作。執行任務時，用戶能同步看到其操作計算機屏幕過程及思維鏈。最終，它根據婚禮信息確定西裝推薦及購買渠道、提供房源信息，還給出禮物建議，并附上瀏覽結果截圖。任務完成后，用戶可通過視頻回顧執行過程。

（二）互聯網瀏覽交互

ChatGPT Agent可使用文本瀏覽器和可視化瀏覽器瀏覽互聯網。文本瀏覽器類似DeepResearch，能高效快速閱讀和搜索大量網頁；可視化瀏覽器類似Operator，可與網頁UI交互，執行拖動網頁、點擊光標、打開UI組件、填寫表單、輸入文本等操作，兩種瀏覽器互補性強。此前，Operator在閱讀超長文章時因需滾動而耗時，DeepResearch在與網頁交互元素、視覺效果交互方面較弱，而ChatGPT Agent整合二者優勢。且用戶反饋期待DeepResearch能登錄網站訪問經過身份驗證的來源，這一點Operator可以實現，同時很多Operator提示與DeepResearch提示相似，也促使了二者融合。

（三）辦公文檔處理與API調用

ChatGPT Agent擁有自己的終端運行代碼，可生成和分析PPT、Excel等文件，還能通過終端調用API，包括公共API和訪問用戶私有數據源的API（如Google Drive、Google Calendar、Github Sharepoint等），甚至調用圖像生成API為PPT生成圖像。演示中，研究員讓ChatGPT Agent從Google Drive提取評估編號并制作幻燈片，模型連接Google Drive API，搜索相關結果，讀取內容后編寫代碼，利用圖像生成模型為PPT配圖，最終生成可下載并在本地打開的PPT文檔。

二、ChatGPT Agent基準測試表現

（一）人類最后考試（HLE）

在該面向人類知識前沿的多模態基準測試中，擁有完全工具使用能力的ChatGPT Agent通過率達42%，性能相比僅有browser use和python代碼能力的DeepSesearch、o3幾乎翻了一番，而沒有工具使用能力的ChatGPT Agent和o3則墊底。這表明ChatGPT Agent在綜合知識運用和復雜任務處理上優勢明顯，其工具使用能力極大提升了應對多模態任務的水平。

（二）FrontierMath基準測試

該測試衡量高級數學推理能力，ChatGPT Agent通過率達27%，超越了擁有Python編碼能力的o4 - mini和o3 ，顯示出其在數學推理領域較強的實力，能夠處理復雜的數學問題并給出準確解答。

（三）WebArena基準測試

ChatGPT Agent表現接近人類且高于o3和4o ，說明在模擬真實網絡環境下的任務執行中，ChatGPT Agent能夠較好地理解和完成任務，與人類表現差距不斷縮小，在實際網絡應用場景中具有較高的可用性。

（四）BrowserComp基準測試

該測試衡量Agent搜索和查找信息的能力，ChatGPT Agent顯著優于o3和DeepResearch模型，證明其在信息檢索和處理方面的高效性，能夠快速準確地從互聯網海量信息中找到所需內容并進行有效利用。

（五）Spreadsheet Bench基準測試

該測試衡量創建和編輯電子表格的能力，使用LibreOffice和其它工具的ChatGPT Agent可完成30%的任務，當賦予其訪問終端中原始Excel文件權限時，性能提升至45% ，體現出其在電子表格處理方面的不斷優化和強大潛力，隨著權限和工具的完善，能夠更好地滿足用戶在該領域的復雜需求。

（六）Internal Banking Benchmark基準測試

該測試評估模型執行1到3年經驗投資銀行分析師任務的能力，如為財富500強公司構建三表財務模型，ChatGPT Agent表現顯著優于DeepResearch和o3 ，表明其在專業金融領域的任務處理上具備較強優勢，能夠勝任復雜的金融分析和建模工作。

三、ChatGPT Agent安全風險及防范

OpenAI官方強調，讓AI Agent執行網頁瀏覽存在風險。互聯網存在各種網絡攻擊、詐騙和網絡釣魚，試圖竊取信息，Agent模型也無法完全避免。例如“prompt injection”攻擊，若用戶讓智能體買書并輸入信用卡信息，智能體可能進入惡意網站并按其要求輸入信息。為防范風險，OpenAI采取多種措施：訓練模型忽略可疑網站上的可疑指令；設置多層監視器監視Agent運行，且可實時更新信息防范新攻擊。但OpenAI也指出，不可能阻止所有風險，用戶自身需意識到風險，盡量不分享高度敏感信息，合理使用接管模式。

四、ChatGPT Agent上線計劃

ChatGPT Agent將為Pro、Plus和Team用戶上線。Pro用戶每月獲400次查詢，Plus和Team用戶每月獲40次查詢。Pro版部署預計本月底完成，Plus版隨后完成，Team版爭取本月底前上線企業版和教育版。OpenAI團隊表示，雖然目前處于初期階段，但會迅速改進，期待看到其后續發展。

總結

此文章有對應的配套新書教材和視頻：

【配套新書教材】
《GPT多模態大模型與AI Agent智能體》（跟我一起學人工智能）【陳敬雷編著】【清華大學出版社】
新書特色：《GPT多模態大模型與AI Agent智能體》（跟我一起學人工智能）是一本2025年清華大學出版社出版的圖書，作者是陳敬雷，本書深入探討了GPT多模態大模型與AI Agent智能體的技術原理及其在企業中的應用落地。
全書共8章，從大模型技術原理切入，逐步深入大模型訓練及微調，還介紹了眾多國內外主流大模型。LangChain技術、RAG檢索增強生成、多模態大模型等均有深入講解。對AI Agent智能體，從定義、原理到主流框架也都進行了深入講解。在企業應用落地方面，本書提供了豐富的案例分析，如基于大模型的對話式推薦系統、多模態搜索、NL2SQL數據即席查詢、智能客服對話機器人、多模態數字人，以及多模態具身智能等。這些案例不僅展示了大模型技術的實際應用，也為讀者提供了寶貴的實踐經驗。
本書適合對大模型、多模態技術及AI Agent感興趣的讀者閱讀，也特別適合作為高等院校本科生和研究生的教材或參考書。書中內容豐富、系統，既有理論知識的深入講解，也有大量的實踐案例和代碼示例，能夠幫助學生在掌握理論知識的同時，培養實際操作能力和解決問題的能力。通過閱讀本書，讀者將能夠更好地理解大模型技術的前沿發展，并將其應用于實際工作中，推動人工智能技術的進步和創新。

【配套視頻】

清華《GPT多模態大模型與AI Agent智能體》書籍本章配套視頻【陳敬雷】
視頻特色： 前沿技術深度解析，把握行業脈搏
揭秘 DeepSeek、Sora、GPT-4 等多模態大模型的技術底層邏輯，詳解 Transformer 架構如何突破傳統神經網絡局限，實現長距離依賴捕捉與跨模態信息融合。
對比編碼預訓練（BERT）、解碼預訓練（GPT 系列）及編解碼架構（BART、T5）的技術差異，掌握大模型從 “理解” 到 “生成” 的核心邏輯。
實戰驅動，掌握大模型開發全流程
提示學習與指令微調：通過 Zero-shot、Few-shot 等案例，演示如何用提示詞激活大模型潛能，結合 LoRA 輕量化微調技術，實現廣告生成、文本摘要等場景落地（附 ChatGLM3-6B 微調實戰代碼）。
人類反饋強化學習（RLHF）：拆解 PPO 算法原理，通過智譜 AI 等案例，掌握如何用人類偏好優化模型輸出，提升對話系統的安全性與實用性。
智能涌現與 AGI 前瞻，搶占技術高地
解析大模型 “智能涌現” 現象（如上下文學習、思維鏈推理），理解為何參數規模突破閾值后，模型能實現從 “量變” 到 “質變” 的能力躍升。
前瞻通用人工智能（AGI）發展趨勢，探討多模態模型（如 Sora）如何推動 AI 從 “單一任務” 向 “類人智能” 進化，提前布局未來技術賽道。

上一篇：《GPT多模態大模型與AI Agent智能體》系列一》大模型技術原理 - 大模型技術的起源、思想
下一篇：DeepSeek大模型技術系列五》DeepSeek大模型基礎設施全解析：支撐萬億參數模型的幕后英雄