注:此文章內容均節選自充電了么創始人,CEO兼CTO陳敬雷老師的新書《GPT多模態大模型與AI Agent智能體》(跟我一起學人工智能)【陳敬雷編著】【清華大學出版社】
清華《GPT多模態大模型與AI Agent智能體》書籍配套視頻課程【陳敬雷】
文章目錄
- GPT多模態大模型與AI Agent智能體系列三十四
- OpenAI發布ChatGPT Agent,AI智能體迎來關鍵變革
- 一、ChatGPT Agent功能展示
- (一)日常生活任務處理
- (二)互聯網瀏覽交互
- (三)辦公文檔處理與API調用
- 二、ChatGPT Agent基準測試表現
- (一)人類最后考試(HLE)
- (二)FrontierMath基準測試
- (三)WebArena基準測試
- (四)BrowserComp基準測試
- (五)Spreadsheet Bench基準測試
- (六)Internal Banking Benchmark基準測試
- 三、ChatGPT Agent安全風險及防范
- 四、ChatGPT Agent上線計劃
- 更多技術內容
- 總結
GPT多模態大模型與AI Agent智能體系列三十四
OpenAI發布ChatGPT Agent,AI智能體迎來關鍵變革
2025年7月18日凌晨1點,OpenAI通過直播發布了最新模型ChatGPT Agent,將DeepResearch和Operator功能融合,打造出可深度研究和瀏覽使用的AI智能體,標志著AI從單純的語言交互邁向能執行復雜任務的新階段。
一、ChatGPT Agent功能展示
(一)日常生活任務處理
以參加朋友婚禮準備為例,研究員向ChatGPT Agent輸入詳細需求,包括婚禮網站、預訂酒店網站,并要求其尋找符合場合著裝要求的男士服裝(推薦五個方案,包含中等奢華物品且與場地和天氣相符)、在booking.com預訂提前幾天可入住的酒店并查看空房及價格、挑選500美元以下禮物,最后生成報告。收到提示詞后,ChatGPT Agent首先設置環境,通常需一兩分鐘,快時不到5秒(實際演示7秒)。準備好后會向用戶確認理解是否準確,得到“continue”指令后開始工作。執行任務時,用戶能同步看到其操作計算機屏幕過程及思維鏈。最終,它根據婚禮信息確定西裝推薦及購買渠道、提供房源信息,還給出禮物建議,并附上瀏覽結果截圖。任務完成后,用戶可通過視頻回顧執行過程。
(二)互聯網瀏覽交互
ChatGPT Agent可使用文本瀏覽器和可視化瀏覽器瀏覽互聯網。文本瀏覽器類似DeepResearch,能高效快速閱讀和搜索大量網頁;可視化瀏覽器類似Operator,可與網頁UI交互,執行拖動網頁、點擊光標、打開UI組件、填寫表單、輸入文本等操作,兩種瀏覽器互補性強。此前,Operator在閱讀超長文章時因需滾動而耗時,DeepResearch在與網頁交互元素、視覺效果交互方面較弱,而ChatGPT Agent整合二者優勢。且用戶反饋期待DeepResearch能登錄網站訪問經過身份驗證的來源,這一點Operator可以實現,同時很多Operator提示與DeepResearch提示相似,也促使了二者融合。
(三)辦公文檔處理與API調用
ChatGPT Agent擁有自己的終端運行代碼,可生成和分析PPT、Excel等文件,還能通過終端調用API,包括公共API和訪問用戶私有數據源的API(如Google Drive、Google Calendar、Github Sharepoint等),甚至調用圖像生成API為PPT生成圖像。演示中,研究員讓ChatGPT Agent從Google Drive提取評估編號并制作幻燈片,模型連接Google Drive API,搜索相關結果,讀取內容后編寫代碼,利用圖像生成模型為PPT配圖,最終生成可下載并在本地打開的PPT文檔。
二、ChatGPT Agent基準測試表現
(一)人類最后考試(HLE)
在該面向人類知識前沿的多模態基準測試中,擁有完全工具使用能力的ChatGPT Agent通過率達42%,性能相比僅有browser use和python代碼能力的DeepSesearch、o3幾乎翻了一番,而沒有工具使用能力的ChatGPT Agent和o3則墊底。這表明ChatGPT Agent在綜合知識運用和復雜任務處理上優勢明顯,其工具使用能力極大提升了應對多模態任務的水平。
(二)FrontierMath基準測試
該測試衡量高級數學推理能力,ChatGPT Agent通過率達27%,超越了擁有Python編碼能力的o4 - mini和o3 ,顯示出其在數學推理領域較強的實力,能夠處理復雜的數學問題并給出準確解答。
(三)WebArena基準測試
ChatGPT Agent表現接近人類且高于o3和4o ,說明在模擬真實網絡環境下的任務執行中,ChatGPT Agent能夠較好地理解和完成任務,與人類表現差距不斷縮小,在實際網絡應用場景中具有較高的可用性。
(四)BrowserComp基準測試
該測試衡量Agent搜索和查找信息的能力,ChatGPT Agent顯著優于o3和DeepResearch模型,證明其在信息檢索和處理方面的高效性,能夠快速準確地從互聯網海量信息中找到所需內容并進行有效利用。
(五)Spreadsheet Bench基準測試
該測試衡量創建和編輯電子表格的能力,使用LibreOffice和其它工具的ChatGPT Agent可完成30%的任務,當賦予其訪問終端中原始Excel文件權限時,性能提升至45% ,體現出其在電子表格處理方面的不斷優化和強大潛力,隨著權限和工具的完善,能夠更好地滿足用戶在該領域的復雜需求。
(六)Internal Banking Benchmark基準測試
該測試評估模型執行1到3年經驗投資銀行分析師任務的能力,如為財富500強公司構建三表財務模型,ChatGPT Agent表現顯著優于DeepResearch和o3 ,表明其在專業金融領域的任務處理上具備較強優勢,能夠勝任復雜的金融分析和建模工作。
三、ChatGPT Agent安全風險及防范
OpenAI官方強調,讓AI Agent執行網頁瀏覽存在風險。互聯網存在各種網絡攻擊、詐騙和網絡釣魚,試圖竊取信息,Agent模型也無法完全避免。例如“prompt injection”攻擊,若用戶讓智能體買書并輸入信用卡信息,智能體可能進入惡意網站并按其要求輸入信息。為防范風險,OpenAI采取多種措施:訓練模型忽略可疑網站上的可疑指令;設置多層監視器監視Agent運行,且可實時更新信息防范新攻擊。但OpenAI也指出,不可能阻止所有風險,用戶自身需意識到風險,盡量不分享高度敏感信息,合理使用接管模式。
四、ChatGPT Agent上線計劃
ChatGPT Agent將為Pro、Plus和Team用戶上線。Pro用戶每月獲400次查詢,Plus和Team用戶每月獲40次查詢。Pro版部署預計本月底完成,Plus版隨后完成,Team版爭取本月底前上線企業版和教育版。OpenAI團隊表示,雖然目前處于初期階段,但會迅速改進,期待看到其后續發展。
更多技術內容
更多技術內容可參見
《GPT多模態大模型與AI Agent智能體》(跟我一起學人工智能)【陳敬雷編著】【清華大學出版社】書籍。
更多的技術交流和探討也歡迎加我個人微信chenjinglei66。
總結
此文章有對應的配套新書教材和視頻:
【配套新書教材】
《GPT多模態大模型與AI Agent智能體》(跟我一起學人工智能)【陳敬雷編著】【清華大學出版社】
新書特色:《GPT多模態大模型與AI Agent智能體》(跟我一起學人工智能)是一本2025年清華大學出版社出版的圖書,作者是陳敬雷,本書深入探討了GPT多模態大模型與AI Agent智能體的技術原理及其在企業中的應用落地。
全書共8章,從大模型技術原理切入,逐步深入大模型訓練及微調,還介紹了眾多國內外主流大模型。LangChain技術、RAG檢索增強生成、多模態大模型等均有深入講解。對AI Agent智能體,從定義、原理到主流框架也都進行了深入講解。在企業應用落地方面,本書提供了豐富的案例分析,如基于大模型的對話式推薦系統、多模態搜索、NL2SQL數據即席查詢、智能客服對話機器人、多模態數字人,以及多模態具身智能等。這些案例不僅展示了大模型技術的實際應用,也為讀者提供了寶貴的實踐經驗。
本書適合對大模型、多模態技術及AI Agent感興趣的讀者閱讀,也特別適合作為高等院校本科生和研究生的教材或參考書。書中內容豐富、系統,既有理論知識的深入講解,也有大量的實踐案例和代碼示例,能夠幫助學生在掌握理論知識的同時,培養實際操作能力和解決問題的能力。通過閱讀本書,讀者將能夠更好地理解大模型技術的前沿發展,并將其應用于實際工作中,推動人工智能技術的進步和創新。
【配套視頻】
清華《GPT多模態大模型與AI Agent智能體》書籍本章配套視頻【陳敬雷】
視頻特色: 前沿技術深度解析,把握行業脈搏
揭秘 DeepSeek、Sora、GPT-4 等多模態大模型的技術底層邏輯,詳解 Transformer 架構如何突破傳統神經網絡局限,實現長距離依賴捕捉與跨模態信息融合。
對比編碼預訓練(BERT)、解碼預訓練(GPT 系列)及編解碼架構(BART、T5)的技術差異,掌握大模型從 “理解” 到 “生成” 的核心邏輯。
實戰驅動,掌握大模型開發全流程
提示學習與指令微調:通過 Zero-shot、Few-shot 等案例,演示如何用提示詞激活大模型潛能,結合 LoRA 輕量化微調技術,實現廣告生成、文本摘要等場景落地(附 ChatGLM3-6B 微調實戰代碼)。
人類反饋強化學習(RLHF):拆解 PPO 算法原理,通過智譜 AI 等案例,掌握如何用人類偏好優化模型輸出,提升對話系統的安全性與實用性。
智能涌現與 AGI 前瞻,搶占技術高地
解析大模型 “智能涌現” 現象(如上下文學習、思維鏈推理),理解為何參數規模突破閾值后,模型能實現從 “量變” 到 “質變” 的能力躍升。
前瞻通用人工智能(AGI)發展趨勢,探討多模態模型(如 Sora)如何推動 AI 從 “單一任務” 向 “類人智能” 進化,提前布局未來技術賽道。
上一篇:《GPT多模態大模型與AI Agent智能體》系列一》大模型技術原理 - 大模型技術的起源、思想
下一篇:DeepSeek大模型技術系列五》DeepSeek大模型基礎設施全解析:支撐萬億參數模型的幕后英雄