LLMs之Agent:ChatGPT Agent發布—統一代理系統將研究與行動無縫對接,開啟智能助理新時代
目錄
OpenAI重磅發布ChatGPT Agent—統一代理系統將研究與行動無縫對接,開啟智能助理新時代
第一部分:Operator 和深度研究的自然演進
第二部分:一個與您協作、為您工作的智能代理
第三部分:拓展真實世界的實用性
第四部分:使用方式
第五部分:新能力帶來的新風險
第六部分:最強生物風險安全防護
第七部分:可用性
第八部分:局限性與未來展望
OpenAI重磅發布ChatGPT Agent—統一代理系統將研究與行動無縫對接,開啟智能助理新時代
地址 | 地址:https://openai.com/index/introducing-chatgpt-agent/ |
時間 | 2025年7月17日 |
作者 | OpenAI |
第一部分:Operator 和深度研究的自然演進
OpenAI 將此前獨立的 Operator(可在網頁上進行點擊、滾動、輸入等交互操作)與深度研究模型(擅長信息綜合與生成長文報告)合并,形成一個統一的代理系統,使模型既能深入分析信息,又能主動在網頁上執行操作,解決了兩者各自的局限性。
核心要點
>> 互補優勢融合:Operator 擅長網頁交互,而深度研究擅長信息匯總;二者合并后,模型能夠同時完成訪問信息和深度分析的全過程。
>> 主動式任務執行:新系統不再僅僅生成文本,而是能夠“思考并行動”,根據用戶指令主動在虛擬瀏覽器中執行一系列操作。
>> 無縫切換模式:用戶可在同一對話中,從簡單對話自由過渡到要求模型執行具體操作,流程自然流暢。
經驗與技巧
>> 在實際應用時,可先讓模型簡單瀏覽網頁(文本模式),如需下載文件或登錄,切換至可視化瀏覽器并授權“接管”模式。
>> 對于需要深度報告的任務,明確告知模型所需分析深度與格式,充分利用其深度研究能力。
第二部分:一個與您協作、為您工作的智能代理
ChatGPT Agent 提供了一套多樣化工具,包括可視化瀏覽器、文本瀏覽器、終端和 API 連接器,可根據任務需求靈活選擇最優執行路徑,并能連接 Gmail、GitHub 等應用,實現與現有工作流的無縫集成。
核心要點
>> 多元化工具箱:可視化瀏覽器用于處理以人類為設計對象的網站,文本瀏覽器便于大規模文本檢索與分析,終端可運行代碼,API 連接器可訪問日歷、收件箱等私有數據。
>> 虛擬計算機環境:所有操作均在獨立的虛擬機中進行,保持任務上下文一致,無需用戶來回切換環境。
>> 實時協作與中斷可控:用戶可隨時中斷、澄清指令或接管瀏覽器,模型會保留已有進度并根據新指示繼續執行。
經驗與技巧
>> 在需要處理敏感數據時,先在瀏覽器中“接管”登錄,確保 API 連接器僅用于讀取權限而不開放過度控制。
>> 面對多步驟任務,可將每一步拆分,引導模型先規劃再執行,以降低因一次性復雜指令帶來的錯誤風險。
第三部分:拓展真實世界的實用性
Agent 能自動執行工作場景中的重復性任務(如將儀表盤轉換為可編輯的演示文稿、更新財務表格)以及個人場景中的生活規劃(如旅行行程、晚宴規劃、預約安排),大幅提升效率。
核心要點
>> 職場自動化:準備演示文稿、整理會議日程、生成財務模型、構建競爭分析報告等,模型輸出可直接編輯。
>> 個人助理:規劃和預訂旅行、菜品采購與烹飪計劃、專家預約等一應俱全。
>>?SOTA 性能:在 Humanity’s Last Exam(41.6 pass@1)和 FrontierMath(27.4% 正確率)、內部知識工作基準、DSBench、SpreadsheetBench(45.5%)等評測中多項領先。
經驗與技巧
>> 針對專業任務,可參考Benchmark的示例指令,確保模型在關鍵步驟(如數據下載、圖表生成)中采用正確工具。
>> 在對比多種方案時,利用并行多次嘗試(parallel rollout)提高成功率,并通過自信度指標選出最佳結果。
第四部分:使用方式
用戶可在對話界面的工具下拉菜單中,隨時切換至“agent mode”,描述所需任務并監控模型的每一步操作,還能設置定期自動執行(如每周報告)。
使用地址:https://chatgpt.com/?openaicom-did=bdc39a56-270f-4ce0-9f6c-1736d412fe83&openaicom_referred=true
核心要點
>> 一鍵啟用與描述:選擇“agent mode”后,用自然語言描述任務要求。
>> 操作可視化:執行過程中,屏幕上實時展示模型執行步驟,可中途插入指令或接管操作。
>> 任務調度:支持定期任務,如每周自動生成并發送報告。
經驗與技巧
>> 在首次使用時,可先讓模型執行一遍示例任務,熟悉“屏幕敘述”流程與中斷機制。
>> 對于周期性強的工作,提前配置好模板(例如 PowerPoint、電子表格),并設置自動調度,最大化節省操作時間。
第五部分:新能力帶來的新風險
ChatGPT Agent 可直接在網頁上執行操作并訪問用戶數據,雖然配備了多層次安全控制,但整體風險相較于僅生成內容的模型有所提升,需要用戶在使用時謹慎衡量。
核心要點
>> 提示注入風險:惡意頁面可通過隱藏提示操控模型行為,可能導致敏感數據泄露或誤操作。
>> 誤操作風險:在執行真實交易或發送電子郵件等關鍵操作前,模型會主動請求用戶確認;但用戶仍需保持警惕。
>> 數據隱私控制:提供一鍵刪除瀏覽數據與退出所有會話的功能,且“接管模式”下模型不存儲用戶輸入(如密碼)。
經驗與技巧
>> 勿在未審查過的網址或可疑網頁上啟用 Agent;對于高風險操作,務必手動確認所有請求。
>> 定期清理瀏覽數據,并僅在必要時啟用連接器,遵循最小權限原則。
第六部分:最強生物風險安全防護
鑒于模型具備執行命令、運行代碼等能力,OpenAI 將 Agent 定為“高生物與化學能力”級別,部署了最全面的生物安全防護措施,并與外部專家合作持續強化安全評估與監測。
核心要點
>> 威脅建模與雙重拒絕訓練:對潛在雙用途生物技術攻擊場景進行全面建模與訓練。
>> 實時分類與監控:持續監測生成內容,防止雙用途信息泄露。
>> 生態協作:與政府、學術機構和 NGO 合作舉辦研討會,確保全球范圍的生物安全防護。
經驗與技巧
>> 在涉及生物或化學敏感話題時,傾向使用更嚴格的“深度研究”模式,以獲得更詳細的風險評估與安全建議。
第七部分:可用性
ChatGPT Agent 自 2025 年 7 月 17 日起面向 Pro、Plus 和 Team 用戶逐步開放,Pro 用戶當日可用,每月配額 400 次,Plus/Team 用戶每月 40 次;Enterprise、教育版將于數周內上線,歐洲地區正在適配中。
核心要點
>> 分層配額:Pro:400 消息/月;Plus/Team:40 消息/月,可額外購買。
>> 區域差異:歐洲經濟區與瑞士用戶暫未開放,需要等待后續迭代。
>> Operator 研究版日落:深度研究功能集成至 Agent,下線前可繼續通過下拉菜單訪問。
經驗與技巧
>> Pro 用戶可根據需求靈活分配配額,團隊可統一購買信用點以滿足高頻使用場景。
第八部分:局限性與未來展望
當前版本仍處于早期階段,幻燈片生成功能為 Beta,格式美觀度與細節打磨尚需改進;未來將持續增強模型效率、深度與多樣性,優化用戶監督體驗。
核心要點
>> 幻燈片功能:目前可生成基本結構,可編輯性強,但導出與預覽偶有差異。
>> 表格編輯:已支持上傳現有電子表格,但幻燈片模板導入功能尚未上線。
>> 持續迭代:下一個版本將重點提升輸出精度、格式優化與監督需求平衡。
經驗與技巧
>> 對于正式演示,目前建議先讓 Agent 生成初稿,再由人工優化排版與視覺元素;
>> 密切關注后續更新公告,及時體驗新功能與改進。