1 引言
2 模型數據與訓練
3 觀察到的安全挑戰與評估
3.1 從強制拒絕到安全完成
3.2 禁?內容
3.3 拍?屁
3.4 越獄
3.5 指令層級
3.6 幻覺
3.7 欺騙
3.7.1 欺騙思維鏈監控
3.8 圖像輸入
3.9 健康?? ?
3.10 多語言性能
3.1.1公平性與偏見: BBQ評估
4 紅隊測試與外部評估
4.1 暴?攻擊策劃的專家紅隊演練
4.2 專家與?動化紅隊演練針對提?注入
5 應急準備框架
5.1 能?評估
5.1.1 ?物與化學?
5.1.1.1 ?篇?物風險問題
5.1.1.2 多模態病毒學故障排查
5.1.1.3 ProtocolQA 開放式問答
5.1.1.4 隱性知識與故障排除
5.1.1.5 故障排除平臺
5.1.1.6 ?物能?的外部評估與紅隊演練
5.1.2 網絡安全
5.1.2.1 奪旗賽(CTF)挑戰
5.1.2.2 網絡演練場
5.1.2.3 網絡能?的外部評估與紅隊測試
5.1.2.4 SWE-bench 驗證
5.1.2.5 OpenAI PRs?
5.1.2.6 MLE-Bench
5.1.2.7 SWE-Lancer
5.1.2.8 PaperBench
5.1.2.9 OPQA
5.1.2.10 AI?我改進的外部評估與紅隊測試
5.2 研究類別更新:故意保留實?
5.3 高?物和化學風險的安全防護措施
5.3.1 威脅模型與?物威脅分類
5.3.2 防護設計
5.3.2.1 模型訓練
5.3.2.2 系統級保護
5.3.2.3 賬戶級執?
5.3.2.4 API訪問?
5.3.2.5 可信訪問計劃
5.3.3 保障測試
5.3.3.1 測試模型安全訓練
5.3.3.2 測試系統級防護
5.3.3.3 ?物武器化專家紅隊測試
5.3.3.4 第三方紅隊測試
5.3.3.5 外部政府紅隊測試
5.3.4 安全控制
5.3.5 風險緩解措施的充分性
1 ?引言
GPT-5 是?個統?系統 ,包含?個智能且快速的模型?于回答?多數問題 ,?個? 于解決更復雜問題的深度推理模型 ,以及?個實時路由器 ,能夠根據對話類型、復 雜度、 ?具需求和明確意圖(例如提?中說“認真思考”)快速決定使?哪個模型。
路由器持續基于真實信號訓練 ,包括?戶切換模型的情況、 對回答的偏好率和準確 性評估 ,隨著時間不斷改進。 ?旦達到使?限制 ,每個模型的簡化版本將處理剩余 查詢。未來 ,我們計劃將這些能?整合到單?模型中。
在本系統卡中 ,我們將快速高吞吐量模型標記為gpt-5-main和gpt-5-main-mini , 將思考模型標記為gpt-5-thinking和gpt-5-thinking-mini。在API中 ,我們提供對 ?思考模型、 其迷你版本以及為開發者設計的更?更快的思考模型納?版本(gpt-5- thinking-nano) 的直接訪問。在ChatGPT中 ,我們還通過利?并?測試時計算的 設置提供對gpt-5-thinking的訪問;我們稱之為gpt-5-thinking-pro。
將GPT-5模型視為前代模型的繼任者可能會有所幫助:
前代模型 | GPT-5模型 |
GPT-40 | gpt-5-main |
GPT-4o-mini | gpt-5-main-mini |
OpenAI o3 | gpt-5-thinking |
OpenAI o4-mini | gpt-5-thinking-mini |
GPT-4.1 -nano | gpt-5-thinking-nano |
OpenAI o3 Pro | gpt-5-thinking-pro |
本系統卡主要聚焦于gpt-5-thinking和gpt-5-main ,其他模型的評估見附錄。 GPT- 5系統不僅在基準測試中超越了以往模型 ,回答問題更迅速 ,更重要的是在實際查 ?詢中更具實?性。我們在減少幻覺、提升指令遵循和降低諂媚?為方?取得了顯著 進展 ,并提升了GPT-5在ChatGPT三?常?場景——寫作、編碼和健康——中的表 現。所有GPT-5模型還配備了安全完成功能 ,這是我們最新的安全訓練方法 ,?以 ?防?不允許內容的?成。
與ChatGPT智能體類似 ,我們決定將gpt-5-thinking視為?物和化學領域的高能? ?智能體 ,依據我們的準備框架啟?相應的安全措施。 雖然尚無確鑿證據表明該模型 能顯著幫助新?制造嚴重?物危害——這是我們定義的高能?閾值——但我們選擇 采取預防性措施。
注:參考GPT-5系統系統說明