北京時間 8 月 8 日凌晨,OpenAI 的 GPT-5 在萬眾期待中登場。距離 GPT-4 發布已過去兩年半,然而這場發布會卻未重現 ChatGPT 初現時的驚艷,也沒有 GPT-4 的跨越式升級,更無 o1 發布時的震撼。1 小時 20 分鐘的發布會,充斥著不驚艷的測試數據、與競品難分高下的用例展示,甚至還出現了被網友抓包的 PPT 錯誤,種種跡象都在暗示著 AI 大模型的發展或許已進入瓶頸期。
版本與能力:小步提升,優勢微弱
GPT-5 共推出 4 個版本,包括 GPT-5、GPT-5 mini、GPT-5 nano 以及僅對企業版和每月 200 美元高級版開放的 GPT-5 Pro 模式。對普通用戶而言,默認的統一模型 GPT-5 由多個模型組成,依靠實時路由器針對特定查詢選擇合適模型。
從各項測試數據來看,GPT-5 在智力水平上雖高于 o3,但整體差距不大。在與 Gemini 2.5 Pro、Grok、Claude 4.1 Opus 等競品的對比中,大多數 “智力” 能力僅稍勝一籌,部分能力甚至并非最優,只能說以微小幅度領先。根據 Artificial Analysis 的排名,GPT-5 目前位列第一,可綜合分僅比 o3 高兩分、比 Grok 4 僅高一分。
在號稱 AGI 終極測試的 Arc Prize 中,GPT-5 更是遠遠落后于 Grok 4。不過,GPT-5 在計算效率上有所提高,解決復雜問題時使用的 token 數量減少了 50%-80%,能以更少的 token 消耗獲得超過 o3 的效果,效率也領先于 Anthropic 的模型。
編程與工具:優化體驗,優勢有限
在編程領域,GPT-5 在 thinking(思考)模式下較前代有明顯提升,但與 Anthropi