2025年的8月7日,OpenAI 正式向全球揭開了GPT-5的神秘面紗,瞬間在 AI 領域乃至整個科技圈引發了軒然大波。OpenAI對GPT-5的宣傳可謂不遺余力,將其描繪成一款具有顛覆性變革的 AI 產品,尤其在編程能力方面,給出了諸多令人矚目的描述 。
OpenAI聲稱,GPT-5堪稱他們有史以來最為強大的編碼模型。在復雜的前端生成任務中,它能夠僅憑用戶給出的一個簡單提示,便迅速創建出美觀且響應式極佳的網站、應用程序以及游戲。
我也在今天第一時間測試了一下GPT-5的具體編程能力。從結果來看,GPT-5的實際編程能力仍然不如Claude,甚至不如DeepSeek R1的最新版本。
我們首先用以下提示詞要求GPT-5, Claude和DeepSeek的網頁版生成一個html:?
“使用HTML設計一個類似Outlook的界面,可以通過cdn使用開源的css和字體,Javacript等。保持界面美觀”
以下為這三個大模型生成的網頁。
GPT-5:
Claude:
DeepSeek R1:
從功能上來講,基本上這三個大模型生成的網頁功能覆蓋都比較類似。也都是響應式布局。但是在具體呈現上來說,GPT-5就顯得簡陋得多。
實際上在我對網頁Javascript功能也試了一下就發現,GPT-5生成的網頁上,除了郵件標題可以點擊以外,其他地方幾乎都不能點擊。而Claude和DeepSeek生成的網頁,文件夾,切換郵件時候都是有內容變化的效果的。這也從側面反映了GPT-5在思考編程問題時思考不夠全面。
之后我用Cursor和Roo Code(因為Cursor中的DeepSeek不是官網版本,所以用Roo Code + DeepSeek API key的方式)測試了一下它們對復雜Agentic AI編程的支持。提示詞為:
“設計一個Agentic AI程序,可以根據用戶的自然語言輸入,針對一個或者多個文件夾下的文件,進行敏感數據處理,以便可以和隱私法規(如GDPR)相符合。要求:1,用戶可以隨時中斷Agent的工作,也可以在中斷后通過自然語言譬如“繼續以前的工作”以繼續進行;2,考慮到需要處理的文件數目和大模型Token限制,Agent應該把工作規劃為不同階段以完成所有工作;3,文件可能有不同語言,判斷文件中使用的主要語言,考慮可能需要適用哪些國家的隱私法規要求,進而根據不同的規則進行修改;4,如果用戶有使用自然語言輸入的特殊要求,應該加以滿足;5,使用Python。規劃并生成相關的REST服務,用戶通過網頁執行各種操作。”
當然這個程序代碼量比較大,具體我也就不把生成的內容貼出來了。但是結果仍然是Claude和DeepSeek優于GPT-5。大家也可以自己試一下。
GPT, Gemini和Grok都是很善于宣傳的,每次新模型出來都宣稱自己是最強的。但是實際上大家在編程時還是繼續用Claude(國內就是各種基于DeepSeek的AI)。甚至你在編碼時會發現,Claude Sonnet就已經足夠打敗它們了,都不需要使用Claude Opus。這就是現在大模型引擎的魔幻現實。