GPT-5系列文章2——新功能、測試與性能基準全解析

引言

2025年8月,OpenAI正式發布了其新一代旗艦模型GPT-5。與業界此前期待的AGI(人工通用智能)突破不同,GPT-5更像是OpenAI對現有技術的一次深度整合與用戶體驗優化。本文將全面解析GPT-5的新特性、實際測試表現以及官方發布的基準數據,幫助開發者與普通用戶了解這一最新AI模型的真實能力與應用場景。

什么是GPT-5?

GPT-5是OpenAI推出的新一代旗艦模型,它完全取代了GPT-4時代的各種變體模型。與此前用戶需要在GPT-4o、GPT-4o-mini、o3等不同版本間手動選擇不同,GPT-5采用了智能路由機制,系統會根據任務類型自動決定使用快速響應還是深度推理模式。

模型的核心創新在于其統一架構設計:

  • 自動路由:根據輸入提示實時決定響應策略
  • 統一體驗:單一模型名稱,一致的行為表現
  • 可選模式:仍保留GPT-5 Thinking(深度思考)和GPT-5 Pro(專業研究)等特殊模式

gpt-5 model picker

GPT-5的新功能

用戶體驗優化

  1. 界面個性化

    • 自定義聊天界面顏色主題

    how to change the chat color in chatgpt

    • 預設個性風格選擇(支持型、簡潔專業型、輕微諷刺型等)
      在這里插入圖片描述

    • 個性風格在整個對話中保持穩定

  2. 生產力整合

    • Gmail和Google日歷深度集成(僅限付費用戶)

    how to connect gmail and google calendar in chatgpt

    • 自動日程管理功能
    • 郵件草擬與回復建議
  3. 安全改進

    • 采用"安全完成"機制替代簡單拒絕
    • 提供最大限度的有用信息同時說明限制
    • 減少阿諛奉承式的回答

開發者專項功能

# 示例:使用reasoning_effort參數控制推理深度
response = openai.ChatCompletion.create(model="gpt-5",messages=[{"role": "user", "content": "解釋量子糾纏現象"}],reasoning_effort="high",  # 可選:minimal/medium/highverbosity="medium"       # 控制回答長度
)
  1. 精細控制

    • reasoning_effort參數控制推理深度
    • verbosity參數調整回答長度
  2. 工具調用改進

    • 支持純文本工具調用(替代JSON)
    • 自定義工具格式約束(正則/完整語法)
  3. 長時任務支持

    • 顯著提升多步驟代理任務能力
    • 支持數十個工具調用的串聯/并行

詳細信息可以參考這篇文章:《ChatGpt 5系列文章1——編碼與智能體》

測試GPT-5的實際表現

數學能力測試

基礎算術

  • 9.11 - 9.9 = 0.21 (即時正確解答)
  • 采用思維鏈推理(內部將9.9重寫為10-0.1)

復雜問題

使用0-9所有數字各一次組成x+y=z的三個數字
  • 30秒思考后給出兩個正確答案
  • 內部使用"快速程序"解決排列問題

img

長上下文多模態測試

歐盟委員會AI報告分析(167頁)

  • Pro賬戶(128K tokens)仍出現明顯問題
  • 免費賬戶(8K tokens)完全無法處理
  • 識別信息圖表任務表現不佳

測試結果表明,盡管GPT-5在官方基準測試中長上下文表現有所提升,但在實際復雜文檔處理中仍存在顯著局限。

img

GPT-5基準測試數據

編碼性能

測試項目GPT-5得分GPT-4.1得分提升幅度
SWE-bench Verified74.9%54.6%+37%
Aider Polyglot88%81%+8.6%

效率提升:

  • 高推理任務輸出token減少22%
  • 工具調用減少45%

gpt-5 benchmarks on swe-bench

數學與科學推理

  1. 競賽數學

    • AIME 2025: 94.6%(無工具)
    • HMMT: 93.3%(無工具)
  2. 前沿數學

    • FrontierMath: 26.3%(使用Python工具)
  3. 博士級科學

    • GPQA Diamond: 87.3%(有工具)

gpt-5 aime 2025 benchmark

多模態推理

  1. 視覺推理

    • MMMU(大學級): 84.2%
    • MMMU-Pro(研究生級): 78.4%
  2. 視頻理解

    • VideoMMMU(256幀): 84.6%
  3. 專業領域

    • CharXiv Reasoning: 81.1%
    • ERQA空間推理: 65.7%

極限測試:Humanity’s Last Exam

這個包含2,500個博士級問題的測試集結果顯示:

  • GPT-5無工具: 24.8%
  • GPT-5 Pro: 42.0%
  • Grok 4 Heavy: 50.7%

表明在多代理協作方面,xAI的Grok 4架構仍保持領先。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/93235.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/93235.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/93235.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

利用cursor+MCP實現瀏覽器自動化釋放雙手

小伙伴們,我們今天利用cursorMCP實現瀏覽器自動化,釋放雙手,工作效率嘎嘎提升!前期準備:安裝node.js網址:https://nodejs.org/zh-cn下載下來安裝即可。 下載browser-tools-mcp擴展程序:下載擴展…

指針/邊界索引混淆梳理

在處理數組/鏈表等數據結構時,時常混淆長度和指針序號。處理技巧:使用0-base索引。則區間長度 rightIndex - LeftIndex 1總長度 lastIndex - firstIndex 1鏈表創建一個dummy節點,添加到head前,則可認為從索引0開始。末尾指針判…

LeetCode 刷題【43. 字符串相乘】

43. 字符串相乘 自己做 解1:矩陣計數 class Solution { public:string multiply(string num1, string num2) {int len1 num1.size();int len2 num2.size();if (num1[0] 0 || num2[0] 0) //結果為0的情況return "0";//存儲計算過程的矩陣vector…

NLP數據增強方法及實現-A

目錄 詞替換 主要參考:paddlenlp/data_aug模塊 詞替換數據增強策略也即將句子中的詞隨機替換為其他單詞進行數據增強,這里我們將介紹如何使用paddlenlp.dataaug.WordSubstitute進行詞級別替換的數據增強。 WordSubstitute 參數介紹:aug_ty…

EhViewer安卓ios全版本類下載安裝工具的完整路徑解析

開發一款類似EhViewer的下載安裝工具(集下載管理、應用部署等功能于一體),需要經歷從需求錨定到落地發布的系統性流程。以下從需求拆解到技術落地的全維度指南,將幫你理清開發脈絡,避開常見陷阱。安裝 GitHub - huangy…

MySQL 主鍵詳解:作用與使用方法

在 MySQL 數據庫中,主鍵(Primary Key) 是表結構設計中最重要的約束之一。它不僅是數據唯一性的保障,也是多表關聯、查詢優化的核心工具。本文將從 主鍵的作用 和 主鍵的用法 兩個方面進行講解,并配合代碼示例幫助理解一…

lib.dom.d.ts

lib.dom.d.ts 是一個 TypeScript 類型聲明文件,它是 TypeScript 標準庫的一部分,用于定義瀏覽器 DOM(文檔對象模型)相關的類型和接口。這個文件為開發者提供了瀏覽器中所有內置的 DOM 類型的定義,包括 localStorage、d…

Spring 工具類:StopWatch

StopWatch 是 Spring 框架提供的一個簡單而強大的計時工具類,用于測量代碼塊的執行時間。它特別適合在開發階段進行性能分析、調試和優化。 基本使用方法 // 創建 StopWatch 實例(可指定 ID) StopWatch stopWatch new StopWatch("性能分…

解決 VSCode 運行 Python 時 ModuleNotFoundError: No module named ‘open_webui‘ 問題

目錄 1. 問題原因分析 2. 解決思路 3. 解決步驟 3.1 打開或創建 .vscode/launch.json 3.2 添加調試配置 3.3 配置說明 3.4 運行測試 4. 總結 在使用 VSCode 調試 Python 項目時,我們經常會遇到類似下面的錯誤: Exception has occurred: ModuleN…

Python基礎-數據結構

數據結構 Python提供了四種主要的內置數據結構:列表(List)、元組(Tuple)、字典(Dictionary)和集合(Set)。每種數據結構都有其特定的用途和特性。 Python數據結構概覽&…

NLP學習之Transformer(1)

初識 Transformer (1) 1.簡介 1.1主要特點: self-attention: 自注意力機制,Transformer的核心是自注意力機制,它允許模型在處理某個位置的輸入時,能夠直接與其他位置的輸入交互,而不…

C語言筆記6:C高級 part1

1.gcc 編譯器 編譯流程 預處理-》編譯》匯編》鏈接》 E 預處理的命令 S 編譯匯編代碼 -c匯編階段命令 -o 輸出對應的文件GDB調試工具2.作用域存儲分類// C高級部分知識多, 加上這周 我學的知識量有點爆炸。家里又有事情,這周末要回老家 爭取下周補齊吧。…

A12預裝app

在A12上預裝應用,出現了一個異常。在此記錄問題描述:在A12上預裝應用按照A13的預裝方案報錯,mk文件如下:LOCAL_PATH : $(call my-dir) include $(CLEAR_VARS) LOCAL_MODULE_TAGS : optional LOCAL_MODULE : Tideen_PTT LOCAL_MODU…

termios 線程 poll epoll進化 二叉AVL紅黑樹

struct termios tio 是什么 #include <stdio.h> #include <stdlib.h> #include <string.h> #include <unistd.h> #include <fcntl.h> #include <termios.h>#define SERIAL_PORT "/dev/ttyS0" #define BUF_SIZE 256int main(v…

C++設計模式:類間關系

類封裝了數據和行為&#xff0c;是面向對象的重要組成部分&#xff0c;它是具有相同屬性、操作、關系的對象集合的總稱。在系統中&#xff0c;每個類都具有一定的職責&#xff0c;職責指的是類要完成什么樣子的功能&#xff0c;要承擔什么樣子的義務。一個類可以有多種職責&…

MSYS2+CMake配置C/C++開發環境

目錄一、MSYS2是什么1.1 核心架構與組件??1.1.1 背景介紹1.1.1.1 Cygwin1.1.1.2 MinGW和Mingw-w641.1.1.3MSYS和MSYS21.1.2 技術基礎??1.1.3 多環境支持??1.2 核心功能??1.2.1 類Unix開發環境??1.2.2 開發工具鏈??1.2.3 軟件倉庫與包管理??二、安裝和配置2.1 配置…

Vue 3 + TypeScript:package.json 示例 / 詳細注釋說明

一、示例 / 詳細注釋說明 {// 項目基礎信息"name": "vite-project", // 項目名稱&#xff08;建議使用 kebab-case 格式&#xff09;"private": true, // 標記為私有項目&#xff0c;避免意外發布到 npm"version": "1.0.…

SpatialVLM和SpatialRGPT論文解讀

目錄 一、SpatialVLM 1、概述 2、方法 3、實驗 二、SpatialRGPT 1、概述 2、方法 3、訓練方法 4、實驗 一、SpatialVLM 1、概述 SpatialVLM是最早的依賴傳統VLMs實現3D空間推理能力的論文&#xff0c;在24年1月由DeepMind團隊提出&#xff0c;當時對比的還是GPT4v&am…

理解GPU架構:基礎與關鍵概念

GPU 基礎概述&#xff1a;從圖形渲染到 AI 與高性能計算的核心 Graphics Processing Units&#xff08;GPU&#xff09;已從專用的圖形渲染硬件演進為 AI、科學計算與高性能任務的中堅力量。本文將介紹 GPU 架構的基礎知識&#xff0c;包括其組成部分、內存層次結構&#xff0c…

訂單狀態定時處理(Spring Task 定時任務)

訂單狀態定時處理 如果最后一秒剛好支付了咋辦?如何補償? 需要將支付狀態和訂單狀態一起考慮,或者直接使用狀態機 Spring Task 是Spring框架提供的任務調度工具,可以按照約定的時間自動執行某個代碼邏輯。 **定位:**定時任務框架 **作用:**定時自動執行某段Java代碼 …