OpenAI 的 GPT-5 來了

OpenAI 推出了新的旗艦 AI 模型 GPT-5,它將為該公司的下一代 ChatGPT 提供支持。

https://openai.com/index/introducing-gpt-5/

GPT-5 于周四發布,是 OpenAI 首個“統一”AI 模型,它將O 系列模型的推理能力與GPT 系列的快速響應能力相結合。下一代模型標志著 ChatGPT 及其創建者 OpenAI 的新紀元,也表明 OpenAI 的宏偉目標:開發更像代理而非聊天機器人的 AI 系統。

GPT-4使人工智能聊天機器人能夠對各種問題提供智能響應,而GPT-5 則使 ChatGPT 能夠代表用戶完成各種任務,例如生成軟件應用程序、瀏覽用戶日歷或創建研究簡報。

OpenAI也致力于通過 GPT-5 簡化 ChatGPT 的使用。GPT-5 不再要求用戶選擇正確的設置,而是配備了一個實時路由器,可以決定如何提供最佳答案,無論是快速回復用戶問題,還是花費更多時間“思考”答案。

OpenAI 首席執行官 在與記者的吹風會上聲稱 GPT-5 是“世界上最好的模型”,并表示這代表著該公司在開發能夠在最具經濟價值的工作上超越人類的人工智能(即通用人工智能 (AGI))的道路上邁出了“重要一步”。

在歷史上的任何時候,擁有像 GPT-5 這樣的東西都是幾乎不可想象的。

從周四開始,GPT-5 將作為 ChatGPT 的所有免費用戶默認模型。這是公司首次向免費用戶開放 AI 推理模型的努力之一。(此前,該公司將這些更先進的模型置于付費墻之后。)

OpenAI 的長期使命,即讓盡可能多的人享受先進的人工智能,確保這些東西真正造福人類。

人們對 GPT-5 寄予厚望,這是 OpenAI 自 2022 年推出 ChatGPT 以來最受期待的產品之一。自那時起,ChatGPT 已發展成為全球最受歡迎的消費產品之一,每周覆蓋超過 7 億用戶,據該公司稱,這幾乎占全球人口的 10%。

許多人將 GPT-5 視為人工智能廣泛進步的風向標,而硅谷對該模型的接受程度可能對大型科技公司、華爾街以及監管技術的政策制定者產生深遠影響。這些利益相關者正在關注 GPT-5 能否顯著提升人工智能的能力,就像其前身 GPT-4 一樣,后者挑戰了人們對軟件功能的預期。

GPT-5 在競爭中略占優勢

OpenAI 聲稱 GPT-5 在多個領域都達到了領先水平,在關鍵基準測試中略勝 Anthropic、谷歌 DeepMind 和埃隆·馬斯克的 xAI 等領先的 AI 模型。然而,GPT-5 在其他領域的表現略遜于前沿 AI 模型。

該公司表示,GPT-5 在編碼方面提供了前沿水平的性能;奧特曼表示,該模型尤其擅長按需啟動整個軟件應用程序,即所謂的“氛圍編碼”。

在 SWE-bench Verified(一項從 GitHub 獲取的真實世界編碼任務測試)中,GPT-5 首次嘗試得分高達 74.9%。這意味著 GPT-5 的表現略勝于 Anthropic 最新的 Claude Opus 4.1 模型(得分為74.5%)和谷歌 DeepMind 的 Gemini 2.5 Pro(得分為59.6%)。

在“人類的最后考試”(一項衡量數學、人文和自然科學領域人工智能模型表現的難度較高的測試)中,具有擴展推理功能的 GPT-5 版本(GPT-5 Pro)在使用工具的情況下得分為 42%。這一得分略低于 xAI 的Grok 4 Heavy,后者在測試中的得分為 44.4%。

在 GPQA Diamond(一項針對博士級科學問題的測試)中,GPT-5 pro 首次嘗試就獲得了 89.4% 的得分,超過了得分 80.9% 的 Claude Opus 4.1 和得分 88.9% 的 Grok 4 Heavy。

OpenAI 表示,GPT-5 更適合回答健康相關問題。在 HealthBench Hard Hallucinations 測試中,OpenAI 表示,在衡量 AI 模型在醫療保健主題響應準確度的測試中,GPT-5(具有思考能力)的幻覺出現率僅為 1.6%。這遠低于該公司之前的 GPT-4o 和 o3 模型,后兩者的得分分別為 12.9% 和 15.8%。

雖然人工智能聊天機器人并非醫療專業人士,但數百萬人正在使用它們來獲取健康建議。針對這一現象,該公司表示,GPT-5 能夠更主動地標記潛在的健康問題,并幫助用戶解析醫療結果。

此外,OpenAI 表示,GPT-5 在創意設計和寫作等更難衡量的主觀領域比其他 AI 模型表現更出色。GPT-5 在創意任務上比其他 AI 模型反應更自然,并且展現出“更佳的品味”。

GPT-5 也比 OpenAI 之前的模型更準確,該公司表示,與 O 系列模型相比,GPT-5 受到幻覺(AI 模型編造信息的傾向)的影響要小得多。在 OpenAI 最新的 AI 推理模型(例如 O3)中,幻覺似乎越來越嚴重,OpenAI 此前曾表示,它不太理解為什么會出現這種情況。

OpenAI 發現,在 ChatGPT 提示的響應中,GPT-5(具有思考能力)出現幻覺并提供錯誤信息的概率為 4.8%。這與 GPT-o3 和 GPT-4o 相比顯著降低,后兩者在測試中的幻覺發生率分別為 22% 和 20.6%。

在衡量AI模型完成模擬在線任務的代理能力的基準測試Tau-bench中,GPT-5的表現參差不齊。在衡量AI瀏覽航空公司網站能力的測試部分,GPT-5的得分為63.5%,略低于o3的64.8%。在衡量AI瀏覽零售網站能力的另一部分測試中,GPT-5的得分為81.1%,低于Claude Opus 4.1的82.4%。

OpenAI 還表示,GPT-5 比之前的模型更安全。雖然人工智能推理模型偶爾會表現出針對人類的陰謀或為實現自身目標而撒謊的傾向,但 OpenAI 發現 GPT-5 的欺騙率低于其他模型。

OpenAI 安全研究負責人表示,減少欺騙不僅可以提高 GPT-5 的安全性,還可以提高用戶體驗,創建一個“更加透明和誠實,讓用戶可以信任”的模型。

GPT-5 能夠更好地識別試圖濫用 ChatGPT 的惡意用戶和提出無害請求的用戶。這使得 GPT-5 能夠拒絕更多不安全的問題,同時減少對尋求無害信息的用戶的拒絕次數。

為消費者和開發者提供升級

作為 GPT-5 發布的一部分,ChatGPT 的用戶體驗得到了一些升級。用戶現在可以在 ChatGPT 的設置中選擇四種新的性格:憤世嫉俗者、機器人、傾聽者和書呆子。該公司表示,這些性格將調整 ChatGPT 的響應方式,而無需用戶專門要求模型以某種方式響應。

ChatGPT 每月 20 美元的 Plus 套餐訂閱用戶可獲得比免費用戶更高的 GPT-5 使用限制。同時,每月 200 美元的 Pro 套餐訂閱用戶將可以無限制使用 GPT-5,以及名為 GPT-5 Pro 的增強版,該版本使用額外的計算資源來生成更準確的答案。OpenAI 的 Team、Edu 和 Enterprise 套餐用戶將于下周將 GPT-5 作為其默認模型。

對于開發者來說,GPT-5 將以三種版本(GPT-5、GPT-5-mini 和 GPT-5-nano)加入 OpenAI 的 API,它們將花費更多或更少的時間進行“推理”任務。開發者現在還可以控制 OpenAI API 中的詳細程度,決定 AI 模型的響應時長。

GPT-5 的基礎模型將花費開發人員每百萬輸入令牌 1.25 美元(約 750,000 個單詞,比整個《指環王》系列還要長),每百萬輸出令牌 10 美元。

GPT-5 的發布正值 OpenAI 忙碌的一周之后。該公司發布了一個開放權重推理模型gpt-oss,開發者和企業可以免費下載,并以極低的成本運行。該開放模型的性能幾乎與 OpenAI 之前的頂級模型 o3 和 o4-mini 相當,但 GPT-5 在某些領域(例如編碼)為前沿性能樹立了新的標準。

然而,GPT-5 似乎在多個領域與其他前沿 AI 模型大致相當。當然,基準測試只能反映任何 AI 模型的部分情況,開發者將如何在現實世界中使用 GPT-5,以及該模型是否真正領先于競爭對手,仍有待觀察。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/92604.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/92604.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/92604.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Spring AMQP 入門與實踐:整合 RabbitMQ 構建可靠消息系統

Spring AMQP 入門與實踐:整合 RabbitMQ 構建可靠消息系統 一、Spring AMQP 是什么? Spring AMQP(Application Messaging Protocol)是 Spring 官方提供的對 AMQP 協議的封裝,其核心模塊有兩個: spring-am…

圖像處理控件Aspose.Imaging教程:使用 C# 將 SVG 轉換為 EMF

Aspose.Imaging for .NET是一款深受 .NET 開發人員喜愛的圖像處理 SDK,因為它靈活且易于開發人員使用。EMF 圖像文件格式提供出色的打印質量和可擴展性。此外,這種圖像文件格式還節省存儲空間。Aspose.Imaging for .NET 能夠使 SVG 到 EMF 的轉換變得簡…

網絡編程——套接字

目錄 一、Socket套接字 (一)概念 (二)分類 1.流套接字: 2.數據報套接字 3.原始套接字 二、TCP協議VSUDP協議 (一)有連接VS無連接 (二)可靠傳輸VS不可靠傳輸 &a…

Git 基礎操作筆記(速查)

1. 初始化倉庫git init在當前文件夾初始化一個新的 Git 倉庫。2. 克隆倉庫git clone <倉庫地址>從遠程倉庫復制項目到本地。3. 查看文件狀態git status查看工作區和暫存區的文件狀態。4. 添加文件到暫存區git add <文件名> git add . # 添加所有改動文件5. 提…

【并查集】P3367 【模板】并查集

P3367 【模板】并查集 題目背景 本題數據范圍已經更新到 1≤N≤21051\le N\le 2\times 10^51≤N≤2105&#xff0c;1≤M≤1061\le M\le 10^61≤M≤106。 題目描述 如題&#xff0c;現在有一個并查集&#xff0c;你需要完成合并和查詢操作。 輸入格式 第一行包含兩個整數 N,MN,M…

MyBatis流式查詢詳解

MyBatis 流式查詢詳解&#xff1a;ResultHandler 與 Cursor 在業務中&#xff0c;如果一次性查詢出百萬級數據并返回 List&#xff0c;很容易造成 OOM 或 長時間 GC。 MyBatis 提供了 流式查詢&#xff08;Streaming Query&#xff09; 能力&#xff0c;讓我們可以邊讀邊處理&a…

1Panel Agent 證書繞過實現遠程命令執行漏洞復現(CVE-2025-54424)

免責申明: 本文所描述的漏洞及其復現步驟僅供網絡安全研究與教育目的使用。任何人不得將本文提供的信息用于非法目的或未經授權的系統測試。作者不對任何由于使用本文信息而導致的直接或間接損害承擔責任。如涉及侵權,請及時與我們聯系,我們將盡快處理并刪除相關內容。 前…

kettle插件-kettle http post plus插件,輕松解決https post接口無法調用文件流下載問題

場景&#xff1a;小伙伴在使用kettle調用https post接口過程中無法正常調用&#xff0c;程序出錯問題&#xff0c;今天演示下用自研插件輕松解決這個問題。1、使用openssl 生成自簽名證書openssl req -x509 -newkey rsa:4096 -nodes -out cert.pem -keyout key.pem -days 3652、…

劍指offer第2版——面試題2:實現單例

文章目錄一、題目二、考察點三、答案3.1 C11寫法3.2 C98寫法&#xff08;線程安全只存在于懶漢模式&#xff09;3.2.1 小菜寫法3.2.2 小菜進階寫法3.2.3 中登寫法3.2.3 老鳥寫法四、擴展知識4.1 餓漢模式和懶漢模式的區別4.1.1 餓漢模式&#xff08;Eager Initialization&#…

OpenAI開源大模型gpt-oss系列深度解析:從120B生產級到20B桌面級應用指南

引言&#xff1a;OpenAI開源里程碑&#xff0c;AI民主化加速到來 2025年8月&#xff0c;OpenAI正式宣布開源其兩款重磅大語言模型——gpt-oss-120b&#xff08;1200億參數生產級模型&#xff09;和gpt-oss-20b&#xff08;200億參數桌面級模型&#xff09;&#xff0c;引發全球…

本地部署文檔管理平臺 BookStack 并實現外部訪問( Windows 版本)

BookStack 是一款專注于書籍、文檔管理的開源平臺&#xff0c;它界面設計直觀簡潔&#xff0c;功能強大且易于使用&#xff0c;允許用戶創建、組織和分享文檔資料&#xff0c;特別適合用于構建內部文檔系統、知識庫或公開的文檔站點。本文將詳細介紹如何在 Windows 系統本地部署…

VS Code編輯器

實際上&#xff0c;?Visual Studio Code&#xff08;簡稱VS Code&#xff09;?是由微軟開發的免費、開源、跨平臺的代碼編輯器&#xff0c;支持多種編程語言和框架&#xff0c;廣泛應用于現代Web和云應用開發。這也是個編輯器&#xff0c;可能是繼 GitHub 的 Atom 之后的一枝…

自動化測試篇--BUG篇

目錄 一.軟件測試的生命周期 二.bug是什么&#xff1f; 三.如何描述一個bug&#xff1f; 四.bug的級別 五.bug的生命周期 六.測試與開發產生爭執怎么辦&#xff1f;&#xff08;重要&#xff01;&#xff01;&#xff01;&#xff09; 一.軟件測試的生命周期 軟件測試人員…

Solidity智能合約基礎

基礎學習使用 remix&#xff1a;ide Remix - Ethereum IDE evm&#xff1a;ethreum virtual machine evm字節碼 強類型腳本語言 compile >evm bytescode >evm hello的樣例 聲明的關鍵字&#xff1a;contract // SPDX-License-Identifier: MIT pragma solidi…

Unity跨平臺超低延遲的RTSP/RTMP播放器技術解析與實戰應用

?? 引言&#xff1a;為什么說 Unity 中的視頻能力是“可視化神經元”&#xff1f; 隨著“可視化 實時性”成為工業數字化的關鍵支撐&#xff0c;Unity 正從傳統游戲引擎&#xff0c;演進為數字孿生系統、智能機器人中控、虛擬交互平臺、XR 可視引擎等領域的底層核心。它不再…

python學智能算法(三十三)|SVM-構建軟邊界拉格朗日方程

【1】引用 在前序學習進程中&#xff0c;我們初步了解了SVM軟邊界&#xff0c;今天就更進一步&#xff0c;嘗試構建SVM軟邊界的拉格朗日函數。 【2】基本問題 在SVM軟邊界中&#xff0c;我們已經獲得此時的最優化幾何距離的表達式&#xff1a; fmin?12∣∣w∣∣2C∑i1nξif…

【YOLOv5】

Focus模塊&#xff1a;早期再yolov5版本提出&#xff0c;后期被常規卷積替換&#xff0c;作用是圖像進入主干網絡之前&#xff0c;進行隔行隔列采樣&#xff0c;把空間維度堆疊到通道上&#xff0c;減少計算量。 SPPF:SPP的改進版本&#xff0c;把SPP的不同池化核改變為K 5 的…

Pytest項目_day05(requests加入headers)

headers 由于每個請求都需要加入一些固定的參數&#xff0c;例如&#xff1a;cookies、user-agent&#xff0c;那么將這些固定參數放入URL或params中會顯得很臃腫&#xff0c;因此一般將這些參數放在request headers中headers的反爬作用 在豆瓣網站中&#xff0c;如果我們不加入…

安全引導功能及ATF的啟動過程(四)

安全引導功能及ATF的啟動過程&#xff08;四&#xff09; ATF中bl31的啟動 在bl2中觸發安全監控模式調用后會跳轉到bl31中執行&#xff0c;bl31最主要的作用是建立EL3運行態的軟件配置&#xff0c;在該階段會完成各種類型的安全監控模式調用ID的注冊和對應的ARM核狀態的切換&am…

從手工到智能決策,ERP讓制造外貿企業告別“數據孤島“降本增效

在全球化競爭加劇的當下&#xff0c;制造型外貿企業正面臨訂單碎片化、供應鏈復雜化、合規風險上升等多重挑戰。數字化轉型已成為企業突破增長瓶頸、構建核心競爭力的必選項。然而&#xff0c;許多企業在推進過程中因選型不當陷入“系統孤島”“數據失真”“流程低效”等困境。…