OpenAI 開源模型 gpt-oss 是在合成數據上訓練的嗎?一些合理推測

編者按: OpenAI?首次發布的開源大模型?gpt-oss?系列為何在基準測試中表現亮眼,卻在實際應用后發現不如預期?

我們今天為大家帶來的這篇文章,作者推測 OpenAI 的新開源模型本質上就是微軟 Phi 模型的翻版,采用了相同的合成數據訓練路線。

本文給出了支持這個推測的三個理由:首先,作者通過對比 Phi 模型系列的發展歷程,揭示了基于合成數據訓練的模型普遍存在“基準測試表現優異但實際應用效果不佳”的現象;其次,文章探討了 OpenAI 選擇這一技術路線的核心動機 —— 安全考量,指出大型組織發布開源模型時面臨的聲譽風險,以及合成數據在提升模型安全性方面的獨特優勢;最后,作者結合微軟前 GenAI 研究副總裁 Sebastien Bubeck 加入 OpenAI 這一人事變動,推測 gpt-oss 模型的技術基因很可能直接承襲自 Phi 系列。

本文系原作者觀點,Baihai IDP 僅進行編譯分享

作者 | Sean Goedecke

編譯 | 岳揚

OpenAI 不久前發布了其首個開源1大語言模型,名為 gpt-oss-120b 和 gpt-oss-20b。你可以在這里[1]與它們進行對話。這些模型好嗎?嗯,完全取決于你的需求。它們在某些基準測試[2]上表現優異(否則 OpenAI 根本不會發布),但在其他基準測試中卻表現得異常糟糕,比如 SimpleQA。

有些人非常喜歡這些模型[3],而推特上另一些人則完全不買賬[4-5]。據我觀察,這些模型技術上過硬,但缺乏大量領域外的知識:例如,它們擁有廣博的科學常識,卻對流行文化知之甚少。這些模型在實際應用中的價值還需六個月方能見分曉,但我預測這些模型最終會歸類于“在基準測試中的表現遠強于在真實任務中的表現”之列。

01 Phi 模型與在合成數據上訓練模型

2024 年,Sebastien Bubeck 領導了微軟開源模型系列 Phi 的開發2。這些模型的創新點在于完全采用合成數據進行訓練:不同于從書籍或互聯網中直接抓取的文本數據,而是使用其他語言模型生成的文本或經過人工精心編寫的教材內容。合成數據比常規數據獲取成本更高 —— 不是免費下載數 TB 數據就能解決,而是需要付費生成每個 token。這種方法的代價是必須為每個 token 的生成付費,優勢則是能完全掌控訓練數據的品質。 若完全用高質量的合成數據和人工編寫的數據訓練模型,結果會如何?

事實證明,這類模型在基準測試中表現會十分出色,但在實際應用中的表現卻令人失望。梳理業界對每代 Phi 模型的評價可發現一個相同的模式:驚艷的測試分數[6],高漲的市場熱情,但實際性能卻遠低于基準測試所顯示的水平[7]。

我認為之所以會出現這些驚艷的基準測試結果,是因為模型非常適合針對特定任務進行訓練 —— 畢竟大部分訓練數據由開發者自主生成。若采用合成數據訓練模型卻不生成與主流測試場景高度匹配的數據集,那可就太愚蠢了。但這種“應試訓練(teaching for the test)”必然導致其表現遜色于基于廣泛數據訓練的語言模型,并且這些模型也可能只是偶然在基準測試中表現良好。

為什么我要談論 Phi 模型?2024 年底,Sebastien Bubeck 離開微軟[8]加入 OpenAI。雖然 gpt-oss 模型的研發陣容尚未披露,模型卡片(model card)[9]也未詳述預訓練細節,但我確信 Sebastien Bubeck 參與了這個項目,且這些模型基于經過嚴格篩選或完全合成的數據集訓練而成。

02 合成數據更安全

為何 OpenAI 明知 Phi 式的模型在基準測試的表現優于實際應用中,還堅持要開發?原因很可能與微軟持續研發 Phi 系列模型相同:安全。 對大型組織而言,發布開源模型猶如在走鋼絲 —— 模型一旦公開,企業聲譽便與之永久綁定,成千上萬的研究人員會瘋狂地嘗試對其進行微調以移除安全防護措施(safety guardrails)。

雖然這一點鮮少被公開討論,但當前微調小型語言模型的主要需求的確是色情角色扮演(erotic role-play),且市場需求旺盛。任何本地部署模型的線上社群中,半數內容涉黃。

若發布一個常規的閉源模型并限制在自有基礎設施內運行,用戶便無法微調。即使出現一些問題,也能隨時更新模型。但開源模型一旦發布便永久失去控制。

使用合成數據(或教科書等高度可控的數據)訓練能大幅提升模型的安全性。開發者可以隨意生成大量“您要求執行 X 操作,但作為一個負責任的模型,我拒絕執行”的合規響應。只要訓練數據不包含顛覆性的或有害的內容,模型就不會習得此類行為(至少目標是如此)。

對 OpenAI 而言,開發一款 Phi 風格的模型用于開源發布想必極具吸引力。他們需要既能超越中國開源模型基準分數,又不會因行為失范而引發新丑聞的產品[10]。不同于 Meta,他們的開源模型無需真正出色,因為其核心業務始終在于閉源模型。

這正是我判斷 OpenAI 為新 gpt-oss 模型選擇合成數據路線的原因。無論結果如何,它們本質上就是披著 gpt 馬甲的 Phi-5 和 Phi-5-mini。


1 實為開放權重(open weight),而非開源,因為其模型權重可自由獲取,但訓練數據與代碼未公開。當然 OpenAI 曾發布 GPT-2 等開放權重模型,但此次才是首批真正意義上的開放權重模型。

2 我在微軟旗下 GitHub 從事 AI 研究工作,但對所述內容完全不知道內部情況。本文內容完全憑借公開信息撰寫。

END

本期互動內容 🍻

?如果 GPT-OSS 是在合成數據上訓練的,那么它在基準測試和實際應用中表現差異這么大,你覺得是合成數據的局限性,還是測試標準本身有問題?

文中鏈接

[1]https://gpt-oss.com/

[2]https://cdn.openai.com/pdf/419b6906-9da6-406c-a19d-1bb078ac7637/oai_gpt-oss_model_card.pdf

[3]https://simonwillison.net/2025/Aug/5/gpt-oss/

[4]https://x.com/corbtt/status/1952868822891012241

[5]https://x.com/vikhyatk/status/1952863413845275132

[6]https://arxiv.org/abs/2404.14219

[7]https://news.ycombinator.com/item?id=40128351

[8]https://www.reuters.com/technology/microsofts-vp-genai-research-join-openai-2024-10-14/

[9]https://cdn.openai.com/pdf/419b6906-9da6-406c-a19d-1bb078ac7637/oai_gpt-oss_model_card.pdf

[10]https://www.seangoedecke.com/ai-sycophancy

本文經原作者授權,由 Baihai IDP 編譯。如需轉載譯文,請聯系獲取授權。

原文鏈接:

https://www.seangoedecke.com/gpt-oss-is-phi-5/

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/94354.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/94354.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/94354.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Linux / 寶塔面板下 PHP OPcache 完整實踐指南

Linux / 寶塔面板下 PHP OPcache 完整實踐指南 OPcache 是 PHP 官方提供的字節碼緩存擴展,通過緩存 PHP 腳本的編譯結果,提高 PHP 執行效率。本文講解從 檢測 → 開啟 → 使用 → 清理 → 排查問題 的全流程,同時針對寶塔面板界面不實用或無法…

Linux(從入門到精通)

Linux概述 Linux內核最初只是由芬蘭人林納斯托瓦茲1991年在赫爾辛基大學上學時出于個人愛好而編寫的。 Linux特點 首先Linux作為自由軟件有兩個特點:一是它免費提供源代碼,二是愛好者可以根據自己的需要自由修改、復制和發布源碼 Linux的各個發行版本 Linux 的發行版說簡單…

鏈表相關題目---19、刪除鏈表的倒數第N個節點

題目鏈接:刪除鏈表的倒數第N個節點 這道題 很常規的思路就是 先拷貝兩次頭結點 然后一個先走N步 然后同時開始走,直到先走N步的節點為空后,就停止,此時另一個沒提前走的節點的下一個就是要刪除的節點。不過需要注意的是&#xff0…

Vue工具類使用指南:實用函數與全局組件安裝

概述在Vue項目開發中,我們經常需要一些通用的工具函數來處理路徑轉換、鏈接判斷、數據格式化等任務。本文將介紹一個實用的Vue工具類,包含多種常用功能,并演示如何在項目中使用它們。工具函數詳解1. 路徑轉駝峰命名import { pathToCamel } fr…

?Visual Studio + UE5 進行游戲開發的常見故障問題解決

從零開始,學習 虛幻引擎5(UE5),開始游戲開發之旅! 本文章僅提供學習,切勿將其用于不法手段! 有些項目在 Visual Studio 的 Unreal Engine 集成配置界面中,涉及 ?Unreal Engine 與 V…

MiniCPM-V4.0開源并上線魔樂社區,多模態能力進化,手機可用,還有最全CookBook!

今天,面壁小鋼炮新一代多模態模型 MiniCPM-V 4.0 正式開源。依靠 4B 參數,在 OpenCompass、OCRBench、MathVista 等多個榜單上取得了同級 SOTA 成績,且 實現了在手機上穩定、絲滑運行。此外,面壁團隊也正式開源了 推理部署工具 Mi…

FCT/ATE/ICT通用測試上位機軟件

在當今智能制造與電子產品快速迭代的背景下,功能測試(FCT)已成為確保產品質量的關鍵環節。然而,傳統的測試上位機往往存在擴展困難、功能固化、二次開發成本高等問題。為此,我們提出一款模塊化、可擴展、可腳本化的 FC…

IndexTTS介紹與部署(B站開源的工業級語音合成模型)

語音合成效果非常好,可作為自己日常文本轉語音使用工具! 軟件介紹 IndexTTS 是由嗶哩嗶哩(B 站)開源的工業級可控高效零樣本文本轉語音(TTS)系統,基于 XTTS 和 Tortoise 構建,采用 …

uniApp對接實人認證

前端代碼部分<template><view class"wrap"><view class"box"><view class"item flex-row align-items-center space-between"><view class"name"><text style"color:#FF4D4D">*</te…

pytest 并發執行用例(基于受限的測試資源)

概要 本文主要介紹了如何在測試資源&#xff08;被測對象&#xff09;受限的情況下&#xff0c;使用 pytest 進行并發測試以減少總體測試時間的方法和過程。 背景 在軟件開發過程中&#xff0c;我們通常使用測試用例來持續保證軟件的質量&#xff08;例如&#xff0c;確保關…

結構化智能編程:用樹形向量存儲重構AI代碼理解范式

結構化智能編程:用樹形向量存儲重構AI代碼理解范式 告別暴力embedding,通過分層存儲策略讓AI精準理解百萬行代碼庫 在AI編程助手日益普及的今天,開發者面臨一個新的困境:當項目規模達到數萬甚至數百萬行代碼時,傳統的暴力向量化方法不僅效率低下,而且往往導致AI理解偏差。…

GPT5 / 深度研究功能 無法觸發

具體表現為&#xff1a; 1.沒有GPT5標識2.回答是GPT43.無法觸發深度研究功能請問如何解決&#xff1f;

一鍵腳本:自動安裝 Nginx + Certbot + HTTPS(Let‘s Encrypt)

創建腳本文件?&#xff1a; vi setup_nginx_https.sh腳本內容&#xff1a; #!/bin/bash# # 一鍵安裝 Nginx Certbot HTTPS (CentOS 7) # 功能&#xff1a;自動安裝 Nginx、Certbot&#xff0c;配置 HTTPS&#xff0c;自動續期 # 使用方法&#xff1a;./setup_nginx_https.s…

SpringAI與MCP

MCP是什么&#xff1f;MCP 服務 代理服務&#xff08;Proxy&#xff09; 標準化接口 自動化適配MCP 的目的&#xff0c;就是讓 AI 應用不再“為每個工具定制對接 ”&#xff0c;而是像使用 USB-C 一樣&#xff0c;“插上即用”任何外部工具。沒mcp之前不同的工具入參和出參千…

Coze用戶退出登錄流程分析-后端源碼

前言 本文將深入分析Coze Studio項目的用戶退出登錄功能后端實現&#xff0c;通過源碼解讀來理解整個退出登錄流程的架構設計和技術實現。退出登錄作為用戶認證系統的重要組成部分&#xff0c;主要負責清理用戶會話狀態&#xff0c;確保用戶賬戶安全。 退出登錄功能雖然相對簡單…

【應急響應工具教程】Unix/Linux 輕量級工具集Busybox

1、工具簡介BusyBox 是一個將常用 Unix/Linux 工具打包在單一可執行文件中的輕量級工具集&#xff0c;被稱為 “嵌入式 Linux 的瑞士軍刀”。 它將多個精簡版的命令行工具&#xff08;如 ls、cat、cp、mv、grep 等&#xff09;集成到一個二進制文件中&#xff0c;并通過不同的調…

【React】案例:B站評論

目錄 一、核心功能實現 二、id處理和時間處理 三、清空內容并重新聚焦 一、核心功能實現 1.獲取評論內容&#xff1a;表單受控綁定 2.點擊發布按鈕發布評論 二、id處理和時間處理 1.rpid要求一個唯一的隨機數id -uuid庫 npm install uuid 使用方法&#xff1a;import {v4 as…

sqlite創建數據庫,創建表,插入數據,查詢數據的C++ demo

sqlite的API可參考&#xff1a;SQLite – C/C | 菜鳥教程 sqlite的官網API可參考&#xff1a;Introduction #include <iostream> #include <sqlite3.h> #include <string>// 回調函數&#xff0c;用于查詢結果的輸出 static int callback(void* data, int …

部分CSS筆試題講解

1. box-sizing: border-box 的作用問題&#xff1a; 默認的 CSS 盒模型 (content-box) 中&#xff0c;元素的 width 和 height 屬性只指定了內容區域的尺寸。如果你給元素添加了 padding 或 border&#xff0c;這些值會被加在 width/height 之上&#xff0c;導致元素的實際占用…

雅菲奧朗SRE知識墻分享(二):『SRE對智能運維的升級模型』

SRE深度結合AI創新&#xff0c;雅菲奧朗專家劉峰老師總結了近期人工智能運維領域的突破&#xff0c;合計以下15個關鍵點:一、領域1&#xff1a;Dev&Ops 深度融合? 關鍵點1. 組織&#xff1a;Google “SREScale” 最新論文提出「單一故障域 單一 SRE 小組」原則&#xff0…