編者按: OpenAI?首次發布的開源大模型?gpt-oss?系列為何在基準測試中表現亮眼,卻在實際應用后發現不如預期?
我們今天為大家帶來的這篇文章,作者推測 OpenAI 的新開源模型本質上就是微軟 Phi 模型的翻版,采用了相同的合成數據訓練路線。
本文給出了支持這個推測的三個理由:首先,作者通過對比 Phi 模型系列的發展歷程,揭示了基于合成數據訓練的模型普遍存在“基準測試表現優異但實際應用效果不佳”的現象;其次,文章探討了 OpenAI 選擇這一技術路線的核心動機 —— 安全考量,指出大型組織發布開源模型時面臨的聲譽風險,以及合成數據在提升模型安全性方面的獨特優勢;最后,作者結合微軟前 GenAI 研究副總裁 Sebastien Bubeck 加入 OpenAI 這一人事變動,推測 gpt-oss 模型的技術基因很可能直接承襲自 Phi 系列。
本文系原作者觀點,Baihai IDP 僅進行編譯分享
作者 | Sean Goedecke
編譯 | 岳揚
OpenAI 不久前發布了其首個開源1大語言模型,名為 gpt-oss-120b 和 gpt-oss-20b。你可以在這里[1]與它們進行對話。這些模型好嗎?嗯,完全取決于你的需求。它們在某些基準測試[2]上表現優異(否則 OpenAI 根本不會發布),但在其他基準測試中卻表現得異常糟糕,比如 SimpleQA。
有些人非常喜歡這些模型[3],而推特上另一些人則完全不買賬[4-5]。據我觀察,這些模型技術上過硬,但缺乏大量領域外的知識:例如,它們擁有廣博的科學常識,卻對流行文化知之甚少。這些模型在實際應用中的價值還需六個月方能見分曉,但我預測這些模型最終會歸類于“在基準測試中的表現遠強于在真實任務中的表現”之列。
01 Phi 模型與在合成數據上訓練模型
2024 年,Sebastien Bubeck 領導了微軟開源模型系列 Phi 的開發2。這些模型的創新點在于完全采用合成數據進行訓練:不同于從書籍或互聯網中直接抓取的文本數據,而是使用其他語言模型生成的文本或經過人工精心編寫的教材內容。合成數據比常規數據獲取成本更高 —— 不是免費下載數 TB 數據就能解決,而是需要付費生成每個 token。這種方法的代價是必須為每個 token 的生成付費,優勢則是能完全掌控訓練數據的品質。 若完全用高質量的合成數據和人工編寫的數據訓練模型,結果會如何?
事實證明,這類模型在基準測試中表現會十分出色,但在實際應用中的表現卻令人失望。梳理業界對每代 Phi 模型的評價可發現一個相同的模式:驚艷的測試分數[6],高漲的市場熱情,但實際性能卻遠低于基準測試所顯示的水平[7]。
我認為之所以會出現這些驚艷的基準測試結果,是因為模型非常適合針對特定任務進行訓練 —— 畢竟大部分訓練數據由開發者自主生成。若采用合成數據訓練模型卻不生成與主流測試場景高度匹配的數據集,那可就太愚蠢了。但這種“應試訓練(teaching for the test)”必然導致其表現遜色于基于廣泛數據訓練的語言模型,并且這些模型也可能只是偶然在基準測試中表現良好。
為什么我要談論 Phi 模型?2024 年底,Sebastien Bubeck 離開微軟[8]加入 OpenAI。雖然 gpt-oss 模型的研發陣容尚未披露,模型卡片(model card)[9]也未詳述預訓練細節,但我確信 Sebastien Bubeck 參與了這個項目,且這些模型基于經過嚴格篩選或完全合成的數據集訓練而成。
02 合成數據更安全
為何 OpenAI 明知 Phi 式的模型在基準測試的表現優于實際應用中,還堅持要開發?原因很可能與微軟持續研發 Phi 系列模型相同:安全。 對大型組織而言,發布開源模型猶如在走鋼絲 —— 模型一旦公開,企業聲譽便與之永久綁定,成千上萬的研究人員會瘋狂地嘗試對其進行微調以移除安全防護措施(safety guardrails)。
雖然這一點鮮少被公開討論,但當前微調小型語言模型的主要需求的確是色情角色扮演(erotic role-play),且市場需求旺盛。任何本地部署模型的線上社群中,半數內容涉黃。
若發布一個常規的閉源模型并限制在自有基礎設施內運行,用戶便無法微調。即使出現一些問題,也能隨時更新模型。但開源模型一旦發布便永久失去控制。
使用合成數據(或教科書等高度可控的數據)訓練能大幅提升模型的安全性。開發者可以隨意生成大量“您要求執行 X 操作,但作為一個負責任的模型,我拒絕執行”的合規響應。只要訓練數據不包含顛覆性的或有害的內容,模型就不會習得此類行為(至少目標是如此)。
對 OpenAI 而言,開發一款 Phi 風格的模型用于開源發布想必極具吸引力。他們需要既能超越中國開源模型基準分數,又不會因行為失范而引發新丑聞的產品[10]。不同于 Meta,他們的開源模型無需真正出色,因為其核心業務始終在于閉源模型。
這正是我判斷 OpenAI 為新 gpt-oss 模型選擇合成數據路線的原因。無論結果如何,它們本質上就是披著 gpt 馬甲的 Phi-5 和 Phi-5-mini。
1 實為開放權重(open weight),而非開源,因為其模型權重可自由獲取,但訓練數據與代碼未公開。當然 OpenAI 曾發布 GPT-2 等開放權重模型,但此次才是首批真正意義上的開放權重模型。
2 我在微軟旗下 GitHub 從事 AI 研究工作,但對所述內容完全不知道內部情況。本文內容完全憑借公開信息撰寫。
END
本期互動內容 🍻
?如果 GPT-OSS 是在合成數據上訓練的,那么它在基準測試和實際應用中表現差異這么大,你覺得是合成數據的局限性,還是測試標準本身有問題?
文中鏈接
[1]https://gpt-oss.com/
[2]https://cdn.openai.com/pdf/419b6906-9da6-406c-a19d-1bb078ac7637/oai_gpt-oss_model_card.pdf
[3]https://simonwillison.net/2025/Aug/5/gpt-oss/
[4]https://x.com/corbtt/status/1952868822891012241
[5]https://x.com/vikhyatk/status/1952863413845275132
[6]https://arxiv.org/abs/2404.14219
[7]https://news.ycombinator.com/item?id=40128351
[8]https://www.reuters.com/technology/microsofts-vp-genai-research-join-openai-2024-10-14/
[9]https://cdn.openai.com/pdf/419b6906-9da6-406c-a19d-1bb078ac7637/oai_gpt-oss_model_card.pdf
[10]https://www.seangoedecke.com/ai-sycophancy
本文經原作者授權,由 Baihai IDP 編譯。如需轉載譯文,請聯系獲取授權。
原文鏈接:
https://www.seangoedecke.com/gpt-oss-is-phi-5/