OpenAI 時隔多年再開源!GPT-OSS 120B/20B 發布,支持本地部署,消費級 GPU 即可運行

OpenAI 近期做出了一項令人矚目的戰略轉變:宣布推出兩款開放權重(Open Weight) 語言模型 GPT-OSS-120B 和 GPT-OSS-20B。這不僅是其自 GPT-2 之后首次開源模型,更關鍵的是,這兩款模型特別針對消費級硬件進行了深度優化,顯著降低了運行大模型的門檻。
在這里插入圖片描述

架構亮點:大參數 ≠ 大顯存?MoE架構+混合注意力高效推理

1.極致硬件適配:
a.GPT-OSS-120B: 設計用于單張 80GB顯存 的GPU(如NVIDIA RTX 6000 Ada 或 Tesla A100等)。
b.GPT-OSS-20B: 革命性地優化到能在僅配備 16GB內存 的設備(如中高端游戲顯卡或邊緣計算設備)上運行。
在這里插入圖片描述
2.技術架構先進:
a.采用 混合專家模型 (Mixture-of-Experts) 架構,通過在每次前向激活中僅調用部分專家參數,大幅降低實際推理所需顯存。MoE 架構最早由 Google 的 Switch Transformer 引入,而后在 DeepSeek-V1/R1 等國產大模型中得到推廣。GPT-OSS 系列的技術路徑可以看作對這條路線的高度復刻與工程優化。

b.支持驚人的 131,072 tokens 上下文長度,是目前本地推理支持的 最長上下文,遠超 LLaMA3、Gemma 等開源模型。

c.使用 稠密與局部帶狀稀疏注意力交替 模式 + 分組多查詢注意力 (Grouped Multi-Query Attention, group size=8),兼顧建模能力與速度,提升效率。

d.融合思維鏈 (Chain-of-Thought) 推理機制,強化邏輯和多步思維能力,平衡推理能力、效率和實用性。適用于數學、代碼、工具調用等場景。
在這里插入圖片描述

模型性能如何?對標 o3-mini / o4-mini,甚至小幅超越

1、GPT-OSS-120B: 在核心推理基準測試中,性能綜合表現已接近 o4-mini 模型,在數學競賽、代碼生成、健康問答等方面甚至略優,而運行硬件要求大幅降低(單卡80GB vs 集群)。
2、GPT-OSS-20B: 性能與 o3-mini 相當,但可運行在 16GB 單卡設備上,明顯降低推理門檻;

在 tool calling(工具調用)、通用推理等典型任務上,兩款模型表現出良好的泛化能力。值得注意的是,雖然 gpt-oss 系列為 MoE 架構,但上下文長度、工具能力并未打折,體現出較強的實用性和工程落地能力。
在這里插入圖片描述

為何此時開源?產業博弈、生態布局與現實需求

OpenAI 多年來一直以閉源策略著稱,此次大模型開源引發外界猜測。有以下幾種可能動因:
1.拓展市場覆蓋: 專有模型的高成本和高門檻(如API費用、私有部署要求)限制了其在新興市場、中小企業和個人開發者中的普及。開源高性能輕量模型能快速觸達這些“長尾”用戶,擴大OpenAI技術的影響范圍。
2.構建開發者生態: 開放模型權重能吸引全球開發者進行二次開發、微調和應用創新,圍繞OpenAI技術形成更活躍的生態,鞏固其行業地位。
3.應對開源競爭: 開源社區(如LLaMA、Mistral、DeepSeek等)在輕量化和本地部署模型上進展迅速。OpenAI此舉是對這股力量的直接回應,確保在關鍵賽道不落伍。此次發布的兩款模型,全部采用 Apache 2.0 協議,這意味著無論商業使用、私有部署、微調訓練都不存在任何授權限制。

可用性如何?能跑、能調、能推理

兩款模型已支持:
●? HuggingFace Transformers 加載
●? ONNX Runtime 加速推理
●? Ollama 一鍵本地部署
●? LoRA / QLoRA 微調(Int4/Int8)
●? 全平臺推理(Windows / Linux / macOS)
其中 GPT-OSS-20B 明確對標“邊緣設備”場景,實際在 3090 / 4080 / 5090 等消費級顯卡上均可流暢運行,進一步拉低模型部署門檻,為科研、高校、自研產品提供了更多可能。
在這里插入圖片描述

總結:OpenAI 開源不是示弱,而是戰術調整

在當前全球 AI 格局競爭日趨白熱化的背景下,OpenAI 通過開放 GPT-OSS 系列,意圖構建更寬泛的開發者生態和平臺覆蓋能力,并為非 GPT-4 級用戶提供替代方案。

與 LLaMA3、Qwen2 等開源模型相比,GPT-OSS 在模型精度、工具能力、可用性方面具備一定優勢。更重要的是,它標志著 OpenAI 正式補齊了從 API 到開源模型的“全棧生態拼圖”,并展現了其在硬件優化和模型壓縮方面的工程能力。

面對AI模型快速發展趨勢,企業在構建自主大模型或本地智能引擎時,如何實現高性價比、低門檻、可定制化的算力平臺搭建?這是每一個AI基礎設施提供商與AI應用方都要認真思考的命題。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/92513.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/92513.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/92513.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

MySQL高可用方案之MySQL Group Replication高可用架構搭建完全指南

MySQL Group Replication高可用架構搭建完全指南 前言 在當今互聯網應用中,數據庫高可用性已成為系統設計的核心需求。MySQL作為最流行的開源關系型數據庫之一,其高可用解決方案備受關注。MySQL Group Replication是MySQL官方推出的原生高可用解決方案,它基于Paxos協議實現…

網站SSL證書到期如何更換?簡單完整操作指南

----------------------------------------------------------------------------------------------- 這是我在我的網站中截取的文章,有更多的文章歡迎來訪問我自己的博客網站rn.berlinlian.cn,這里還有很多有關計算機的知識,歡迎進行留言或…

Spring Boot 開發三板斧:POM 依賴、注解與配置管理

引言 Spring Boot 是一個功能強大且廣受歡迎的框架,用于快速構建基于 Spring 的應用。它通過簡化配置和自動化管理,幫助開發者專注于業務邏輯的實現。然而,要想高效地開發 Spring Boot 應用,掌握以下三個關鍵點至關重要&#xff1…

kubernetes安裝搭建

個人博客站—運維鹿:http://www.kervin24.top/ CSDN博客—做個超努力的小奚: https://blog.csdn.net/qq_52914969?typeblog 一、kubernetes介紹 Kubernetes本質是一組服務器集群,它可以在集群的每個節點上運行特定的程序,來對節點中的容…

MySQL高可用方案之MySQL InnoDB Cluster高可用架構實戰指南:從零搭建到生產部署

MySQL InnoDB Cluster高可用架構實戰指南:從零搭建到生產部署 一、引言:為什么選擇MySQL InnoDB Cluster 在當今數據驅動的商業環境中,數據庫高可用性已成為企業IT基礎設施的核心需求。MySQL作為全球最受歡迎的開源關系型數據庫,其高可用解決方案備受關注。而MySQL InnoD…

祝融號無線電工作頻段

前面深入查證了旅行者1號的無線電工作頻段: 旅行者1號無線電工作頻段-CSDN博客 下面嘗試查證我國祝融號無線電工作頻段。 一、百度百科 來自百度百科: 我注意到一條關鍵信息: 這說明祝融號在國際上是有合作的,而不是我們國家單…

Kafka生產者相關原理

前言前面已經介紹了Kafka的架構知識并引出了Kafka的相關專業名稱進行解釋這次分享一下Kafka對生產者發送消息進行處理的運行機制和原理生產者發送消息兩種方式同步發送消息程序中線程執行完消息發送操作之后會等待Kafka的消息回應ack默認等待30秒沒有回應就會拋出異常等待時間和…

Python 獲取對象信息的所有方法

在 Python 里,我們經常需要檢查一個對象的類型、屬性、方法,甚至它的源碼。這對調試、學習和動態編程特別有用。今天我們就來聊聊獲取對象信息的常見方法,按由淺入深的順序來學習。 參考文章:Python 獲取對象信息 | 簡單一點學習…

vuhub Beelzebub靶場攻略

靶場下載: 下載地址:https://download.vulnhub.com/beelzebub/Beelzebub.zip 靶場攻略: 主機發現: nmap 192.168.163.1/24 端口掃描: nmap -p-65535 -A 192.168.163.152 發現沒有額外端口。 頁面掃描&#xff1…

開啟單片機

前言:為未來拼搏的第n天,從單片機開始。為什么要學習單片機呢,單片機的工作涉及范圍及其廣如:消費電子,游戲機音響;工業控制:機器人控制;醫療設備,通信設備,物…

人工智能系列(8)如何實現無監督學習聚類(使用競爭學習)?

案例:鳶尾花數據集的聚類一.聚類簡介神經網絡能夠從輸入數據中自動提取有意義的特征,而競爭學習規則使得單層神經網絡能夠根據相似度將輸入樣本進行聚類,每個聚類由一個輸出神經元代表并作為該類別的“原型”,從而實現對輸入模式的…

Windows安裝mamba全流程(全網最穩定最成功)

windows系統下安裝mamba會遇到各種各樣的問題。博主試了好幾天,把能踩的坑都踩了,總結出了在windows下安裝mamba的一套方法,已經給實驗室的windows服務器都裝上了。只要跟著我的流程走下來,大概率不會出問題,如果遇到其…

Autosar Dem配置-最大存儲的DTC信息個數配置-基于ETAS軟件

文章目錄 前言 Autosar Dem相關配置 ETAS工具中的配置 生成文件分析 測試驗證 總結 前言 診斷DTC開發中,會有故障快照和擴展數據的存儲需求,但由于控制器的可用存儲空間有限,所以無法存儲所有DTC的信息,這時就需要限制存儲的數量,本文介紹該參數在ETAS軟件中的配置。 Au…

【MySQL】EXISTS 與 NOT EXISTS 深度解析:從原理到實戰的完整指南

在復雜的業務查詢中,我們常常需要判斷“是否存在滿足某條件的記錄”或“找出不滿足某些條件的記錄”。這時,EXISTS 和 NOT EXISTS 子查詢便成為強大的工具。它們不僅邏輯清晰、語義明確,而且在某些場景下性能遠超 IN 或 JOIN。然而&#xff0…

面對信號在時頻平面打結,VNCMD分割算法深度解密

“ 信號迷宮中的破壁者:VNCMD如何分解糾纏的時空密碼?——從鯨歌到機械故障,寬帶信號分解新紀元。”01—痛點直擊:為什么傳統方法集體失效?2017年,上海交大團隊提出了一項突破性研究:變分非線性…

CSS優先級、HTTP響應狀態碼

CSS優先級 優先級:看CSS的來源、樣式引入方式、選擇器、源碼順序。 行內樣式/內聯樣式:直接在HTML元素的style屬性中編寫CSS樣式。這種方式適用于少量樣式的情況,但不推薦在大規模開發中使用,因為它會使HTML文件變得冗長和難以維…

項目一系列-第2章 Git版本控制

第2章 Git版本控制 2.1 Git概述 Git是什么?Git是一個分布式版本控制工具,于管理開發過程中的文件。 Git有哪些作用? 遠程備份:Git可以將本地代碼備份到遠程服務器,防止數據丟失。多人協作:Git運行多個開發者…

Java異常:認識異常、異常的作用、自定義異常

目錄1.什么是異常?1)運行時異常2)編譯時異常2.異常的作用1)Java 異常在定位 BUG 中的核心作用2)Java 異常作為方法內部特殊返回值的作用3)自定義異常1.什么是異常? Error:代表的系統級別錯誤(屬…

第十九天-輸入捕獲實驗

一、輸入捕獲概述1、輸入捕獲框圖2、輸入捕獲工作詳解①設置輸入捕獲濾波器可以設置濾波,濾除一些高電平脈寬不足的脈沖信號。②設置捕獲極性③輸入捕獲映射④輸入捕獲分頻器這里的捕獲是將計數器的值存入比較寄存器中,分頻次的作用是設置幾個上升沿/下降…

多線程問題,子線程同時操作全局變量,使用后需要清空嗎 ?

背景:目前有一個全局變量 ,某個方法中通過多線程,都操作這個變量,向這個全局變量中去添加元素,然后等所有子線程執行完了之后,對這個全局變量進行批量保存,然后這個全局變量還需要手動去清空嗎&…