時隔 6 年,自 GPT-2 以來,OpenAI 終于再度發布開源大模型——gpt-oss-120b 和 gpt-oss-20b,前者以千億級參數專為復雜推理與知識密集型場景設計,后者則更適合低延遲、本地或專業垂直領域使用,可在消費級硬件(如筆記本、邊緣設備等)流暢運行。這種「大模型通用性+小模型專業性」的雙版本以定位差異化和部署靈活性特點,較好地滿足了用戶的多場景使用需求。
在技術層面,gpt-oss 采用 MoE 架構保證強大性能的同時,顯著降低了計算和內存需求,其中 gpt-oss-120b 能在單個 80GB GPU 上高效運行,而 gpt-oss-20b 可在僅配備 16GB 內存的邊緣設備上運行。在實際任務評估中,gpt-oss-120b 在 Codeforces、MMLU 和 HLE以及工具調用 TauBench 的評測中表現優于 o3?mini,并與 o4-mini 持平、甚至反超。此外,其在 HealthBench? 和 AIME 2024 和 2025 上表現得比 o4-mini 更好。盡管 gpt-oss-20b 的模型參數規模較小,但在這些相同的評估中,其表現直逼 o3?mini。
目前,「使用 llama.cpp 與 Open-Webui 部署 gpt-oss-20b」教程已上線至?OpenBayes公共教程中,一鍵即可啟動。基于單卡 NVIDIA RTX 4090 即可感受開源 SOTA 模型的強大能力。
教程地址:
* 使用 llama.cpp 與 Open-Webui 部署 gpt-oss-20b:
https://go.openbayes.com/DW3nc
* 使用 llama.cpp 與 Open-Webui 部署 gpt-oss-120b:
https://go.openbayes.com/rMoAw
Demo 運行
01 Demo 運行階段
1.登錄?OpenBayes,在「公共教程」頁面,選擇「使用 llama.cpp 與 Open-Webui 部署 gpt-oss-20b」教程。
2.頁面跳轉后,點擊右上角「克隆」,將該教程克隆至自己的容器中。
3.選擇「NVIDIA GeForce RTX 4090」以及「PyTorch」鏡像,按照需求選擇「按量付費」或「包日/周/月」,點擊「繼續執行」。新用戶使用下方邀請鏈接注冊,可獲得 4 小時 RTX 4090 + 5 小時 CPU 的免費時長!
小貝總專屬邀請鏈接(直接復制到瀏覽器打開):
https://go.openbayes.com/9S6Dr
4.等待分配資源,首次克隆需等待 3 分鐘左右的時間。當狀態變為「運行中」后,點擊「API 地址」旁邊的跳轉箭頭,即可跳轉至 Demo 頁面。請注意,用戶需在實名認證后才能使用 API 地址訪問功能。
02 效果演示
進入 Demo 運行頁面后,在對話框內輸入 Prompt 并點擊運行即可。小貝對模型的內容創作、數學問題、推理能力進行了簡單測試,gpt-oss 的回答都還不錯。
* Prompt:請撰寫一個關于肯德基瘋狂星期四的喜劇劇本,300字左右。
* Prompt:(根號 2 + 根號 3)的 2006 次方,小數點后第一位第二位數是多少?
* Prompt:判斷邏輯是否正確:因為兇手不是背包旅客,而且你不是背包旅客,所以你是兇手。