GPT OSS 是 OpenAI 推出的重量級開放模型,專為強推理能力、智能體任務及多樣化開發場景設計,標志著大模型在開放性與實用性上的重要突破。
該系列包含兩款高性能模型:參數規模為 117B 的 GPT?OSS?120B 和 21B 的 GPT?OSS?20B。二者皆采用 MoE 架構,并在 MoE 權重上創新性地使用 4?bit 量化方案 MXFP4,顯著降低資源占用,同時實現更高效的推理速度。得益于更少的激活參數,模型在保持強大性能的同時,具備更低的部署成本和更高的響應效率。
目前,百度百舸平臺已經同步支持這 2 款模型的快速部署,為企業提供一站式 AI 服務,實現大模型落地「快穩省」的要求。
當前,百度百舸的推理服務支持部署 LLM、MLLM、VLA 等多種模型的高效推理,廣泛服務于線教育、AIGC、醫療、具身智能等行業客戶,助力客戶實現推理業務的大規模、高穩定性運行。
推理服務快速部署流程
登錄百度百舸·AI 異構計算平臺,在「快速開始」找到?GPT-OSS-20B 模型。
點擊模型卡片的「一鍵部署」啟動模型部署流程。
目前 GPT?OSS 系列模型支持 vLLM 推理加速方式。百度百舸平臺已集成 vLLM 推理加速框架,并會根據模型特性(例如,部署 GPT?OSS?20B 推薦配置為 1 卡 GPU、12 核 CPU、36GB 內存)智能推薦最優資源配置,用戶可按需調整。
點擊【確定】即可一鍵部署到百度百舸平臺。
部署服務時,可以使用「云原生網關」接入流量,支持查看 Token 用量監控、消費者鑒權、流量控制等功能,實現業務的高效、安全運營。
部署成功后,可以通過「在線服務」列表獲取服務請求地址和 Token 調用信息,快速接入應用。
百度百舸·AI 異構計算平臺,是面向大模型訓推一體化的基礎設施,提供領先的 AI 工程加速能力,從資源準備、模型開發、模型訓練到模型部署,為 AI 工程全周期提供豐富特性和極致易用體驗。