???上下文窗口局限?:主流 AI 模型普遍受限于 4K-32K 的上下文長度,導致技術方案文檔需被強制拆分處理,破壞架構設計的連貫性。
???跨行業文檔識別缺陷?:傳統 OCR 技術在專業場景中表現不佳:金融合同關鍵字段漏提取、醫療處方劑量識別偏差、工業圖紙表格重建失真等問題頻發。
???私有化部署效率瓶頸?:企業部署專用 AI 模型需完成算力采購、環境配置及推理優化全流程,普遍耗時超 6 周。
現在,國內 AI 技術黑馬 階躍星辰 Step Fun 攜旗下模型正式入駐 GitCode,為開發者帶來
零成本工業級 AI 體驗!

Step3:面向開發者的"全棧式"大模型
架構突破?
- ?稀疏化 MoE 架構?:321B 總參數 / 38B 激活參數
- ?MFA 注意力機制?:降低 KV 緩存 50%,8×A100 集群支持工業級吞吐
- ?AFD 解耦系統?:分離 Attention / FFN 計算流,Hopper GPU 吞吐達 ?4039 token/gpu/s?
?多模態協同創新?
- 輕量視覺通路?:5B 視覺編碼器壓縮 token 至 1/16
- 兩階段防干擾訓練?:凍結視覺編碼器保障主干網絡穩定
- 語料三重過濾?:相似度篩選+重采樣+任務比例控制
?實測性能優勢?
- ?復雜場景理解?:MMMU 跨領域知識理解超開源 SOTA 模型
- ?工業推演能力?:解析 10 人座次圖生成 12 人商務排座方案
- ?極致推理成本?:百萬 token 輸入 1.5 元,輸出 4 元
📮項目鏈接:GitCode - 全球開發者的開源社區,開源代碼托管平臺
GOT-OCR-2.0-hf:統一架構的多模態文本理解引擎?
核心能力?
- 全格式文本解析:支持標準文檔、場景文本、表格圖表、數學公式、化學分子式及樂譜的聯合識別
- 動態交互處理:通過坐標定位或色彩標記實現區域定向識別
- 跨頁內容整合:原生支持多頁文檔連續語義重建
?工業級工程特性?
- 批量化推理?:單次處理多張輸入圖像,避免循環調用開銷
- ?智能分塊機制?:自動切分非常規比例文檔(如學術論文跨頁排版)
- ?格式輸出兼容?:原始文本可聯動 verovio、matplotlib 等工具生成結構化渲染
應用場景驗證?
- 金融合同解析:定向提取關鍵字段
- 學術論文轉換:跨頁公式/圖表協同重建
- 樂譜數字化:原始輸出適配verovio渲染引擎
📮項目鏈接:GitCode - 全球開發者的開源社區,開源代碼托管平臺
Step-Video-T2V:超長視頻生成工業級解決方案
架構突破
- 30B 參數量 DiT 骨干:48 層 ×48 頭 3D 全注意力機制
- 深度壓縮 VideoVAE:16× 空間壓縮 + 8× 時間壓縮( 128 倍數據濃縮)
- 視頻 DPO 強化:基于人類偏好優化,顯著降低畫面偽影
性能標桿
生成能力:
? 最大 204 幀連續視頻
? 支持 768×992 高分辨率生成
推理效率(A100×4 實測):
? 544×992×136 幀:72.48GB 顯存 / 408 秒(啟用 FlashAttention)
? 完整 204 幀生成需 80GB 顯存級GPU
關鍵技術
- 3D-RoPE 編碼:動態適應任意視頻時長與分辨率
- QK-Norm 機制:確保 48 層深度網絡穩定訓練
- 流匹配訓練法:優化噪聲到潛空間的映射過程
📮項目鏈接:GitCode - 全球開發者的開源社區,開源代碼托管平臺
Step-Audio:開源音頻處理基礎架構
技術突破
- 130B 多模態基座:單模型同步支持語音識別/對話/合成/克隆
- 雙碼本 Token 化引擎:
- 語義碼本:1024 詞表(16.7Hz)
- 聲學碼本:4096 詞表(25Hz)
- 2:3 時序交織對齊
- 可控語音生成:支持 20+ 方言/情緒/語速/韻律(說唱/哼唱)
核心組件
- 流匹配聲碼器:離散 token →高保真波形轉換(MOS 4.11)
- 實時推理管線:語音活動檢測→流式 Token 化→推測式生成(40% 提交率)→14:1 上下文壓縮
- 指令控制引擎:方言(四川話/粵語)· 情緒(憤怒/歡快)· 韻律(說唱/朗誦)精準調控
權威認證
- ASR 性能:Aishell-1 測試集 CER 0.87%
- TTS 自然度:SEED 評測集 SSIM 0.812
- 對話智能:StepEval-360 綜合得分 4.11
📮項目鏈接:GitCode - 全球開發者的開源社區,開源代碼托管平臺
Step1X-Edit:工業級圖像編輯統一架構
核心能力突破
- 多模態指令編輯:支持文本/圖像混合指令驅動(示例:”將西裝換成唐裝并添加水墨背景”)
- FP8 量化推理:顯存需求降至 18GB(1024px 圖像),速度提升 40%
- LoRA 微調系統:單卡 24GB GPU 支持角色特征定制(如動漫手部修復)
技術架構創新
- 多模態理解器:Step 系列 LLM 融合圖像語義與文本指令,復雜指令準確率提升 35%
- 擴散解碼引擎:潛在嵌入空間優化+動態降噪調度,1024px 圖像生成僅需 5.82秒(4×H800)
- TeaCache 加速:閾值自適應緩存機制(默認 0.2 平衡效率/質量),推理速度提升 300%
📮項目鏈接:GitCode - 全球開發者的開源社區,開源代碼托管平臺
開源愿景
階躍星辰將核心 AI 模型在 GitCode 平臺開源,旨在構建開發者共建的技術生態,未來還將進一步開放更多工業級模型,提供持續優化的基礎架構支持。GitCode 團隊也將同步開放工具鏈資源與部署通道,助力開發者快速實現場景落地。
誠邀全球開發者參與模型優化、行業適配器開發及標準建設,共同推動 AI 技術的開放進化。
📮加入協作:
GitCode 項目主頁:GitCode - 全球開發者的開源社區,開源代碼托管平臺