2025 年 4 月 30 日,DeepSeek 開源了新模型 DeepSeek-Prover-V2-671B,該模型聚焦數學定理證明任務,基于混合專家架構,使用 Lean 4 框架進行形式化推理訓練,參數規模達 6710 億,結合強化學習與大規模合成數據,顯著提升了自動化證明能力,且已在 Hugging Face 上線,支持本地部署與商業用途。
此外,據 4 月 27 日晚消息,DeepSeek 即將發布的下一代 AI 大模型 DeepSeek-R2 也有諸多看點。以下是對 R2 模型的爆料信息及 DeepSeek 近期的其他相關消息:
DeepSeek-R2 模型
-
參數規模與架構:采用混合專家模型結合更智能的門控網絡層,總參數量預計達 1.2 萬億,較 R1 提升約 1 倍,與 ChatGPT 的 GPT-4 Turbo 以及谷歌的 Gemini 2.0 Pro 相當。
-
技術突破 :
- 架構創新:采用自主研制的 Hybrid MoE 3.0 架構,實現 1.2 萬億動態激活參數,實際計算消耗僅 780 億參數,經阿里云實測驗證,在處理長文本推理任務時,單位 token 成本較 GPT-4 Turbo 下降 97.3%。
- 性能提升:在數學定理證明上有質的飛躍,其單輪推理能力媲美谷歌 Gemini Pro 2.0,預計在官方 benchmark 上超越 Gemini 2.0 12% 左右,接近 GPT-4 Turbo 的能力。
- 多模態能力增強:據稱多模態性能媲美國際競品,有望在圖像、音頻、視頻等多模態內容的理解和生成上取得突破,彌補 DeepSeek 此前的短板。
-
發布時間:據預測,DeepSeek-R2 發布時間可能在 2025 年 5 月 1 日 - 5 月 5 日之間,也可能是 4 月 30 日已發布。
其他相關消息
- DeepSeek R1 的應用與評價:百度創始人李彥宏在 2025 年 5 月的 Create2025AI 開發者大會上分享了 DeepSeek 模型在百度生態系統內的實際應用進展,如文小言、搜索、地圖等核心應用均已接入其完全版模型,在智能客服、搜索功能增強方面效率提升顯著。但同時也指出 DeepSeek 存在的限制,如只能處理文本,無法支持多模態內容,幻覺率較高,且速度較慢、成本較高等。
- 行業競爭動態 :4 月 29 日阿里巴巴發布了新一代開源大模型系列 Qwen3,其性能優于 DeepSeek-R1,且部署門檻大幅降低。阿里稱 Qwen3 的旗艦模型采用混合專家架構,從 36T 數據量上訓練而來,總參數量為 235B,激活參數量為 22B,而 DeepSeek-V3 在 14.8T 數據量上訓練,總參數量為 671B,激活參數量為 37B。在部署成本上,671B 參數的 DeepSeek-R1 模型至少需要 8 張英偉達 H20 芯片,流暢運行則需 16 張,而 Qwen3 僅需 4 張 H20 即可流暢部署。