DeepSeek 開源模型全解析(2024.1.1–2025.2.6)

目錄

一、通用大語言模型:DeepSeek-V3 系列?137

二、推理優化模型:DeepSeek-R1 系列?811

三、多模態模型:Janus 系列?10

四、生態整合與部署建議

五、總結與展望


以下為 DeepSeek 在 2024 年 1 月至 2025 年 2 月期間發布的開源模型及其核心信息,涵蓋自然語言處理、多模態與推理優化三大領域:


一、通用大語言模型:DeepSeek-V3 系列?137
模型名稱版本號參數規模特點公布時間下載地址
DeepSeek-V31.0總參數 671B,激活參數 37B-?架構創新:首款融合 FP8 混合精度訓練、多頭潛在注意力(MLA)與 MoE 架構的模型,顯存消耗降低 30%
-?性能對標:在數學(MATH 評測 61.6 EM)、代碼(HumanEval 65.2 Pass@1)等任務上超越 GPT-4o 與 Claude-3.5-Sonnet
-?效率提升:生成速度達 60 TPS(前代的 3 倍),支持 128K 長上下文
2024-12-26Hugging Face
DeepSeek-V3-Base1.0同 DeepSeek-V3- 提供原生 FP8 權重,支持 SGLang、LMDeploy 等推理框架
- 開源社區已適配 TensorRT-LLM 和 MindIE 的 BF16 推理優化
2024-12-26Hugging Face

部署要求

  • 硬件:推薦使用 4 臺華為 Atlas 800I A2 服務器(每臺配置 8×64G 顯存)2

  • 軟件:支持昇騰 MindIE 鏡像(預置推理腳本)或 Hugging Face 本地部署工具鏈


二、推理優化模型:DeepSeek-R1 系列?811
模型名稱版本號參數規模特點公布時間下載地址
DeepSeek-R11.0總參數 671B-?強化學習驅動:通過純強化學習實現復雜推理能力,無需監督微調
-?性能對標:在 LiveCodeBench 等編程任務中超越 OpenAI o1,數學推理接近 Claude-3.5-Sonnet
-?思維鏈 API:輸出包含推理過程(最長 32K tokens),支持企業級應用透明化決策
2025-01-23Hugging Face
DeepSeek-R1-Zero1.0總參數 671B-?純 RL 訓練:首個無需監督微調的推理模型,驗證強化學習在復雜任務中的潛力
-?局限:輸出存在重復與語言混雜問題,主要用于研究場景
2025-01-21Hugging Face
R1-Distill 系列1.015B–70B-?知識蒸餾:從 R1 蒸餾的小模型,32B 和 70B 版本性能對標 OpenAI-o1-mini
-?硬件友好:支持低顯存設備部署
2025-01-23Hugging Face

部署要求

  • 硬件:R1 全量版需與 DeepSeek-V3 類似配置;蒸餾版 70B 可在單臺 A100(80G)運行

  • API 集成:支持騰訊云 HAI、阿里云 PAI 等平臺一鍵部署611


三、多模態模型:Janus 系列?10
模型名稱版本號參數規模特點公布時間下載地址
Janus-Pro-7B1.07B-?文生圖 SOTA:GenEval 準確率 80%(超 DALL-E 3 的 61%)
-?多模態融合:支持圖像描述、視覺問答與跨模態檢索
2025-01-28Hugging Face
JanusFlow1.0未公開-?流程優化:擴展 Janus-Pro 的視頻生成與編輯能力,支持動態場景連續推理2025-01-28Hugging Face

部署要求

  • 硬件:Janus-Pro-7B 可在 RTX 4090(24G 顯存)運行,FP16 量化后顯存占用低于 10G

  • 框架:需搭配 Diffusers 庫與 PyTorch 2.3+


四、生態整合與部署建議
  1. 云平臺支持

    • 百度智能云、阿里云、華為云等均提供 DeepSeek-V3/R1 的一鍵部署,限時免費配額 1000 RPM613

    • 騰訊云 HAI 支持 3 分鐘啟動 R1 模型,集成對象存儲與開發工具鏈11

  2. 本地優化方案

    • FP8 推理:利用 LMDeploy 壓縮顯存占用(V3 需 4×H800)1

    • 動態蒸餾:企業可根據場景選擇 R1-Distill 系列降低算力成本8

  3. 開源協議

    • 所有模型遵循 MIT 協議,允許商業用途與二次開發11


五、總結與展望

DeepSeek 在 14 個月內通過?V3、R1、Janus?三大系列模型,實現了從通用語言模型到垂直領域推理與多模態的技術閉環。其開源策略不僅推動國產模型生態繁榮(如百度、阿里、華為云全面接入613),更以?1/10 訓練成本(對比 GPT-4)重塑行業效率標準7。開發者可通過 Hugging Face 快速獲取模型權重,結合昇騰或英偉達硬件構建定制化 AI 服務。未來,DeepSeek 計劃擴展多模態與深度思考功能,進一步縮小開源與閉源模型的差距。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/68216.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/68216.shtml
英文地址,請注明出處:http://en.pswp.cn/web/68216.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Mac: docker安裝以后報錯Command not found: docker

文章目錄 前言解決辦法(新的)解決步驟(原來的)不推薦總結 前言 ?本操作參考 http://blog.csdn.net/enhenglhm/article/details/137955756 原作者,更詳細請,查看詳細內容請關注原作者。 一般,…

《手札·開源篇》數字化轉型助力永磁電機企業降本增效:快速設計軟件如何讓研發效率提升40%?

數字化轉型助力永磁電機企業降本增效:快速設計軟件如何讓研發效率提升40%? 一、痛點:傳統研發模式正在吃掉企業的利潤 永磁電機行業面臨兩大挑戰: 研發周期長:一款新電機從設計到量產需6-12個月,電磁計算…

0207作業

思維導圖 服務器 enum Type{TYPE_REGIST,TYPE_LOGIN };typedef struct Pack{int size;enum Type type;char buf[2048];}pack_t;typedef struct list{union Data{struct List* tail;char str[64];}data;struct List* next;struct List* prev; }List;List* create_node(){List* …

深入淺出 DeepSeek V2 高效的MoE語言模型

今天,我們來聊聊 DeepSeek V2 高效的 MoE 語言模型,帶大家一起深入理解這篇論文的精髓,同時,告訴大家如何將這些概念應用到實際中。 🌟 什么是 MoE?——Mixture of Experts(專家混合模型&#x…

RabbitMQ 從入門到精通:從工作模式到集群部署實戰(五)

#作者:閆乾苓 系列前幾篇: 《RabbitMQ 從入門到精通:從工作模式到集群部署實戰(一)》:link 《RabbitMQ 從入門到精通:從工作模式到集群部署實戰(二)》: lin…

nodejs:express + js-mdict 網頁查詢英漢詞典,能播放.spx 聲音

向 DeepSeek R1 提問: 我想寫一個Web 前端網頁,后臺用 nodejs js-mdict , 實現在線查詢英語單詞,并能播放.spx 聲音文件 1. 項目結構 首先,創建一個項目目錄,結構如下: mydict-app/ ├── public/ │ …

Linux ftrace 內核跟蹤入門

文章目錄 ftrace介紹開啟ftraceftrace使用ftrace跟蹤指定內核函數ftrace跟蹤指定pid ftrace原理ftrace與stracetrace-cmd 工具KernelShark參考 ftrace介紹 Ftrace is an internal tracer designed to help out developers and designers of systems to find what is going on i…

【抽象代數】1.1. 運算及關系

集合與映射 定義1. 設 為 的子集,定義 到 的映射 : 使得 ,稱 為 到 的嵌入映射。 定義2. 設 為 的子集, 為 到 的映射, 為 到 的映射,如果 ,稱為的開拓, 為 的限制&…

pytest+request+yaml+allure 接口自動化測試全解析[手動寫的跟AI的對比]

我手動寫的:Python3:pytest+request+yaml+allure接口自動化測試_request+pytest+yaml-CSDN博客 AI寫的:pytest+request+yaml+allure 接口自動化測試全解析 在當今的軟件開發流程中,接口自動化測試扮演著至關重要的角色。它不僅能夠提高測試效率,確保接口的穩定性和正確性…

數據庫高安全—審計追蹤:傳統審計統一審計

書接上文數據庫高安全—角色權限:權限管理&權限檢查,從權限管理和權限檢查方面解讀了高斯數據庫的角色權限,本篇將從傳統審計和統一審計兩方面對高斯數據庫的審計追蹤技術進行解讀。 4 審計追蹤 4.1 傳統審計 審計內容的記錄方式通…

第三個Qt開發實例:利用之前已經開發好的LED驅動在Qt生成的界面中控制LED2的亮和滅

前言 上一篇博文 https://blog.csdn.net/wenhao_ir/article/details/145459006 中,我們是直接利用GPIO子系統控制了LED2的亮和滅,這篇博文中我們利用之前寫好的LED驅動程序在Qt的生成的界面中控制LED2的亮和滅。 之前已經在下面兩篇博文中實現了LED驅動…

deepseek來講lua

Lua 是一種輕量級、高效、可嵌入的腳本語言,廣泛應用于游戲開發、嵌入式系統、Web 服務器等領域。以下是 Lua 的主要特點和一些基本概念: 1. 特點 輕量級:Lua 的核心非常小,適合嵌入到其他應用程序中。高效:Lua 的執…

(動態規劃 leetcode377)組合求和IV

確立狀態轉移方程需要深入理解問題,合理定義子問題,找到邊界條件(比如dp[0]),分析狀態之間的轉移關系(dp和dp之間的關系),并進行驗證。 遞歸是自頂向下,而dp是自下而上 這里是i作為目標值&…

解決aspose將Excel轉成PDF中文變成方框的亂碼問題

原文網址:解決aspose將Excel轉成PDF中文變成方框的亂碼問題_IT利刃出鞘的博客-CSDN博客 簡介 本文介紹如何解決aspose將Excel轉成PDF中文變成方框的亂碼問題。 問題描述 用aspose將word、excel等轉成PDF后,英文展示正常,但中文全部變成了…

Netty 核心原理與高并發場景實踐

在當今的網絡編程領域,隨著互聯網應用的不斷發展,對高并發、高性能網絡通信的需求日益增長。Netty 作為一款基于 Java 的異步事件驅動的網絡應用框架,憑借其卓越的性能和豐富的功能,成為了實現高并發網絡應用的首選工具。無論是在…

問題大集04-瀏覽器阻止從 本地 發起的跨域請求,因為服務器的響應頭 Access-Control-Allow-Origin 設置為通配符 *

1、問題 localhost/:1 Access to XMLHttpRequest at xxx(請求) from origin http://localhost:xxx(本地) has been blocked by CORS policy: The value of the Access-Control-Allow-Origin header in the response must not be t…

判斷192.168.1.0/24網絡中,當前在線的ip有哪些

需求:判斷192.168.1.0/24網絡中,當前在線的ip有哪些,并編寫腳本打印出來。 [rootopenEuler ~]# cat 1.sh #!/bin/bash for ip in $(seq 1 254); do ping -c 1 -W 1 "192.168.1.$ip" > /dev/null 2>&1 if [ $? …

vue-vite axios bug

axios-bug http proxy error Error: write ECONNABORTED 代碼寫法 一般baseURL不是單寫前綴就可以了嗎,為何要寫死就不會出現以上錯誤,求解。

【Spring】_SpringBoot配置文件

目錄 1.Spring Boot配置文件 1.1 Spring Boot 的配置文件類型及命名 1.2 properties和yml的優先級 2. properties配置文件 1.1 properties語法格式 1.2 自定義配置及配置文件的讀取 1.3 properties的缺點 3. yml配置文件 3.1 yml語法格式 3.2 自定義配置及配置文件的…

實操給觸摸一體機接入大模型語音交互

本文以CSK6 大模型開發板串口觸摸屏為例,實操講解觸摸一體機怎樣快速增加大模型語音交互功能,使用戶能夠通過語音在一體機上查詢信息、獲取智能回答及實現更多互動功能等。 在本文方案中通過CSK6大模型語音開發板采集用戶語音,將語音數據傳輸…