深度解讀DeepSeek：從原理到模型

深度解讀DeepSeek：從原理到模型

bicheng/2025/9/17 12:51:06/文章來源:https://blog.csdn.net/qq_15437629/article/details/145799375

一、大模型模型發展路線退

在這里插入圖片描述

在這里插入圖片描述

在這里插入圖片描述

在這里插入圖片描述

二、DeepSeek V2-V3/R1技術原理

在這里插入圖片描述

在這里插入圖片描述

在這里插入圖片描述

在這里插入圖片描述

在這里插入圖片描述

在這里插入圖片描述

在這里插入圖片描述

在這里插入圖片描述

在這里插入圖片描述

在這里插入圖片描述

在這里插入圖片描述

DeepSeek V2、V3 和 R1 模型架構優化要點：

1、?DeepSeek V2?

混合專家架構（DeepSeekMoE）?：采用細粒度專家劃分與共享專家機制，總參數規模達236B但僅激活21B參數，降低計算冗余?34。?
?多頭潛在注意力（MLA）?：通過低秩壓縮優化Key-Value矩陣計算，結合旋轉位置編碼（RoPE），減少推理顯存占用?14。
?訓練數據擴展?：預訓練階段使用8萬億token數據，通過平衡不同領域的數據采樣提升模型泛化能力?3。

2、?DeepSeek V3?

參數規模與效率平衡?：總參數擴展至671B，結合動態稀疏激活機制，僅激活37B參數，實現更高性能與更低推理成本?24。?
動態專家選擇優化?：基于輸入內容自適應分配計算資源，增強對復雜任務（如數學推理、代碼生成）的適應性?15。?
?多令牌預測（MTP）?：在訓練階段同時預測多個未來token，提升模型對上下文邏輯關系的捕捉效率?45。

3、?DeepSeek R1??

?檢索增強生成（RAG）架構?：采用雙模塊設計（檢索模塊+生成模塊），結合外部知識庫提升生成內容的準確性與實時性?15。??
強化學習策略?：通過GRPO框架和人類反饋強化學習（RLHF），優化模型對齊能力與安全性?25。??
輕量化推理優化?：結合DeepSeek-V3的稀疏激活特性，在AIME 2024等測試中實現接近GPT-4的性能但成本更低?12。
?

演進關系?：

V2到V3的核心升級在于參數擴展（236B→671B）、動態專家選擇優化以及MTP訓練目標的引入?24；?
R1基于V3的基礎架構，強化檢索增強生成與輕量化推理能力，聚焦垂直領域的高效應用?

三、DeepSeek效應

在這里插入圖片描述

在這里插入圖片描述

在這里插入圖片描述

在這里插入圖片描述

在這里插入圖片描述

四、未來展望

在這里插入圖片描述

在這里插入圖片描述

在這里插入圖片描述

在這里插入圖片描述

視頻鏈接：https://www.bilibili.com/video/BV1TzNVepEgY/?spm_id_from=333.337.search-card.all.click&vd_source=8066b0fe558a3d040eb762ed70ba335a

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/bicheng/71668.shtml
繁體地址，請注明出處：http://hk.pswp.cn/bicheng/71668.shtml
英文地址，請注明出處：http://en.pswp.cn/bicheng/71668.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！

相關文章

easyexcel 2.2.6版本導出excel模板時，標題帶下拉框及其下拉值過多不顯示問題

easyexcel 2.2.6版本導出excel模板時，標題帶下拉框及其下拉值過多不顯示問題

需求背景：有一個需求要做下拉框的值有100多條，同時這個excel是一個多sheet的導入模板直接用easyexcel 導出，會出現下拉框的值過多，導致生成出來的excel模板無法正常展示下拉功能使用的easyexcel版本：<depende…

閱讀更多...

基于WebRTC與AI大模型接入EasyRTC：打造輕量級、高實時、強互動的嵌入式音視頻解決方案

基于WebRTC與AI大模型接入EasyRTC：打造輕量級、高實時、強互動的嵌入式音視頻解決方案

隨著物聯網和嵌入式技術的快速發展，嵌入式設備對實時音視頻通信的需求日益增長。然而，傳統的音視頻解決方案往往存在體積龐大、實時性差、互動體驗不佳等問題，難以滿足嵌入式設備的資源限制和應用場景需求。針對以上痛點，本文將介…

閱讀更多...

AI工作流+專業知識庫+系統API的全流程任務自動化

AI工作流+專業知識庫+系統API的全流程任務自動化

我有點悲觀，甚至很沮喪，因為AI留給普通人的機會不多了，這既是人類之間權力的斗爭，也是硅基生命和碳基生命的斗爭。AI自動化是無法避免的趨勢，如果人類不能平權，那就只能跪下接受審判。通過整合AI工作流、專…

閱讀更多...

Lua | 每日一練 (3)

Lua | 每日一練 (3)

💢歡迎來到張胤塵的技術站 💥技術如江河，匯聚眾志成。代碼似星辰，照亮行征程。開源精神長，傳承永不忘。攜手共前行，未來更輝煌💥 文章目錄 Lua | 每日一練 (3)題目參考答案減少查找次數預分配表…

閱讀更多...

二叉樹（中等題）

二叉樹（中等題）

1、先序，中序遍歷確定二叉樹 105 方法一、前提 ① 必須不能有重復元素② 只有先序＋中序和后序＋中序才能實現唯一樹思考要點： 不要想著用for循環，遞歸一定更好解決輸入是vector，遞歸就得考慮傳入索…

閱讀更多...

服務器通過 ollama 運行deepseek r1

服務器通過 ollama 運行deepseek r1

1、服務器環境簡介 56核 CPU64G 內存無顯卡已安裝 Ollama 2、下載模型與配置正常可以通過 ollama pull 或 ollama run 命令直接下載，但通常會遇到連接超時、找不到網址等總理。因此，可以使用國內的模型站進行下載，在這里使用魔塔查找模型…

閱讀更多...

java項目排查線上問題1111

java項目排查線上問題1111

1.磁盤容量不足： 應用拋出的異常信息：java.io.IOException: 磁盤空間不足 1.1 指令獲取磁盤狀態：df -h 1.2 獲取目錄下文件夾大小：du -sh * 1.3 獲取目錄下文件夾大小：ls -lh 可以找到最大的文件，如日…

閱讀更多...

js中 ES6 新特性詳解

js中 ES6 新特性詳解

ES6（ECMAScript 2015）是 JavaScript 的一次重大更新，引入了許多新的特性，使 JavaScript 代碼更加簡潔、可讀和高效。以下是 ES6 的主要新特性及其原理 1. let 和 const 關鍵字原理解析 1.1 作用域 var 關鍵字的作用域&#xf…

閱讀更多...

深入理解設計模式之解釋器模式

深入理解設計模式之解釋器模式

深入理解設計模式之解釋器模式在軟件開發的復雜世界中，我們常常會遇到需要處理特定領域語言的情況。比如在開發一個計算器程序時，需要解析和計算數學表達式；在實現正則表達式功能時，要解析用戶輸入的正則表達式來匹配文本。這些場景都涉及到對特定語言的解釋和執行，而解…

閱讀更多...

巧妙實現右鍵菜單功能，提升用戶操作體驗

巧妙實現右鍵菜單功能，提升用戶操作體驗

在動態交互式圖庫中，右鍵菜單是一項能夠顯著提升用戶操作便捷性的功能。它的設計既要響應用戶點擊位置，又需確保菜單功能與數據操作緊密結合，比如刪除圖片操作。以下將通過一段實際代碼實現，展示從思路到實現的詳細過程。實現右鍵…

閱讀更多...

??????????????如何使用函數指針來調用函數

??????????????如何使用函數指針來調用函數

在C和C編程中，函數指針是一種特殊類型的指針，它指向一個函數而不是一個變量。使用函數指針可以動態地調用不同的函數，這在實現回調函數、事件處理、策略模式等場景中非常有用。以下是如何定義和使用函數指針來調用函數的步驟： 定…

閱讀更多...

KEGG條形圖繪制

KEGG條形圖繪制

原始數據 setwd("C:\\Users\\HUAWEI\\Desktop\\proteomic_WGCNA\\bacteria\\Eggnog\\KEGGhun") library(ggplot2) library(cols4all) dt <- read.csv("bacteria_KEGG.csv")dt$KEGG_Term <- factor(dt$KEGG_Term, levels rev(dt$KEGG_Term))#基礎富集…

閱讀更多...

My Metronome for Mac v1.4.2 我的節拍器支持M、Intel芯片

My Metronome for Mac v1.4.2 我的節拍器支持M、Intel芯片

應用介紹 My Metronome 是一款適用于 macOS 的專業節拍器應用程序，旨在幫助音樂家、作曲家、學生和任何需要精確節奏控制的人進行練習。無論是進行樂器練習、音樂創作還是演出排練，My Metronome 都能為用戶提供精準的節拍支持和靈活的功能，確…

閱讀更多...

宇樹科技13家核心零部件供應商梳理！

宇樹科技13家核心零部件供應商梳理！

2025年2月6日，摩根士丹利（Morgan Stanley）發布最新人形機器人研報：Humanoid 100: Mapping the Humanoid Robot Value Chain（人形機器人100：全球人形機器人產業鏈梳理）。 Humanoid 100清單清單中…

閱讀更多...

Part 3 第十二章單元測試 Unit Testing

Part 3 第十二章單元測試 Unit Testing

概述第十二章圍繞單元測試展開，闡述了單元測試的實踐與重要性，通過對比其他測試類型，突出其特點，還介紹了單元測試的最佳實踐、避免的反模式以及與測試替身相關的內容，為編寫高質量單元測試提供指導。章節概要 1…

閱讀更多...

【Vite SVG 圖標方案：vite-plugin-svg-icons 指南】

【Vite SVG 圖標方案：vite-plugin-svg-icons 指南】

🌟 Vite SVG 圖標方案：vite-plugin-svg-icons 指南 📜 背景與痛點 🌍 前端圖標演進史 1.0 🖼? 圖片圖標 → 2.0 🎭 字體圖標 → 3.0 🎨 SVG 圖標傳統方案存在三大痛點： 字體圖標…

閱讀更多...

go flag參數類似Java main 的args

go flag參數類似Java main 的args

兩部分內容 go run test1.go aa -name 123 1. 解析：aa -name 123 2. 解析：name 123 代碼 package mainimport ("log""os" )func main() {log.Println("main ...")if len(os.Args) > 0 {for index, arg : ra…

閱讀更多...

酒店旅游API：數據交互的隱形橋梁——以攜程API為例

酒店旅游API：數據交互的隱形橋梁——以攜程API為例

一、API：酒店和第三方服務無縫連接。核心價值： 實時數據互通：房態、價格、庫存秒級同步。業務流程自動化：預訂、支付、確認全程無需人工干預。生態擴展：開發者可基于API構建定制化工具（如比價插件、智能…

閱讀更多...

深入理解 JSP 與 Servlet：原理、交互及實戰應用

深入理解 JSP 與 Servlet：原理、交互及實戰應用

一、引言在 Java Web 開發領域，JSP（JavaServer Pages）和 Servlet 是兩個至關重要的技術，它們共同構成了動態網頁開發的基礎。Servlet 作為服務器端的 Java 程序，負責處理客戶端請求并生成響應；而 JSP 則是一種簡化的 Servlet 開發方式，允許開發者在 HTML 頁面中嵌入 J…

閱讀更多...

【JavaScript】《JavaScript高級程序設計 (第4版) 》筆記-Chapter20-JavaScript API

【JavaScript】《JavaScript高級程序設計 (第4版) 》筆記-Chapter20-JavaScript API

二十、JavaScript API JavaScript API 隨著 Web 瀏覽器能力的增加，其復雜性也在迅速增加。從很多方面看，現代 Web 瀏覽器已經成為構建于諸多規范之上、集不同 API 于一身的“瑞士軍刀”。瀏覽器規范的生態在某種程度上是混亂而無序的。一些規范如 HTML5&…

閱讀更多...

最新文章