deepseek開源資料匯總

?參考:DeepSeek“開源周”收官,連續五天到底都發布了什么?

目錄

一、首日開源-FlashMLA

二、Day2 DeepEP

三、Day3 DeepGEMM

四、Day4 DualPipe & EPLB

五、Day5 3FS & Smallpond

總結


一、首日開源-FlashMLA

多頭部潛在注意力機制(Multi-head Latent Attention)

https://github.com/deepseek-ai/FlashMLA (CUDA)

這是專為英偉達Hopper GPU(H100)優化的高效MLA解碼內核,專為處理可變長度序列設計。

在自然語言處理等任務里,數據序列長度不一,傳統處理方式會造成算力浪費。而FlashMLA如同智能交通調度員,能依據序列長度動態調配計算資源。例如在同時處理長文本和短文本時,它可以精準地為不同長度的文本分配恰當的算力,避免 “大馬拉小車” 或資源不足的情況。發布6小時內,GitHub上收藏量突破5000次,被認為對國產GPU性能提升意義重大。

具體講解:【DeepSeek開源周】Day 1:FlashMLA 學習筆記_自然語言處理_藍海星夢-DeepSeek技術社區

  • 傳統的MHA機制

  • DeepSeek-V3的MLA機制

MLA 是多頭部潛在注意力機制(Multi-head Latent Attention),其本質是對KV有損壓縮,提高存儲信息密度的同時盡可能保留關鍵細節。 它的核心原理是對注意力鍵(Key)和值(Value)進行低秩壓縮,使用兩個線性層和來代替一個大的 Key/Value 投影矩陣,將輸入投影到一個低維空間,然后將其投影回原始維度,從而減少存儲和計算量。此外,MLA 還可對查詢(Query)進行低秩壓縮,以進一步減少激活內存。

針對MLA與MHA的通俗解釋

MLA(Multi-head Latent Attention)和 MHA(Multi-Head Attention)都可以用來實現注意力機制,但它們并不是完全并行的“思考方式”選擇,而是針對不同目標優化的設計。

我們可以用圖書館查閱的比喻來理解兩者的核心差異:

  • MHA 的思考方式:想象你在一個傳統的巨型圖書館查閱資料,每本書(每個注意力頭)都完整保留所有原始內容(完整 K/V 緩存),書架按主題(頭數 h)嚴格分區。查閱時每次需要回答問題(計算注意力),必須跑到每個主題區(每個頭)翻遍對應書架的所有書籍(加載全部 K/V)

  • MLA 的思考方式:更像是現代化數字圖書館,書籍壓縮歸檔。將相似主題的書籍(h 個頭)打包成精華合輯(若干組潛在狀態),只保留核心摘要(潛在 K/V),同時為每個合輯建立關鍵詞標簽(潛在變量),實時更新內容概要。查閱時先通過關鍵詞標簽(潛在狀態)定位相關合輯(組),快速瀏覽摘要(全局注意力),必要時調取合輯內的原始書籍(局部注意力),但頻次大幅降低。

相比之下,MHA方式中每個主題區存在重復內容,且隨著藏書量增加(序列變長),找書耗時將會快速增長(O(n2)復雜度),這樣造成了空間浪費和效率的低下。而MLA找書時間從翻遍全館變為先看目錄再精準查閱(復雜度從降為 O(n) 主導),顯著提升了查找效率。

二、Day2 DeepEP

開源EP通信庫

https://github.com/deepseek-ai/DeepEP(CUDA)

博客講解:【DeepSeek開源周】Day 2:DeepEP 學習筆記_開源_藍海星夢-DeepSeek技術社區

DeepEP是首個用于MoE(混合專家模型)訓練和推理的開源EP通信庫。MoE模型訓練和推理中,不同專家模型需高效協作,這對通信效率要求極高。DeepEP支持優化的全對全通信模式,就像構建了一條順暢的高速公路,讓數據在各個節點間高效傳輸。

它還原生支持FP8低精度運算調度,降低計算資源消耗,并且在節點內和節點間都支持NVLink和RDMA,擁有用于訓練和推理預填充的高吞吐量內核以及用于推理解碼的低延遲內核。簡單來說,它讓MoE模型各部分間溝通更快、消耗更少,提升了整體運行效率 。

在 DeepSeek‐V3 的 MoE 模塊中,主要包含兩類專家:

  • 路由專家(Routed Experts):每個 MoE 層包含 256 個路由專家,這些專家主要負責處理輸入中某些特定、專業化的特征。

  • 共享專家(Shared Expert):每個 MoE 層中還有 1 個共享專家,用于捕捉通用的、全局性的知識,為所有輸入提供基本的特征提取支持。

token傳入MoE時的處理流程:

  • 計算得分:首先,經過一個專門的 Gate 網絡,該網絡負責計算 token 與各個路由專家之間的匹配得分。

  • 選擇專家:基于得分,Gate 網絡為每個 token 選擇 Top-K 個最合適的路由專家(DeepSeek‐V3 中通常選擇 8 個)

  • 各自處理:被選中的專家各自對 token 進行獨立處理,產生各自的輸出。

  • 合并輸出:最終,根據 Gate 網絡給出的權重加權聚合這些專家的輸出,再與共享專家的輸出進行融合,形成當前 MoE 層的最終輸出表示。

三、Day3 DeepGEMM

矩陣乘法加速庫

https://github.com/deepseek-ai/DeepGEMM(python)

博客:【DeepSeek開源周】Day 3:DeepGEMM 學習筆記_學習_藍海星夢-DeepSeek技術社區

矩陣乘法加速庫,為V3/R1的訓練和推理提供支持。通用矩陣乘法是眾多高性能計算任務的核心,其性能優化是大模型降本增效的關鍵。DeepGEMM采用了DeepSeek-V3中提出的細粒度scaling技術,僅用300行代碼就實現了簡潔高效的FP8通用矩陣乘法

它支持普通GEMM以及專家混合(MoE)分組GEMM,在Hopper GPU上最高可達到1350+ FP8 TFLOPS(每秒萬億次浮點運算)的計算性能,在各種矩陣形狀上的性能與專家調優的庫相當,甚至在某些情況下更優,且安裝時無需編譯,通過輕量級JIT模塊在運行時編譯所有內核。

  1. 核心亮點

  • FP8 低精度支持:DeepGEMM 最大的特色在于從架構上優先設計為 FP8 服務。傳統GEMM庫主要優化FP16和FP32,而DeepGEMM針對FP8的特殊性進行了優化設計。

  • 極致性能與極簡核心實現:DeepGEMM在NVIDIA Hopper GPU上實現了高達1350+ FP8 TFLOPS的計算性能,同時其核心代碼僅有約300行

  • JIT 即時編譯:DeepGEMM 不是預先編譯好所有可能配置的內核,而是利用 JIT 在運行時生成最佳內核。例如,根據矩陣大小、FP8尺度等參數,JIT 會即時優化指令順序和寄存器分配。

  • 傳統矩陣乘法 vs. DeepGEMM算法

特性傳統矩陣乘法DeepGEMM算法
計算方式逐元素順序計算,無并行加速利用GPU并行計算,分塊處理,使用張量核心等優化
計算速度慢,尤其在大規模矩陣時效率低下極快,能在短時間內完成大規模矩陣乘法
內存使用內存占用高,可能面臨內存不足問題內存管理高效,避免內存瓶頸
適用場景適用于小型或簡單矩陣運算場景專為大規模矩陣運算設計,如深度學習模型訓練和推理

四、Day4 DualPipe & EPLB

DualPipe:https://github.com/deepseek-ai/DualPipe(python)

EPLB:https://github.com/deepseek-ai/EPLB(python)

博文:https://deepseek.csdn.net/67da0cb5807ce562bfe34746.html

DualPipe是一種用于V3/R1訓練中計算與通信重疊的雙向管道并行算法。以往的管道并行存在 “氣泡” 問題,即計算和通信階段存在等待時間,造成資源浪費。DualPipe通過實現 “向前” 與 “向后” 計算通信階段的雙向重疊,將硬件資源利用率提升超30%。

EPLB則是一種針對V3/R1的專家并行負載均衡器。基于混合專家(MoE)架構,它通過冗余專家策略復制高負載專家,并結合啟發式分配算法優化GPU間的負載分布,減少GPU閑置現象。

五、Day5 3FS & Smallpond

https://github.com/deepseek-ai/3FS(C++)

https://github.com/deepseek-ai/smallpond (python)

博文:https://deepseek.csdn.net/67db6b09b8d50678a24ed021.html

DeepSeep開源了面向全數據訪問的推進器3FS,也就是Fire-Flyer文件系統。它是一個專門為了充分利用現代SSD和RDMA網絡帶寬而設計的并行文件系統,能實現高速數據訪問,提升AI模型訓練和推理的效率。

此外,DeepSeek還開源了基于3FS的數據處理框架Smallpond,它可以進一步優化3FS的數據管理能力,讓數據處理更加方便、快捷。

總結

在 2025 年 2 月 24 日至 28 日的 DeepSeek 開源周期間,DeepSeek 開源了五個核心項目,這些項目涵蓋了 AI 開發的計算優化、通信效率和存儲加速等關鍵領域,共同構成了一個面向大規模 AI 的高性能基礎設施。

  • FlashMLA:針對 NVIDIA Hopper GPU 優化的多頭線性注意力解碼內核,顯著提升了推理效率,支持實時翻譯和長文本處理。

  • DeepEP:專為混合專家模型(MoE)設計的通信庫,通過優化節點間數據分發與合并,大幅提升了訓練速度。

  • DeepGEMM:基于 FP8 的高效矩陣乘法庫,專為 MoE 模型優化,顯著提升了大規模矩陣運算效率。

  • DualPipe & EPLB:創新的雙向流水線并行算法和動態負載均衡工具,優化了資源利用率,提升了并行訓練效率。

  • 3FS & Smallpond:高性能分布式文件系統,支持 RDMA 網絡和 SSD 存儲,解決了海量數據的高速存取與管理問題。

參考:

https://devpress.csdn.net/user/Eternity__Aurora

https://github.com/orgs/deepseek-ai/repositories?type=all

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/82728.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/82728.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/82728.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【C++ Qt】認識Qt、Qt 項目搭建流程(圖文并茂、通俗易懂)

每日激勵:“不設限和自我肯定的心態:I can do all things。 — Stephen Curry” 緒論?: 本章將開啟Qt的學習,Qt是一個較為古老但仍然在GUI圖形化界面設計中有著舉足輕重的地位,因為它適合嵌入式和多種平臺而被廣泛使用…

AI應用 Markdown 渲染對比與原生實現方案

DeepSeek、豆包、騰訊元寶、ChatGPT 渲染實現對比表 產品解析方式渲染引擎/庫UI 組件架構Markdown支持范圍流程圖/導圖支持擴展架構及裁剪流式解析渲染DeepSeek原生解析(非WebView)采用 CommonMark 標準解析器(推測使用 Markwon 庫&#xff…

Ubuntu20.04系統安裝,使用系統盤安裝

1、系統安裝 Ubuntu20.04系統安裝,使用系統盤安裝 查看ubuntu系統版本 lsb_release -a:顯示發行版名稱、版本號及代號 (base) rootai-System-Product-Name:/media/ai/wh/clash-for-linux-master# lsb_release -a No LSB modules are available. Distri…

(自用)Java學習-5.19(地址管理,三級聯動,預支付)

1. 地址管理模塊 地址展示 前端:通過 showAddress() 發起 Ajax GET 請求,動態渲染地址列表表格,使用 #{tag}、#{name} 等占位符替換真實數據。 后端: 控制器層調用 AddressService,通過 AddressMapper 查詢用戶地址數…

Spring 循環依賴:從原理到解決方案的全面解析

Spring 循環依賴:從原理到解決方案的全面解析 一、循環依賴的定義與分類 1. 什么是循環依賴? 在 Spring 框架中,循環依賴指的是多個 Bean 之間形成了依賴閉環。例如: Bean A 依賴 Bean BBean B 依賴 Bean CBean C 又依賴 Bean…

n 階矩陣 A 可逆的充分必要條件是 ∣ A ∣ ≠ 0

n 階矩陣 A 可逆的充分必要條件是 ∣ A ∣ ≠ 0 |A| \neq 0 ∣A∣0 的幾何意義 1. 行列式的幾何意義回顧 行列式 ∣ A ∣ |A| ∣A∣(或 det ? ( A ) \det(A) det(A))表示矩陣 A A A 所對應的線性變換對空間的體積縮放因子: ∣ A ∣ &…

Rockey Linux 安裝ffmpeg

1.環境準備 Rockey linux 9.2 ffmpeg 靜態資源包 這個是我自己的: https://download.csdn.net/download/liudongyang123/90920340https://download.csdn.net/download/liudongyang123/90920340 這個是官網的 Releases BtbN/FFmpeg-Builds GitHub 以上兩個資…

wordcount在集群上的測試

1.將louts.txt文件從cg計算機復制到master節點上面,存放在/usr/local/hadoop 需要輸入密碼:83953588abc scp /root/IdeaProjects/mapReduceTest/lotus.txt root172.18.0.2:/usr/local/hadoop /WordCountTest/input 2.將lotus.txt文件從master這臺機器…

AI+制造:中小企業的低成本智能化轉型

文章內容過長,可以考慮直接跳轉到文章末尾查看概要圖 在制造業競爭日益激烈的今天,中小企業正面臨著前所未有的挑戰:人力成本持續攀升、能源消耗居高不下、質量控制難度增加。與此同時,數字化轉型已成為行業共識,但高…

Linux C/C++編程 —— 線程技術總結

一、線程基本概念 線程是進程內的一個執行單元,多個線程共享進程的資源(如內存、文件描述符等),但每個線程擁有自己的寄存器、棧等。與進程相比,線程的創建、切換開銷較小,能更高效地利用 CPU 資源。 二、…

Femap許可證與網絡安全策略

隨著科技的快速發展,網絡安全問題已成為各行各業關注的焦點。在電磁仿真領域,Femap作為一款領先的軟件,其許可證的安全性和網絡策略的重要性不言而喻。本文將探討Femap許可證與網絡安全策略的關系,確保您的電磁仿真工作能夠在一個…

深度解析:SQLynx 如何筑牢數據庫安全防線?

在數據驅動業務發展的時代,數據庫作為企業核心資產的 “保險箱”,其安全性至關重要。一旦數據庫遭遇攻擊、數據泄露或被誤操作,將給企業帶來不可估量的損失。而 SQLynx 作為一款專注于數據庫安全管理的工具,憑借其多項創新技術與功…

更新時間相差8個小時

下面的java代碼在updateFill方法里面生成的modifiedTime時間是當前時間是正確的,為什么到service層testCommonFieldAutoUpdate方法里面去更新的時候modifiedTime就差8個小時呢?代碼如下所示: Slf4j Component public class MpMetaObjectHand…

Windows逆向工程提升之IMAGE_TLS_DIRECTORY

公開視頻 -> 鏈接點擊跳轉公開課程博客首頁 -> ???鏈接點擊跳轉博客主頁 目錄 TLS的作用 TLS的實現 靜態 TLS?? 動態 TLS?? 內部實現 回調機制 TLS Directory 的結構 TLS的作用 TLS (Thread Local Storage) 是一種用于為多線程應用程序提供線程獨立存儲空…

云效流水線Flow使用記錄

概述 最近在頻繁使用阿里云云效的幾款產品,如流水線。之前寫過一篇,參考云效流水線緩存問題。 這篇文章來記錄更多問題。 環境變量 不管是云效流水線Flow還是應用交付AppStack(基于流水線,后文不再贅述)&#xff0…

Android中獲取控件尺寸進階方案

在Android開發中,很多場景都需要獲取控件(View)的寬高信息,比如動態布局調整、動畫效果實現等。然而,直接在Activity的onCreate()中調用控件的getWidth()或getHeight()`方法,得到結果卻是0,因為控件還沒完成布局測量。 本文總結了幾種獲取控件大小的實用方法,并對各方…

android 輸入系統

一、輸入系統的核心角色與分層架構 Android 輸入系統的本質是橋梁:一端連接硬件驅動產生的原始事件,另一端將事件精準派發給應用窗口。整個過程涉及三層架構和多個關鍵組件,可類比為 “快遞分揀系統”: 1. 硬件與內核層&#xf…

ubuntu中,c和c+程序,預編譯、編譯、鏈接和運行命令

目錄 安裝編譯器一.c編譯運行(粗暴簡單)1.編寫 C 程序:2. 預處理:3.編譯:4. 匯編:5. 鏈接:6.運行 二.c編譯運行(粗暴簡單)1.編寫 C 程序:2.預處理&#xff1a…

【FastAPI】--2.進階教程(一)

【FastAPI】--基礎教程-CSDN博客 app.get和post的參數: 參數類型說明pathstr路由路徑(如 "/marks"),必填。response_modelType[T]定義響應數據的模型(如 percent),會自動校驗和序列…

KT6368A通過藍牙芯片獲取手機時間詳細說明,對應串口指令舉例

一、功能簡介 KT6368A雙模藍牙芯片支持連接手機,獲取手機的日期、時間信息,可以同步RTC時鐘 1、無需安裝任何app,直接使用系統藍牙即可實現 2、同時它不影響音頻藍牙,還支持一些簡單的AT指令進行操作 3、實現的方式&#xff1…