DeepSeek 開源狂歡周(五)正式收官|3FS并行文件系統榨干SSD

千呼萬喚始出來!在?DeepSeek 開源周?的第五天,今日正式收官!在大模型訓練中,每個epoch都在與存儲系統進行光速競賽——數據加載延遲會扭曲計算時空,KVCache訪問瓶頸將引發推理坍縮。DeepSeek開源的?3FS文件系統(Fire-Flyer文件系統第三個F代表File),一種利用現代SSD和RDMA網絡的全部帶寬的并行文件系統;正用「存儲相對論」重構AI基礎設施的時空連續性。Smallpond,基于3FS和DuckDB構建的輕量級數據處理框架。

圖片

3FS并行文件系統

技術革命:3FS的四大維度突破

1. 存算分離架構的終極形態
  • 光子引擎:基于RDMA網絡實現零拷貝數據直通,單邊操作占比超92%

  • 時空折疊:三維數據分層(熱/溫/冷數據)動態調度,NVMe SSD吞吐利用率達98%

  • 強一致性保障:CRAQ協議實現微秒級跨節點一致性,比傳統Raft快15倍

2. 性能暴力美學
  • 180節點集群:6.6 TiB/s聚合讀取帶寬,相當于每秒傳輸3部4K《阿凡達》

  • 推理加速:單節點KVCache峰值40 GiB/s,可支撐百萬QPS的向量檢索

  • GraySort基準:25節點3.66 TiB/min排序吞吐,比Hadoop快17倍

全場景性能實測

1. 峰值吞吐量

180節點集群壓測?實現?6.6 TiB/s聚合讀取吞吐:

  • 存儲節點:180個,每節點配備2×200Gbps InfiniBand網卡及16塊14TiB NVMe SSD。

  • 客戶端節點:500+個,每節點配置1×200Gbps InfiniBand網卡。

  • 場景:大塊數據讀取測試,伴隨訓練任務產生的背景流量。

圖片

2. GraySort基準
  • 集群配置:

    • 25個存儲節點(每節點2個NUMA域,2×400Gbps網卡)。

    • 50個計算節點(192物理核心,2.2 TiB內存,1×200Gbps網卡)。

  • 結果:在?30分14秒?內完成?110.5 TiB數據排序(8192個分區),平均吞吐達?3.66 TiB/分鐘。

    圖片

    圖片

3. KVCache性能
  • 讀取吞吐:單客戶端峰值達?40 GiB/s。

  • 垃圾回收(GC)效率:在推理過程中展示高IOPS的GC操作性能。

圖片

圖片

快速開始

從 GitHub 克隆 3FS 倉庫:

git?clone?https://github.com/deepseek-ai/3fs

當?deepseek-ai/3fs?克隆到本地文件系統后,運行以下命令來檢出子模塊:

cd 3fsgit submodule update --init --recursive./patches/apply.sh

根據Ubuntu版本安裝所需的依賴項:

# for Ubuntu 20.04.apt install cmake libuv1-dev liblz4-dev liblzma-dev libdouble-conversion-dev libprocps-dev libdwarf-dev libunwind-dev \ libaio-dev libgflags-dev libgoogle-glog-dev libgtest-dev libgmock-dev clang-format-14 clang-14 clang-tidy-14 lld-14 \
libgoogle-perftools-dev google-perftools libssl-dev ccache libclang-rt-14-dev gcc-10 g++-10 libboost1.71-all-dev
# for Ubuntu 22.04.apt install cmake libuv1-dev liblz4-dev liblzma-dev libdouble-conversion-dev libprocps-dev libdwarf-dev libunwind-dev \libaio-dev libgflags-dev libgoogle-glog-dev libgtest-dev libgmock-dev clang-format-14 clang-14 clang-tidy-14 lld-14 \
libgoogle-perftools-dev google-perftools libssl-dev ccache gcc-12 g++-12 libboost-all-dev

確保安裝了libfuse 3.16.1或更新版本,FoundationDB 7.1或更新版本,以及Rust工具鏈。

在構建目錄中構建3FS:

cmake -S . -B build -DCMAKE_CXX_COMPILER=clang++-14 -DCMAKE_C_COMPILER=clang-14 -DCMAKE_BUILD_TYPE=RelWithDebInfo -DCMAKE_EXPORT_COMPILE_COMMANDS=ON
cmake --build build -j 32

Smallpond輕量級數據處理框架

Smallpond?是基于?3FS 并行文件系統?和?DuckDB?構建的輕量級數據處理框架,專為 AI 數據流水線設計,致力于簡化海量數據的處理與分析流程。其核心目標是提供?聲明式編程接口?和?極致性能優化,覆蓋從數據預處理到模型推理的全場景需求。

性能亮點

  • 1TB 數據排序:37 秒完成(比 Apache Spark 快?83 倍)

  • ANN 向量檢索:單節點 9.8 億向量/秒

  • 流水線延遲:亞毫秒級動態反向壓力控制

應用場景

  • 訓練數據預處理:TB 級數據清洗/特征工程加速

  • 推理結果后處理:實時向量檢索與聚合分析

  • 模型監控:流式日志分析與異常檢測

快速開始???????

# Download example datawget https://duckdb.org/data/prices.parquetimport smallpond# Initialize sessionsp = smallpond.init()# Load datadf = sp.read_parquet("prices.parquet")# Process datadf = df.repartition(3, hash_by="ticker")df = sp.partial_sql("SELECT ticker, min(price), max(price) FROM {0} GROUP BY ticker", df)# Save resultsdf.write_parquet("output/")# Show resultsprint(df.to_pandas())

OpenCSG 社區開源加速計劃

作為OpenCSG社區的一部分,我們一直致力于為開發者提供優質的開源資源。此次DeepSeek的3FS和Smallpond項目已同步到OpenCSG社區,歡迎大家訪問并使用該項目。

3FS項目原始GitHub地址:

https://github.com/deepseek-ai/3FS

Smallpond項目原始GitHub地址:

https://github.com/deepseek-ai/smallpond

OpenCSG社區同步的3FS項目地址:

https://opencsg.com/codes/deepseek-ai/deepseek-3FS

OpenCSG社區同步的 Smallpond項目地址:

https://opencsg.com/codes/deepseek-ai/smallpond

如果您遇到網絡問題無法快速訪問GitHub,可以通過我們的服務輕松同步該項目,確保不受網絡限制影響。

OpenCSG為您提供了DeepSeek R1和V3系列模型的萬兆網絡高速下載服務,幫助您快速獲取所需模型,避免因文件過大造成下載困難。

DeepSeek R1下載:

https://opencsg.com/models/DeepseekAI/DeepSeek-R1?

DeepSeek V3下載:

https://opencsg.com/models/deepseek-ai/DeepSeek-V3

同時,我們還提供了各種蒸餾版、量化版,您可以訪問我們的awesome DeepSeek合集來找到最適合的模型版本。

awesome-deepseek-r1-collection:

https://opencsg.com/collections/85/?

awesome-deepseek-v3-collection:

https://opencsg.com/collections/86/?

awesome-deepseek-Janus-collection:

https://opencsg.com/collections/87/

開源狂歡 繼續期待

OpenAI 社區與您同行?🤝

OpenAI 社區?將繼續關注并為您帶來 DeepSeek 的最新開源成果,讓我們共同期待更多激動人心的技術創新!

DeepSeek開源周匯總???????

DeepSeek開源周,連更5天,終于收官。

  • Day 1: FlashMLA?🔥 自研 MLA 架構,H800 算力榨干!

  • Day 2: DeepEP?🚀 首個 MoE 訓練/推理 EP 通信庫,All-to-All 加速!

  • Day 3: DeepGEMM?💡 通用矩陣乘法庫,300 行代碼解鎖 V3/R1 性能秘籍!

  • Day 4: 連開三源!?🌊 雙向流水線并行 DualPipe、MoE 負載均衡 EPLB,性能分析數據一網打盡!

  • Day 5: 3FS & Smallpond?🏞? 高效分布式文件系統 + 數據處理框架,數據處理更輕松!

DeepSeek 這波操作,夠 Open!

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/70884.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/70884.shtml
英文地址,請注明出處:http://en.pswp.cn/web/70884.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

特征工程中的三大向量化工具詳解

特征工程中的三大向量化工具詳解 在文本處理和特征工程中,TfidfVectorizer、CountVectorizer 和 DictVectorizer 是常用的工具,用于將原始數據轉換為機器學習模型可用的數值特征。以下是它們的核心區別、用法及示例: 1. CountVectorizer&…

C++ Qt常見面試題(4):Qt事件過濾器

在 Qt 中,事件過濾器(Event Filter)提供了一種機制,可以攔截并處理對象的事件(如鼠標事件、鍵盤事件等),在事件到達目標對象之前對其進行預處理。事件過濾器通常用于以下場景: 捕獲和處理特定的事件(如鼠標點擊、按鍵等);對事件進行篩選或修改;實現全局的事件監聽功…

TCP基本入門-簡單認識一下什么是TCP

部分內容來源:小林Coding TCP的特點 1.面向連接 一定是“一對一”才能連接,不能像 UDP 協議可以一個主機同時向多個主機發送消息,也就是一對多是無法做到的 2.可靠的 無論的網絡鏈路中出現了怎樣的鏈路變化,TCP 都可以保證一個…

PING命令TTL解析

在 ping 命令中,TTL(Time to Live,生存時間) 是 IP 數據包的核心字段之一,用于控制數據包在網絡中的生命周期。以下是針對 TTL 的簡明解析: 1. TTL 的核心作用 防循環機制:TTL 是一個計數器&a…

PySide(PyQT)重新定義contextMenuEvent()實現鼠標右鍵彈出菜單

在 PySide中,contextMenuEvent() 是 QWidget 類(以及繼承自它的所有子類)的一個事件處理方法,主要用于處理上下文菜單事件,也就是當用戶在控件上右鍵點擊時觸發的事件。 ? 通過重新定義contextMenuEvent()來實現自定…

GitHub SSH連接問題解決指南

🔍 GitHub SSH連接問題解決指南 問題描述 遇到錯誤:ssh: connect to host github.com port 22: Connection refused 說明您的網絡環境無法訪問GitHub的SSH端口22,常見原因: 防火墻/網絡運營商限制(國內常見&#xf…

Go紅隊開發—并發編程

文章目錄 并發編程go協程chan通道無緩沖通道有緩沖通道創建?緩沖和緩沖通道 等協程sync.WaitGroup同步Runtime包Gosched()Goexit() 區別 同步變量sync.Mutex互斥鎖atomic原子變量 SelectTicker定時器控制并發數量核心機制 并發編程階段練習重要的細節端口掃描股票監控 并發編程…

RabbitMQ 的介紹與使用

一. 簡介 1> 什么是MQ 消息隊列(Message Queue,簡稱MQ),從字面意思上看,本質是個隊列,FIFO先入先出,只不過隊列中存放的內容是message而已。 其主要用途:不同進程Process/線程T…

常用的AI文本大語言模型匯總

AI文本【大語言模型】 1、文心一言https://yiyan.baidu.com/ 2、海螺問問https://hailuoai.com/ 3、通義千問https://tongyi.aliyun.com/qianwen/ 4、KimiChat https://kimi.moonshot.cn/ 5、ChatGPThttps://chatgpt.com/ 6、魔塔GPT https://www.modelscope.cn/studios/iic…

在自己的數據上復現一下LlamaGen

git倉庫:https://github.com/FoundationVision/LlamaGen 數據集準備 如果用ImageFolder讀取,則最好和ImageNet一致。 data_path/class_1/image_001.jpgimage_002.jpg...class_2/image_003.jpgimage_004.jpg......class_n/image_005.jpgimage_006.jpg.…

Go入門之接口

type Usber interface {start()stop() } type Phone struct {Name string }func (p Phone) start() {fmt.Println(p.Name, "啟動") } func (p Phone) stop() {fmt.Println(p.Name, "關機") } func main() {p : Phone{Name: "華為手機",}var p1 U…

【數據結構進階】哈希表

🌟🌟作者主頁:ephemerals__ 🌟🌟所屬專欄:數據結構 目錄 前言 一、哈希表的概念 二、哈希函數的實現方法 1. 直接定址法 2. 除留余數法 三、哈希沖突 1. 開放定址法(閉散列&#xff0…

《深度學習實戰》第4集:Transformer 架構與自然語言處理(NLP)

《深度學習實戰》第4集:Transformer 架構與自然語言處理(NLP) 在自然語言處理(NLP)領域,Transformer 架構的出現徹底改變了傳統的序列建模方法。它不僅成為現代 NLP 的核心,還推動了諸如 BERT、…

高效管理 React 狀態和交互:我的自定義 Hooks 實踐

高效管理 React 狀態和交互:自定義 Hooks 實踐 在 React 中,Hooks 是一種使我們能夠在函數組件中使用狀態和副作用的強大工具。隨著項目的增大,重復的邏輯可能會出現在多個組件中,這時使用自定義 Hooks 就非常合適。它們幫助我們…

Exoplayer(MediaX)實現音頻變調和變速播放

在K歌或錄音類應用中變調是個常見需求,比如需要播出蘿莉音/大叔音等。變速播放在影視播放類應用中普遍存在,在傳統播放器Mediaplayer中這兩個功能都比較難以實現,特別在低版本SDK中,而Exoplayer作為google官方推出的Mediaplayer替…

Meta最新研究:從單張照片到3D數字人的革命性突破

隨著人工智能技術的發展,3D建模和虛擬人物生成逐漸變得更加普及和高效。Meta(前身為Facebook)的最新研究成果展示了如何僅通過一張普通手機拍攝的照片就能生成高質量、全方位的3D數字人。這項技術不僅適用于虛擬試衣、游戲角色建模,還能廣泛應用于AR/VR內容生成等領域。本文…

軟件供應鏈安全工具鏈研究系列——RASP自適應威脅免疫平臺(上篇)

1.1 基本能力 RASP是一種安全防護技術,運行在程序執行期間,使程序能夠自我監控和識別有害的輸入和行為。也就是說一個程序如果注入或者引入了RASP技術,那么RASP就和這個程序融為一體,使應用程序具備了自我防護的能力,…

2025-02-27 學習記錄--C/C++-PTA 7-29 刪除字符串中的子串

合抱之木&#xff0c;生于毫末&#xff1b;九層之臺&#xff0c;起于累土&#xff1b;千里之行&#xff0c;始于足下。&#x1f4aa;&#x1f3fb; 一、題目描述 ?? 二、代碼&#xff08;C語言&#xff09;?? #include <stdio.h> // 引入標準輸入輸出庫&#xff0c…

Redis---字符串SDS(簡單動態字符串)底層結構

文章目錄 什么是SDS&#xff08;簡單動態字符串&#xff09;SDS結構SDS的優點O(1) 時間復雜度獲取字符串長度避免緩沖區溢出減少內存重分配次數二進制安全兼容C語言字符串函數 SDS的操作總結 什么是SDS&#xff08;簡單動態字符串&#xff09; redis是由C語言編寫的&#xff0…

Elasticsearch:使用阿里云 AI 服務進行嵌入和重新排名

作者&#xff1a;來自 Elastic Toms Mura 將阿里云 AI 服務功能與 Elastic 結合使用。 更多閱讀&#xff0c;請參閱 “Elasticsearch&#xff1a;使用阿里 infererence API 及 semantic text 進行向量搜索”。 在本文中&#xff0c;我們將介紹如何將阿里云 AI 功能與 Elastics…