如何在AMD MI300X 服務器上部署 DeepSeek R1模型？

DeepSeek-R1憑借其深度推理能力備受關注，在語言模型性能基準測試中可與頂級閉源模型匹敵。

AMD Instinct MI300X GPU可在單節點上高效運行新發布的DeepSeek-R1和V3模型。

用戶通過SGLang優化，將MI300X的性能提升至初始版本的4倍，且更多優化將在未來幾周內集成到開源代碼中。

MI300X的高內存帶寬和容量優勢，使Chain of Thought（CoT）推理能更快速、高效地訪問大內存，支持實際應用中更長序列的處理。

在本博文中，我們將探討DeepSeek-R1如何在AMD Instinct? MI300X GPU上實現卓越性能，并與H200進行性能對比。借助MI300X，用戶可在單節點上高效部署DeepSeek-R1和V3模型。僅通過兩周的SGLang優化，推理速度已提升高達4倍，確保了高效擴展、更低延遲及優化吞吐量。MI300X的高帶寬內存（HBM）和強大算力可處理復雜AI任務，支持更長序列和高要求推理。AMD與SGLang社區持續推進優化，包括融合MoE內核、MLA內核融合及推測性解碼，使MI300X的AI推理體驗更加強大。

目前，企業除了可以從AMD官方預定MI300X以外，還可以通過云平臺來使用MI300X，例如DigitalOcean 最新推出的基于MI300X的GPU 裸金屬服務器（具體詳情可咨詢卓普云）。

DeepSeek模型部署挑戰

盡管大規模部署需求日益迫切，但實現最優推理性能仍面臨技術挑戰。DeepSeek-R1是一個超大規模模型（參數量超640 GB），即使以FP8精度訓練，也無法在8卡NVIDIA H100單節點中部署。此外，其多頭潛在注意力（MLA）和專家混合（MoE）架構需要高度優化的內核以實現高效擴展和定制化優化。最后，適配支持塊量化FP8 GEMM內核對最大化吞吐量和性能至關重要，因此內核調優是高效執行的關鍵。

在MI300X上使用SGLang

SGLang是面向LLM和VLM的高性能開源推理框架，提供高效運行時、廣泛模型支持及活躍社區，正被行業廣泛采用。AMD作為SGLang的核心貢獻者，與社區緊密合作，優化AMD Instinct GPU上的LLM推理。為提供最佳MI300X開箱即用體驗，SGLang已發布預構建Docker鏡像和文件，既可用于生產部署，也可作為定制化用例的起點。

基準測試關鍵結論

以下是SGLang在Instinct MI300X上的推理基準測試要點：

僅兩周內，通過優化FP8精度的6710億參數DeepSeek-R1模型（非精簡版），推理性能提升高達4倍，所有優化已集成到SGLang（圖1）。
DeepSeek-R1和V3模型在MI300X上經過高度優化，充分利用其強大算力和大容量HBM內存。

對于需低延遲的在線推理場景（如聊天應用），單節點8卡MI300X在32并發請求下仍可保持每輸出token時間（TPOT）低于50ms。離線任務則可通過更大并發設置提升吞吐量。

圖2顯示，當最大并發從1增至32時，性能主要受限于內存；而32至64并發區間則轉為計算瓶頸。

如何復現基準測試

以下是MI300X和H200的測試步驟（假設模型已下載）：

在MI300X上

1、下載Docker鏡像：

docker pull rocm/sglang-staging:20250212

2、運行容器：

docker run -d -it --ipc=host --network=host --privileged --device=/dev/kfd --device=/dev/dri --device=/dev/mem --group-add render --security-opt seccomp=unconfined -v /home:/workspace rocm/sglang-staging:20250212  
docker exec -it <container_id> bash

3、啟動推理服務：

HSA_NO_SCRATCH_RECLAIM=1 python3 -m sglang.launch_server --model /workspace/models/DeepSeek-R1/ --tp 8 --trust-remote-code

4、運行客戶端請求：

concurrency_values=(128 64 32 16 8 4 2 1)  
for concurrency in "${concurrency_values[@]}";do  python3 -m sglang.bench_serving \  --dataset-name random \  --random-range-ratio 1 \  --num-prompt 500 \  --random-input 3200 \  --random-output 800 \  --max-concurrency "${concurrency}"  
done

在H200上

1、下載Docker鏡像：

docker pull lmsysorg/sglang:v0.4.2.post3-cu125

2、運行容器：

docker run -d -it --rm --gpus all --shm-size 32g -p 30000:30000 -v /home:/workspace --ipc=host lmsysorg/sglang:v0.4.2.post4-cu125  
docker exec -it <container_id> bash

3、使用與MI300X相同的命令運行基準測試：

HSA_NO_SCRATCH_RECLAIM=1 python3 -m sglang.launch_server --model /workspace/models/DeepSeek-R1/ --tp 8 --trust-remote-code

完成以上步驟后，就可以在MI300X服務器上實時運行DeepSeek-R1的聊天應用了。

未來方向

未來AMD與SGLang將推出更多優化，包括：

融合MoE內核優化
MLA內核融合
集群通信增強
數據并行（DP）與專家并行（EP）
前向計算與解碼分離
投機性解碼

這些改進將進一步釋放MI300X的潛力，為AI推理帶來更強大的性能。另外，如果希望機遇MI300X部署進行AI產品開發，歡迎了解DigitalOcean GPU Droplet服務器，?具體詳情可咨詢DigitalOcean中國區獨家戰略合作伙伴卓普云。?

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/bicheng/76461.shtml
繁體地址，請注明出處：http://hk.pswp.cn/bicheng/76461.shtml
英文地址，請注明出處：http://en.pswp.cn/bicheng/76461.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！