DeepSeek-R1憑借其深度推理能力備受關注,在語言模型性能基準測試中可與頂級閉源模型匹敵。
AMD Instinct MI300X GPU可在單節點上高效運行新發布的DeepSeek-R1和V3模型。
用戶通過SGLang優化,將MI300X的性能提升至初始版本的4倍,且更多優化將在未來幾周內集成到開源代碼中。
MI300X的高內存帶寬和容量優勢,使Chain of Thought(CoT)推理能更快速、高效地訪問大內存,支持實際應用中更長序列的處理。
在本博文中,我們將探討DeepSeek-R1如何在AMD Instinct? MI300X GPU上實現卓越性能,并與H200進行性能對比。借助MI300X,用戶可在單節點上高效部署DeepSeek-R1和V3模型。僅通過兩周的SGLang優化,推理速度已提升高達4倍,確保了高效擴展、更低延遲及優化吞吐量。MI300X的高帶寬內存(HBM)和強大算力可處理復雜AI任務,支持更長序列和高要求推理。AMD與SGLang社區持續推進優化,包括融合MoE內核、MLA內核融合及推測性解碼,使MI300X的AI推理體驗更加強大。
目前,企業除了可以從AMD官方預定MI300X以外,還可以通過云平臺來使用MI300X,例如DigitalOcean 最新推出的基于MI300X的GPU 裸金屬服務器(具體詳情可咨詢卓普云)。
DeepSeek模型部署挑戰
盡管大規模部署需求日益迫切,但實現最優推理性能仍面臨技術挑戰。DeepSeek-R1是一個超大規模模型(參數量超640 GB),即使以FP8精度訓練,也無法在8卡NVIDIA H100單節點中部署。此外,其多頭潛在注意力(MLA)和專家混合(MoE)架構需要高度優化的內核以實現高效擴展和定制化優化。最后,適配支持塊量化FP8 GEMM內核對最大化吞吐量和性能至關重要,因此內核調優是高效執行的關鍵。
在MI300X上使用SGLang
SGLang是面向LLM和VLM的高性能開源推理框架,提供高效運行時、廣泛模型支持及活躍社區,正被行業廣泛采用。AMD作為SGLang的核心貢獻者,與社區緊密合作,優化AMD Instinct GPU上的LLM推理。為提供最佳MI300X開箱即用體驗,SGLang已發布預構建Docker鏡像和文件,既可用于生產部署,也可作為定制化用例的起點。
基準測試關鍵結論
以下是SGLang在Instinct MI300X上的推理基準測試要點:
- 僅兩周內,通過優化FP8精度的6710億參數DeepSeek-R1模型(非精簡版),推理性能提升高達4倍,所有優化已集成到SGLang(圖1)。
- DeepSeek-R1和V3模型在MI300X上經過高度優化,充分利用其強大算力和大容量HBM內存。
對于需低延遲的在線推理場景(如聊天應用),單節點8卡MI300X在32并發請求下仍可保持每輸出token時間(TPOT)低于50ms。離線任務則可通過更大并發設置提升吞吐量。
圖2顯示,當最大并發從1增至32時,性能主要受限于內存;而32至64并發區間則轉為計算瓶頸。
如何復現基準測試
以下是MI300X和H200的測試步驟(假設模型已下載):
在MI300X上
1、下載Docker鏡像:
docker pull rocm/sglang-staging:20250212
2、運行容器:
docker run -d -it --ipc=host --network=host --privileged --device=/dev/kfd --device=/dev/dri --device=/dev/mem --group-add render --security-opt seccomp=unconfined -v /home:/workspace rocm/sglang-staging:20250212
docker exec -it <container_id> bash
3、啟動推理服務:
HSA_NO_SCRATCH_RECLAIM=1 python3 -m sglang.launch_server --model /workspace/models/DeepSeek-R1/ --tp 8 --trust-remote-code
4、運行客戶端請求:
concurrency_values=(128 64 32 16 8 4 2 1)
for concurrency in "${concurrency_values[@]}";do python3 -m sglang.bench_serving \ --dataset-name random \ --random-range-ratio 1 \ --num-prompt 500 \ --random-input 3200 \ --random-output 800 \ --max-concurrency "${concurrency}"
done
在H200上
1、下載Docker鏡像:
docker pull lmsysorg/sglang:v0.4.2.post3-cu125
2、運行容器:
docker run -d -it --rm --gpus all --shm-size 32g -p 30000:30000 -v /home:/workspace --ipc=host lmsysorg/sglang:v0.4.2.post4-cu125
docker exec -it <container_id> bash
3、使用與MI300X相同的命令運行基準測試:
HSA_NO_SCRATCH_RECLAIM=1 python3 -m sglang.launch_server --model /workspace/models/DeepSeek-R1/ --tp 8 --trust-remote-code
完成以上步驟后,就可以在MI300X服務器上實時運行DeepSeek-R1的聊天應用了。
未來方向
未來AMD與SGLang將推出更多優化,包括:
- 融合MoE內核優化
- MLA內核融合
- 集群通信增強
- 數據并行(DP)與專家并行(EP)
- 前向計算與解碼分離
- 投機性解碼
這些改進將進一步釋放MI300X的潛力,為AI推理帶來更強大的性能。另外,如果希望機遇MI300X部署進行AI產品開發,歡迎了解DigitalOcean GPU Droplet服務器,?具體詳情可咨詢DigitalOcean中國區獨家戰略合作伙伴卓普云。?