背景
- 八張K100的風扇已經將近一年沒轉過了…
- 早在今年4月29日,Qwen3正式發布并全部開源8款「混合推理模型」。作為Qwen系列中的最新一代大型語言模型,Qwen3在推理、指令遵循、工具調用、多語言能力等方面進行了全面增強。
- 海光DCU(Deep Computing Unit,深度計算單元)是海光信息推出的高端GPGPU架構AI加速卡,致力于為行業客戶提供自主可控的全精度通用AI加速計算解決方案。憑借卓越的算力性能和完備的軟件生態,海光DCU已在科教、金融、醫療、政務、智算中心等多個領域實現規模化應用。
突然
部署
拉鏡像
docker pull image.sourcefind.cn:5000/dcu/admin/base/custom:vllm0.8.4-ubuntu22.04-dtk25.04-rc7-das1.5-py3.10-20250429-dev-qwen3-only
起容器
docker run -it --network=host --hostname=localhost --name Qwen3-vllm_test -v /opt/hyhal:/opt/hyhal:ro -v $PWD:/workspace --ipc=host --device=/dev/kfd --device=/dev/mkfd --device=/dev/dri --shm-size=512G --privileged --group-add video --cap-add=SYS_PTRACE -u root --security-opt seccomp=unconfined -v /nfs2:/home/weight image.sourcefind.cn:5000/dcu/admin/base/custom:vllm0.8.4-ubuntu22.04-dtk25.04-rc7-das1.5-py3.10-20250429-dev-qwen3-only /bin/bash
裝依賴
pip install -U transformers
起服務
cd workspace
vllm serve /home/weight/Qwen3-32B -tp 4 --enforce-eager
一氣呵成