這里需要考慮顯卡是否和模型匹配,支不支持推理
先把模版拉取到本地:git clone?https://github.com/sgl-project/sglang.git
我的位置是 /data/home/sglang
注意模版位于sglang下的examples/chat_template中
根據對應的模版部署模型,比如
docker run -d \--name *** \--gpus all \--...--v .../sglang_main:mnt/sglang_main \ // 把sglang的文件掛載到容器的對應位置
python3 -m sglang.launch_server\--model deepseek-ai/DeepSeek-V3-0324\--tp 8\--port 30000\--host 0.0.0.0\--mem-fraction-static 0.9\--tool-call-parser deepseekv3\--chat-template mnt/sglang_main/examples/chat_template/tool_chat_template_deepseekv3.jinja
注意這里要將模版的路徑掛載到docker容器中,由于我掛在的時候多行命令會解析問題,所以最后要寫成單行命令
完整命令參考:sglang單節點本地部署大模型_docker pull sglang-CSDN博客
部署后測試:測試本地部署的大模型-CSDN博客
ref
??????https://github.com/sgl-project/sglang/pull/5908
https://github.com/sgl-project/sglang/blob/main/examples/chat_template/tool_chat_template_deepseekv3.jinja