docker-vllm運行大模型

vllm鏡像下載，國內代理源
vllm/vllm-openai - Docker Image - 毫秒鏡像https://1ms.run/r/vllm/vllm-openai
執行下載docker pull docker.1ms.run/vllm/vllm-openai

查看本地鏡像

查看鏡像

查看鏡像
docker images導出鏡像
docker save -o E:\docker\ollama.tar docker.1ms.run/ollama/ollama:latest
導入鏡像
docker load < ollama.tar

啟動鏡像
?

docker run --runtime nvidia --gpus '"device=0,1,2,3"'  --name vllm-qwen2.5-vl-7b \-v /data/models:/home/models \-p 8001:8000 \--ipc=host \-d \docker.1ms.run/vllm/vllm-openai:latest \--model /home/models/Qwen2.5-VL-7B-Instruct-AWQ \--served-model-name "Qwen2.5-VL-7B-Instruct-AWQ" \--max-num-batched-tokens 8192 \--max-num-seqs 1024 \--tensor-parallel-size 4

參數解釋：
-v ：目錄映射
--gpus 使用卡數

ps：
如遇到如下問題，可在啟動命令上增加?--privileged

示例
?

docker run --privileged --runtime nvidia --gpus '"device=0,1,2,3"'  --name vllm-qwen2.5-vl-7b \-v /data/models:/home/models \-p 8001:8000 \--ipc=host \-d \docker.1ms.run/vllm/vllm-openai:latest \--model /home/models/Qwen2.5-VL-7B-Instruct-AWQ \--served-model-name "Qwen2.5-VL-7B-Instruct-AWQ" \--max-num-batched-tokens 8192 \--max-num-seqs 1024 \--tensor-parallel-size 4

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/diannao/80949.shtml
繁體地址，請注明出處：http://hk.pswp.cn/diannao/80949.shtml
英文地址，請注明出處：http://en.pswp.cn/diannao/80949.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！