vllm鏡像下載,國內代理源
vllm/vllm-openai - Docker Image - 毫秒鏡像https://1ms.run/r/vllm/vllm-openai
執行下載docker pull docker.1ms.run/vllm/vllm-openai
查看本地鏡像
查看鏡像
查看鏡像
docker images導出鏡像
docker save -o E:\docker\ollama.tar docker.1ms.run/ollama/ollama:latest
導入鏡像
docker load < ollama.tar
啟動鏡像
?
docker run --runtime nvidia --gpus '"device=0,1,2,3"' --name vllm-qwen2.5-vl-7b \-v /data/models:/home/models \-p 8001:8000 \--ipc=host \-d \docker.1ms.run/vllm/vllm-openai:latest \--model /home/models/Qwen2.5-VL-7B-Instruct-AWQ \--served-model-name "Qwen2.5-VL-7B-Instruct-AWQ" \--max-num-batched-tokens 8192 \--max-num-seqs 1024 \--tensor-parallel-size 4
參數解釋:
-v :目錄映射
--gpus 使用卡數
ps:
如遇到如下問題,可在啟動命令上增加?--privileged
示例
?
docker run --privileged --runtime nvidia --gpus '"device=0,1,2,3"' --name vllm-qwen2.5-vl-7b \-v /data/models:/home/models \-p 8001:8000 \--ipc=host \-d \docker.1ms.run/vllm/vllm-openai:latest \--model /home/models/Qwen2.5-VL-7B-Instruct-AWQ \--served-model-name "Qwen2.5-VL-7B-Instruct-AWQ" \--max-num-batched-tokens 8192 \--max-num-seqs 1024 \--tensor-parallel-size 4