1.下載Qwen3大模型:
git clone https://www.modelscope.cn/Qwen/Qwen3-1.7B.git
放在服務器的/mnt/workspace/Qwen3-1.7B目錄下。
2.創建python虛擬環境:
python3 -m venv venv1
source venv1/bin/activate
3.安裝vllm推理框架
pip install vllm
4.啟動vllm服務
CUDA_VISIBLE_DEVICES=0 \
python3 -m vllm.entrypoints.openai.api_server \--model /mnt/workspace/Qwen3-1.7B \--served-model-name qwen3 \--gpu-memory-utilization=0.85 \--tensor-parallel-size 1 \--trust-remote-code
注意以下幾點:
(1)如果不指定端口,則vllm默認端口是8000;
(2)參數gpu-memory-utilization必須加上,不然可能會報oom顯存不足的錯誤;
(3)tensor-parallel-size的個數,取決于使用的GPU數量。
啟動需加載1-2分鐘左右,啟動結果如下:
5.查詢大模型
curl http://localhost:8000/v1/models
查詢到名字為qwen3的模型:
6.調用大模型服務
curl http://localhost:8000/v1/chat/completions -H "Content-Type: application/json" -d '{"model": "qwen3","messages": [{"role": "user", "content": "介紹一下你自己"}],"temperature": 0.7,"top_p": 0.8,"top_k": 20,"max_tokens": 128,"presence_penalty": 1.5,"chat_template_kwargs": {"enable_thinking": false}
}'
返回結果: