A10服務器使用vllm推理框架成功運行Qwen3大模型

1.下載Qwen3大模型：

git clone https://www.modelscope.cn/Qwen/Qwen3-1.7B.git

放在服務器的/mnt/workspace/Qwen3-1.7B目錄下。

2.創建python虛擬環境：

python3 -m venv venv1
source venv1/bin/activate

3.安裝vllm推理框架

pip install vllm

在這里插入圖片描述

4.啟動vllm服務

CUDA_VISIBLE_DEVICES=0 \
python3 -m vllm.entrypoints.openai.api_server \--model /mnt/workspace/Qwen3-1.7B \--served-model-name qwen3 \--gpu-memory-utilization=0.85 \--tensor-parallel-size 1 \--trust-remote-code

注意以下幾點：
（1）如果不指定端口，則vllm默認端口是8000；
（2）參數gpu-memory-utilization必須加上，不然可能會報oom顯存不足的錯誤；
（3）tensor-parallel-size的個數，取決于使用的GPU數量。
啟動需加載1-2分鐘左右，啟動結果如下：
在這里插入圖片描述

5.查詢大模型

curl http://localhost:8000/v1/models

查詢到名字為qwen3的模型：
在這里插入圖片描述

6.調用大模型服務

curl http://localhost:8000/v1/chat/completions -H "Content-Type: application/json" -d '{"model": "qwen3","messages": [{"role": "user", "content": "介紹一下你自己"}],"temperature": 0.7,"top_p": 0.8,"top_k": 20,"max_tokens": 128,"presence_penalty": 1.5,"chat_template_kwargs": {"enable_thinking": false}
}'

返回結果：
在這里插入圖片描述

7.顯卡使用情況

在這里插入圖片描述

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/pingmian/81912.shtml
繁體地址，請注明出處：http://hk.pswp.cn/pingmian/81912.shtml
英文地址，請注明出處：http://en.pswp.cn/pingmian/81912.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！