【GPT入門】第46課 vllm安裝、部署與使用

1.準備服務器
2. 安裝 conda環境，隔離base環境
3. vllm使用
- 3.1 在線推理, openai兼容服務器
- 3.2 模型離線調用
4. 沒有使用GPU問題分析

1.準備服務器

cuda 版本選12.1
vllm官網介紹：在這里插入圖片描述

https://vllm.hyper.ai/docs/getting-started/installation/gpu
在這里插入圖片描述

2. 安裝 conda環境，隔離base環境

為了實現高性能，vLLM 需要編譯多個 cuda 內核。然而，這一編譯過程會導致與其他 CUDA 版本和 PyTorch 版本的二進制不兼容問題。即便是在相同版本的 PyTorch 中，不同的構建配置也可能引發此類不兼容性。

因此，建議使用全新的 conda 環境安裝 vLLM。如果您有不同的 CUDA 版本，或者想要使用現有的 PyTorch 安裝，則需要從源代碼構建 vLLM。更多說明請參閱下文。

conda create -n vllm python=3.10 -y
conda activate vllmpip install vllm

3. vllm使用

3.1 在線推理, openai兼容服務器

vLLM 可以部署為實現 OpenAI API 協議的服務器。這使得 vLLM 可以作為使用 OpenAI API 的應用程序的直接替代品。默認情況下，服務器在 http://localhost:8000 啟動。您可以使用 --host 和 --port 參數指定地址。服務器目前 1 次托管 1 個模型，并實現了諸如：列出模型、創建聊天補全和創建補全等端點。

運行以下命令以啟動 vLLM 服務器并使用 Qwen2.5-0.5B-Instruct 模型：
使用Qwen2.5模型
pip install model_scope

from modelscope import snapshot_downloadmodel_dir = snapshot_download('Qwen/Qwen2.5-0.5B-Instruct',cache_dir='/root/autodl-tmp/models')
print(model_dir)

啟動服務

vllm serve /root/autodl-tmp/models/Qwen/Qwen2.5-0.5B-Instruct

在這里插入圖片描述

列出模型

curl http://localh

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/web/92988.shtml
繁體地址，請注明出處：http://hk.pswp.cn/web/92988.shtml
英文地址，請注明出處：http://en.pswp.cn/web/92988.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！