ubuntu 22.04, RTX3080, cuda 12.1, cudnn 8.9.7,cuda和cudnn的安裝參考:https://blog.csdn.net/m0_52111823/article/details/147154526?spm=1001.2014.3001.5501。
-
查看版本對應關系,下載12.1對應的whl包,https://github.com/vllm-project/vllm/releases/download/v0.8.3/vllm-0.8.3+cu121-cp38-abi3-manylinux1_x86_64.whl
-
uv創建基于Python 3.11的虛擬環境,參考https://blog.csdn.net/m0_52111823/article/details/147154513?spm=1001.2014.3001.5502
- 修改
xxx/bin/activate
,提供必要的cuda變量引用。
- 修改
-
開始安裝whl包,然后安裝
setuptools
包,因為vllm項目默認為沒有該包。 -
激活環境,測試命令
python -c "from vllm import LLM, SamplingParams; llm = LLM('facebook/opt-125m'); sampling_params = SamplingParams(temperature=0.8, top_p=0.95); outputs = llm.generate('Hello,', sampling_params); print(outputs[0].outputs[0].text)"