在 5090 顯卡上成功安裝 TabbyAPI+Exllamav2 和 vLLM 并非易事,經過一番摸索,我總結了以下詳細步驟,希望能幫助大家少走彎路。
重要提示: 用戶提供的 PyTorch 安裝使用了 cu128
,這并非標準 CUDA 版本。請根據你的系統實際 CUDA 版本(通常為 12.1 或 12.2)進行調整。
1. 安裝 TabbyAPI+Exllamav2
步驟 1:克隆 TabbyAPI 倉庫
git clone https://github.com/theroyallab/tabbyAPI
cd tabbyAPI
步驟 2:創建并激活 Python 虛擬環境
python3 -m venv venv
source venv/bin/activate # 如果使用 fish shell,則使用:source venv/bin/activate.fish
步驟 3:安裝帶有 CUDA 支持的 PyTorch
python -m pip install --pre torch torchvision torchaudio --index-url https://download.pytorch.org/whl/nightly/cu12.1 # 根據實際 CUDA 版本調整
步驟 4:安裝 TabbyAPI 與 Exllamav2(禁用編譯)
EXLLAMA_NOCOMPILE=1 pip install .
步驟 5:安裝所需的系統依賴(如果需要)
sudo apt-get update
sudo apt-get install -y build-essential g++ gcc libstdc++-10-dev ninja-build
步驟 6:安裝 Flash Attention(可選但推薦)
git clone https://github.com/Dao-AILab/flash-attention
cd flash-attention
python -m pip install wheel
python setup.py install
步驟 7:TabbyAPI 安裝完成
請參考 TabbyAPI 的官方文檔了解如何使用。
2. 安裝 vLLM
步驟 1:克隆 vLLM 倉庫
git clone https://github.com/vllm-project/vllm
cd vllm
步驟 2:創建并激活 Python 虛擬環境
python3.12 -m venv venv
source venv/bin/activate # 如果使用 fish shell,則使用:source venv/bin/activate.fish
步驟 3:安裝帶有 CUDA 支持的 PyTorch
python -m pip install --pre torch torchvision torchaudio --index-url https://download.pytorch.org/whl/nightly/cu12.1 # 根據實際 CUDA 版本調整
步驟 4:使用已存在的 PyTorch 安裝(推薦)
python use_existing_torch.py
步驟 5:安裝構建依賴
python -m pip install -r requirements/build.txt
步驟 6:安裝通用依賴
python -m pip install -r requirements/common.txt
步驟 7:從源代碼安裝 vLLM(可編輯模式)
python -m pip install -e . --no-build-isolation
步驟 8:vLLM 安裝完成
請參考 vLLM 的官方文檔了解如何使用。
重要注意事項:
- CUDA 版本: 確保你使用的 CUDA 版本與 5090 顯卡和 PyTorch 安裝相匹配。請驗證你的 NVIDIA 驅動程序支持的 CUDA 版本。
- Python 版本: vLLM 可能對 Python 版本有特定要求。用戶指定了 Python 3.12。請查閱 vLLM 的官方文檔以獲取最新信息。
- 依賴項: 仔細檢查 TabbyAPI 和 vLLM 的
requirements.txt
文件,確保安裝了所有必要的依賴項。 - 虛擬環境: 使用虛擬環境對于隔離項目依賴項和避免沖突至關重要。
- Flash Attention: Flash Attention 可以顯著提高性能,尤其是對于大型模型。如果可能,建議安裝。
- 驅動版本: 確保您的 Nvidia 驅動程序是最新的,并且支持您的 5090 GPU。
- 調整 CUDA 版本: 將
cu12.1
替換為您已安裝的正確 CUDA 版本。