極簡 5 步:Ubuntu+RTX4090 源碼編譯 vLLM
- 1. 系統依賴(一次性)
- 2. 進入源碼目錄 & 激活環境
- 3. 啟用 ccache + 自動并行度
- 4. 拉代碼 + 編譯(2 行搞定)
- 5. 更新 flash-attn(與 vLLM 配套)
- 6. 啟動 4 卡 MiniCPM-V-4
1. 系統依賴(一次性)
sudo apt install -y build-essential git cmake ninja-build ccache
? 安裝完成后,后續無需再動系統。
2. 進入源碼目錄 & 激活環境
cd /root/myvllm/vllm_main
conda activate vllm_main
3. 啟用 ccache + 自動并行度
export CC="ccache gcc"
export CXX="ccache g++"
export NVCC="ccache nvcc"
export CCACHE_NOHASHDIR=trueCORES=$(nproc)
MEM_GB=$(free -g | awk 'NR==2{print $7}')
MAX_JOBS=$(( MEM_GB / 2 ))
[[ $MAX_JOBS -eq 0 ]] && MAX_JOBS=1
[[ $MAX_JOBS -gt $CORES ]] && MAX_JOBS=$CORES
export MAX_JOBS
echo "本次編譯 MAX_JOBS=$MAX_JOBS"
4. 拉代碼 + 編譯(2 行搞定)
git pull
pip install -r requirements/build.txt
pip install --no-build-isolation -e . -U
- 首次 ≈ 5-10 min
- 增量 ≈ 30 s
5. 更新 flash-attn(與 vLLM 配套)
pip install flash_attn==2.8.0.post2 -U
6. 啟動 4 卡 MiniCPM-V-4
vllm serve /root/HuggingFaceCache/MiniCPM-V-4 \--tensor-parallel-size 4 \--gpu-memory-utilization 0.85 \--served-model-name gpt-4o \--trust-remote-code
完結!