極簡 5 步：Ubuntu+RTX4090 源碼編譯 vLLM

- 1. 系統依賴（一次性）
- 2. 進入源碼目錄 & 激活環境
- 3. 啟用 ccache + 自動并行度
- 4. 拉代碼 + 編譯（2 行搞定）
- 5. 更新 flash-attn（與 vLLM 配套）
- 6. 啟動 4 卡 MiniCPM-V-4

1. 系統依賴（一次性）

sudo apt install -y build-essential git cmake ninja-build ccache

? 安裝完成后，后續無需再動系統。

2. 進入源碼目錄 & 激活環境

cd /root/myvllm/vllm_main
conda activate vllm_main

3. 啟用 ccache + 自動并行度

export CC="ccache gcc"
export CXX="ccache g++"
export NVCC="ccache nvcc"
export CCACHE_NOHASHDIR=trueCORES=$(nproc)
MEM_GB=$(free -g | awk 'NR==2{print $7}')
MAX_JOBS=$(( MEM_GB / 2 ))
[[ $MAX_JOBS -eq 0 ]] && MAX_JOBS=1
[[ $MAX_JOBS -gt $CORES ]] && MAX_JOBS=$CORES
export MAX_JOBS
echo "本次編譯 MAX_JOBS=$MAX_JOBS"

4. 拉代碼 + 編譯（2 行搞定）

git pull
pip install -r requirements/build.txt
pip install --no-build-isolation -e . -U

首次 ≈ 5-10 min
增量 ≈ 30 s

5. 更新 flash-attn（與 vLLM 配套）

pip install flash_attn==2.8.0.post2 -U

6. 啟動 4 卡 MiniCPM-V-4

vllm serve /root/HuggingFaceCache/MiniCPM-V-4 \--tensor-parallel-size 4 \--gpu-memory-utilization 0.85 \--served-model-name gpt-4o \--trust-remote-code

完結！

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/diannao/95128.shtml
繁體地址，請注明出處：http://hk.pswp.cn/diannao/95128.shtml
英文地址，請注明出處：http://en.pswp.cn/diannao/95128.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！