一、基礎環境準備
1.1 系統準備
建議使用 Ubuntu22.04
以下配置皆以 Ubuntu22.04 系統版本為例
1.2 安裝git
apt-get update && apt-get install git -y
1.3 安裝 Python 3.9+
【建議安裝 3.10】(安裝miniconda或者conda來管理虛擬環境)
wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh && chmod +x Miniconda3-latest-Linux-x86_64.sh && ./Miniconda3-latest-Linux-x86_64.sh && source ~/.bashrc
1.4 安裝CUDA
目前 Pytorch 官網提示支持 11.8、12.4、12.6【建議 11.8或者 12.4】
# CUDA Toolkit Installer-12.4wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-ubuntu2204.pinsudo mv cuda-ubuntu2204.pin /etc/apt/preferences.d/cuda-repository-pin-600wget https://developer.download.nvidia.com/compute/cuda/12.4.0/local_installers/cuda-repo-ubuntu2204-12-4-local_12.4.0-550.54.14-1_amd64.debsudo dpkg -i cuda-repo-ubuntu2204-12-4-local_12.4.0-550.54.14-1_amd64.debsudo cp /var/cuda-repo-ubuntu2204-12-4-local/cuda-*-keyring.gpg /usr/share/keyrings/sudo apt-get updatesudo apt-get -y install cuda-toolkit-12-4# 安裝驅動sudo apt-get install -y cuda-drivers# 設置環境變量(注意cuda安裝的路徑)echo 'export PATH="/usr/local/cuda-12.4/bin${PATH:+:${PATH}}"' >> ~/.bashrcsource ~/.bashrc # 重新加載配置echo $PATH | grep cuda-12.4 # 驗證 PATHreboot# 重啟后驗證是否可以獲取 nvidia 顯卡信息nvcc --versionnvidia-smi
1.5 安裝CUDNN
下載匹配cuda12.4、ubuntu適用的cudnn包
wget https://developer.download.nvidia.com/compute/cudnn/9.8.0/local_installers/cudnn-local-repo-ubuntu2204-9.8.0_1.0-1_amd64.debsudo dpkg -i cudnn-local-repo-ubuntu2204-9.8.0_1.0-1_amd64.debsudo cp /var/cudnn-local-repo-ubuntu2204-9.8.0/cudnn-*-keyring.gpg /usr/share/keyrings/sudo apt-get updatesudo apt-get -y install cudnn# 使用以下命令進行查看ldconfig -p | grep cudnn
1.6 安裝Pytorch【可選】
# 創建基礎環境
conda create -n ai python==3.12 -y && conda activate ai
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu124
# pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
# pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu126
1.7 創建基礎目錄
mkdir -p ~/work/ai/models ~/work/ai/datasets ~/work/ai/tools/
二、大模型部署框架
2.1 安裝Ollama【可選】
- ollama只支持GGUF格式的模型,如果在modelscope
或者huggingface下載模型,需要注意模型格式(GGUF一般指的是量化后的模型,缺點是模型效果變差,優勢是模型會更小,推理速度會更快,對硬件要求會更低) - mac以及windows上是直接下載客戶端
- ollama一般針對的是個人用戶
conda create -n ollama python==3.10 -y && conda activate ollamacd ~/work/ai/tools && curl -fsSL https://ollama.com/install.sh | sh# 啟動ollama服務(開啟的端口默認是11434)ollama serve# 列出已下載的模型ollama list# 運行模型(沒有的話會從modelscope下載)ollama run qwen2.5:0.5b
2.2 安裝vLLM【可選】
vLLM 是一個 Python 庫,它包含預編譯的 C++ 和 CUDA (12.1) 二進制文件。
通過 PagedAttention 等技術優化 GPU 內存使用,顯著提升推理速度
- 推理性能高,適合實時和大規模推理任務
- 支持分布式推理,適合生產環境
- 兼容 Hugging Face 的 Transformer 模型
要求:
1.操作系統:Linux
2.Python: 3.8 – 3.12
3.GPU: 計算能力 7.0 或更高(例如,V100、T4、RTX20xx、A100、L4、H100 等)
conda create -n vllm python=3.10 -y && conda activate vllm pip install vllm# 運行模型(開啟的端口默認是8000)vllm serve /path/to/model# 顯存不足建議使用以下命令啟動(測試機顯卡為8G 3070ti)# 先強制釋放殘留顯存python -c "import torch; torch.cuda.empty_cache()"# 在進行啟動(以Qwen/Qwen2.5-0.5B-Instruct為例)vllm serve ~/work/ai/models/Qwen/Qwen2.5-0.5B-Instruct \--gpu-memory-utilization 0.95 \--max-model-len 1024 \--block-size 16 \--max-num-seqs 4 \--tensor-parallel-size 1
2.3 安裝LMDeploy【可選】
LMDeploy 是一個高效且友好的 LLMs 模型部署工具箱,功能涵蓋了量化、推理和服務
- 功能全面,支持從訓練到部署的全流程
- 提供模型壓縮和加速技術,適合資源受限的場景
要求:
1.操作系統:windows、linux
2.Python: 3.8 – 3.12
conda create -n lmdeploy python=3.12 -y && conda activate lmdeploypip install lmdeploy partial_json_parser# 運行模型(開啟的端口默認是23333)lmdeploy serve api_server /path/to/model
三、大模型微調框架
3.1 安裝LLaMA-Factory【可選】
- LLaMA-Factory 推薦使用python3.10
conda create -n llamafactory python==3.10 -y && conda activate llamafactorycd ~/work/ai/tools && git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git && cd LLaMA-Factory && pip install -e . # 使用可視化界面微調llamafactory-cli webui
使用流程1. 下載model2. 下載data/data格式處理3. 開始微調
四、大模型前端框架
4.1 安裝OpenWebui
- OpenWebui 要求使用python3.11
conda create -n openwebui python==3.11 -y && conda activate openwebuipip install -U open-webui torch transformers# 運行ollamaollama serve# 運行open-webuiexport HF_ENDPOINT=https://hf-mirror.comexport ENABLE_OLLAMA_API=Trueexport OPENAI_API_BASE_URL=http://127.0.0.1:11434/v1open-webui serve# 啟動瀏覽器(http://localhost:8080)
推薦使用優云智算平臺進行GPU實例部署