CentOS 7 下通過 Anaconda3 運行llm大模型、deepseek大模型的完整指南
- A1 CentOS 7 下通過 Anaconda3 運行大模型的完整指南
- 一、環境準備
- 二、創建專用環境
- 三、模型部署與運行
- 四、優化配置
- 常見問題解決
- B1 CentOS 7 下通過 Anaconda3 使用 CPU 運行 DeepSeek 大模型的完整方案
- 一、環境配置
- 二、模型部署
- 三、性能優化
- 四、驗證與監控
- 注意事項
A1 CentOS 7 下通過 Anaconda3 運行大模型的完整指南
綜合最佳實踐和關鍵注意事項:
一、環境準備
-
安裝 Anaconda3
- 推薦從清華鏡像源下載最新版(如
Anaconda3-2024.10-Linux-x86_64.sh
),避免官網下載速度慢的問題。 - 安裝時選擇自定義路徑(如
/opt/anaconda3
),避免系統盤空間不足。
- 推薦從清華鏡像源下載最新版(如
-
驗證安裝
conda --version # 確認版本 nvidia-smi # 檢查GPU驅動和CUDA版本(需≥11.8)
二、創建專用環境
-
新建 Python 環境
conda create --name llm_env python=3.10 -y # 推薦Python 3.10兼容性最佳 conda activate llm_env
-
安裝依賴庫
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 # 匹配CUDA 11.8 pip install transformers accelerate vllm # 基礎大模型庫
三、模型部署與運行
-
下載模型權重
- 從Hugging Face或ModelScope獲取模型(如
deepseek-ai/DeepSeek-V3
):git lfs install git clone https://huggingface.co/deepseek-ai/DeepSeek-V3
- 從Hugging Face或ModelScope獲取模型(如
-
啟動推理服務
python -m vllm.entrypoints.api_server --model /path/to/DeepSeek-V3 --tensor-parallel-size 2 # 多GPU并行
- 若顯存不足,添加
--quantization awq
啟用4-bit量化。
- 若顯存不足,添加
四、優化配置
-
鏡像加速
修改~/.condarc
和pip.conf
使用國內源(清華/阿里云),顯著提升下載速度。 -
資源監控
watch -n 1 nvidia-smi # 實時監控GPU顯存占用
常見問題解決
- CUDA版本沖突:通過
conda install cuda -c nvidia
統一環境內CUDA版本。 - 顯存不足:換用7B/1.5B等小參數量化模型,或使用云服務(如AWS/Aliyun)。
注:完整代碼示例和詳細參數可參考Meta Llama3部署指南。
B1 CentOS 7 下通過 Anaconda3 使用 CPU 運行 DeepSeek 大模型的完整方案
綜合性能優化與部署實踐:
一、環境配置
-
創建專用 Conda 環境
conda create -n deepseek_cpu python=3.10 -y # Python 3.10 兼容性最佳 conda activate deepseek_cpu
-
安裝 CPU 版 PyTorch
conda install pytorch torchvision torchaudio cpuonly -c pytorch # 官方 CPU 版本
-
安裝 Hugging Face 工具鏈
pip install transformers accelerate sentencepiece # 基礎推理庫 pip install bitsandbytes # 4-bit 量化支持(降低顯存需求)
二、模型部署
-
下載模型權重
- 從 Hugging Face 獲取 DeepSeek 模型(如
deepseek-ai/deepseek-llm-7b
):git lfs install git clone https://huggingface.co/deepseek-ai/deepseek-llm-7b
- 從 Hugging Face 獲取 DeepSeek 模型(如
-
量化加載(可選)
通過 4-bit 量化減少內存占用:from transformers import AutoModelForCausalLM model = AutoModelForCausalLM.from_pretrained("deepseek-llm-7b", device_map="cpu", load_in_4bit=True)
三、性能優化
-
內存管理
- 設置環境變量限制內存占用:
export OMP_NUM_THREADS=4 # 控制 OpenMP 線程數 export MKL_NUM_THREADS=4 # 優化 Intel MKL 庫并行
- 設置環境變量限制內存占用:
-
批處理與緩存
from transformers import AutoTokenizer tokenizer = AutoTokenizer.from_pretrained("deepseek-llm-7b") inputs = tokenizer("你好,DeepSeek!", return_tensors="pt").to("cpu") outputs = model.generate(**inputs, max_new_tokens=50, do_sample=True)
四、驗證與監控
-
資源占用檢查
top -p $(pgrep -f python) # 監控 CPU 和內存使用
-
基準測試
使用time
命令測量推理延遲:time python inference.py # 示例腳本路徑
注意事項
- 模型選擇:7B/1.5B 等小參數模型更適合 CPU 運行,16B+ 需至少 64GB 內存。
- 量化權衡:4-bit 量化會降低約 5% 精度,但內存需求減少 50%。
- 替代方案:若性能不足,可考慮 Ollama 容器化部署(支持 DeepSeek 量化版本)。
完整代碼示例參考 Hugging Face 文檔。