DeepSeek R1 本地部署全攻略:Ollama + vLLM + PyTorch 多選方案
想部署 DeepSeek-R1 模型到本地,開啟高性能推理體驗?本文匯總了 Ollama、vLLM 及原生 PyTorch 的部署方法,適合不同開發者需求。
🎯 下載模型 (必做) ---- 模型選擇指南
目前 DeepSeek 已開源多個蒸餾模型,資源占用低,推理能力強:
模型名 | 參數量 | 顯存需求 | 下載地址 |
---|---|---|---|
DeepSeek-R1-Distill-Qwen-1.5B | 1.5B | 1~2GB | 點擊下載 |
DeepSeek-R1-Distill-Qwen-7B | 7B | 6~8GB | 點擊下載 |
DeepSeek-R1-Distill-Llama-70B | 70B | 96~128GB | 點擊下載 |
- 下載完成后可以任選以下三種方式之一進行部署使用 (記住你的
下載路徑
)
? 方式一:Ollama 本地部署(最簡單)
Step 1:安裝 Ollama
Windows 用戶:
直接訪問官網下載安裝:https://ollama.com
Linux/macOS 用戶:
curl -fsSL https://ollama.com/install.sh | sh
ollama serve
Step 2:下載并運行模型
ollama pull deepseek-r1:7b
ollama run deepseek-r1:7b
📌 Ollama 會自動處理環境配置,適合零基礎用戶快速嘗試。
? 方式二:vLLM 部署(推薦中高端 GPU)
Step 1:安裝 vLLM
pip install vllm
Step 2:運行模型
vllm serve <模型路徑> \
--tensor-parallel-size 1 \
--max-model-len 32768 \
--quantization gptq \
--dtype half \
--enforce-eager
參數 | 含義 | 推薦值 |
---|---|---|
<模型路徑> | 模型所在的本地文件夾 | /root/models/deepseek-r1-distill-qwen-7b-gptq |
--tensor-parallel-size | 啟用的 GPU 數量(單卡填 1) | 1 |
--max-model-len | 最大上下文長度(Token 數) | 4096 ~ 32768 |
--quantization | 指定量化類型 | gptq |
--dtype | 中間計算精度 | half (FP16) |
--enforce-eager | 禁用 CUDA Graph,加快加載穩定性 | 建議保留 |
📌 如果顯存較小(如 8GB),建議將 --max-model-len
改為 4096
或更小。
? 方式三:PyTorch 原生部署(靈活可控)
from modelscope import AutoModelForCausalLM, AutoTokenizer# 模型路徑:請替換為你自己的本地路徑
model_path = "/root/models/deepseek-r1-distill-qwen-7b"# 加載模型
model = AutoModelForCausalLM.from_pretrained(model_path,torch_dtype="auto",device_map="cuda" # 支持自動切換為 CPU
)# 加載分詞器
tokenizer = AutoTokenizer.from_pretrained(model_path)# 構建 prompt
messages = [{"role": "system", "content": "你是一個樂于助人的編程專家"},{"role": "user", "content": "請用 Python 實現快速排序"}
]# 轉換為對話輸入格式
text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
inputs = tokenizer([text], return_tensors="pt").to(model.device)# 推理生成
outputs = model.generate(**inputs, max_new_tokens=512)# 解碼輸出
response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(response)
📦 運行環境依賴:
pip install torch modelscope
🧠 對比總結
方法 | 優點 | 缺點 | 適合人群 |
---|---|---|---|
Ollama | 零配置、簡單易用 | 功能有限 | 小白/入門 |
vLLM | 高性能、支持量化 | 顯存要求高 | 中高級用戶 |
PyTorch | 靈活自由 | 需懂代碼 | 開發者/研究人員 |
🧩 提示建議
- Ollama 支持斷網運行,適合離線環境。
- 建議使用蒸餾模型部署,節省資源,效果不打折。
- 復雜推理場景推薦使用 R1-32B 或以上版本。
DeepSeek 開源生態發展迅猛,模型性能媲美 GPT-4o,部署簡單靈活,非常適合本地化大模型應用實踐。動手部署一把,感受 LLM 的強大推理力量!