【保姆級 - 大模型應用開發】DeepSeek R1 本地部署全攻略：Ollama + vLLM + PyTorch 多選方案

在這里插入圖片描述

DeepSeek R1 本地部署全攻略：Ollama + vLLM + PyTorch 多選方案

想部署 DeepSeek-R1 模型到本地，開啟高性能推理體驗？本文匯總了 Ollama、vLLM 及原生 PyTorch 的部署方法，適合不同開發者需求。

🎯 下載模型 (必做) ---- 模型選擇指南

目前 DeepSeek 已開源多個蒸餾模型，資源占用低，推理能力強：

模型名	參數量	顯存需求	下載地址
DeepSeek-R1-Distill-Qwen-1.5B	1.5B	1~2GB	點擊下載
DeepSeek-R1-Distill-Qwen-7B	7B	6~8GB	點擊下載
DeepSeek-R1-Distill-Llama-70B	70B	96~128GB	點擊下載

下載完成后可以任選以下三種方式之一進行部署使用 (記住你的下載路徑)

? 方式一：Ollama 本地部署（最簡單）

Step 1：安裝 Ollama

Windows 用戶：

直接訪問官網下載安裝：https://ollama.com

Linux/macOS 用戶：

curl -fsSL https://ollama.com/install.sh | sh
ollama serve

Step 2：下載并運行模型

ollama pull deepseek-r1:7b
ollama run deepseek-r1:7b

📌 Ollama 會自動處理環境配置，適合零基礎用戶快速嘗試。

? 方式二：vLLM 部署（推薦中高端 GPU）

Step 1：安裝 vLLM

pip install vllm

Step 2：運行模型

vllm serve <模型路徑> \
--tensor-parallel-size 1 \
--max-model-len 32768 \
--quantization gptq \
--dtype half \
--enforce-eager

參數	含義	推薦值
`<模型路徑>`	模型所在的本地文件夾	`/root/models/deepseek-r1-distill-qwen-7b-gptq`
`--tensor-parallel-size`	啟用的 GPU 數量（單卡填 1）	`1`
`--max-model-len`	最大上下文長度（Token 數）	`4096 ~ 32768`
`--quantization`	指定量化類型	`gptq`
`--dtype`	中間計算精度	`half`（FP16）
`--enforce-eager`	禁用 CUDA Graph，加快加載穩定性	建議保留

📌 如果顯存較小（如 8GB），建議將 --max-model-len 改為 4096 或更小。

? 方式三：PyTorch 原生部署（靈活可控）

from modelscope import AutoModelForCausalLM, AutoTokenizer# 模型路徑：請替換為你自己的本地路徑
model_path = "/root/models/deepseek-r1-distill-qwen-7b"# 加載模型
model = AutoModelForCausalLM.from_pretrained(model_path,torch_dtype="auto",device_map="cuda"  # 支持自動切換為 CPU
)# 加載分詞器
tokenizer = AutoTokenizer.from_pretrained(model_path)# 構建 prompt
messages = [{"role": "system", "content": "你是一個樂于助人的編程專家"},{"role": "user", "content": "請用 Python 實現快速排序"}
]# 轉換為對話輸入格式
text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
inputs = tokenizer([text], return_tensors="pt").to(model.device)# 推理生成
outputs = model.generate(**inputs, max_new_tokens=512)# 解碼輸出
response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(response)

📦 運行環境依賴：

pip install torch modelscope

🧠 對比總結

方法	優點	缺點	適合人群
Ollama	零配置、簡單易用	功能有限	小白/入門
vLLM	高性能、支持量化	顯存要求高	中高級用戶
PyTorch	靈活自由	需懂代碼	開發者/研究人員

🧩 提示建議

Ollama 支持斷網運行，適合離線環境。
建議使用蒸餾模型部署，節省資源，效果不打折。
復雜推理場景推薦使用 R1-32B 或以上版本。

在這里插入圖片描述

DeepSeek 開源生態發展迅猛，模型性能媲美 GPT-4o，部署簡單靈活，非常適合本地化大模型應用實踐。動手部署一把，感受 LLM 的強大推理力量！

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/bicheng/91811.shtml
繁體地址，請注明出處：http://hk.pswp.cn/bicheng/91811.shtml
英文地址，請注明出處：http://en.pswp.cn/bicheng/91811.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！