【保姆級 - 大模型應用開發】DeepSeek R1 本地部署全攻略:Ollama + vLLM + PyTorch 多選方案

在這里插入圖片描述

DeepSeek R1 本地部署全攻略:Ollama + vLLM + PyTorch 多選方案

想部署 DeepSeek-R1 模型到本地,開啟高性能推理體驗?本文匯總了 Ollama、vLLM 及原生 PyTorch 的部署方法,適合不同開發者需求。


🎯 下載模型 (必做) ---- 模型選擇指南

目前 DeepSeek 已開源多個蒸餾模型,資源占用低,推理能力強:

模型名參數量顯存需求下載地址
DeepSeek-R1-Distill-Qwen-1.5B1.5B1~2GB點擊下載
DeepSeek-R1-Distill-Qwen-7B7B6~8GB點擊下載
DeepSeek-R1-Distill-Llama-70B70B96~128GB點擊下載
  • 下載完成后可以任選以下三種方式之一進行部署使用 (記住你的下載路徑)

? 方式一:Ollama 本地部署(最簡單)

Step 1:安裝 Ollama

Windows 用戶:

直接訪問官網下載安裝:https://ollama.com

Linux/macOS 用戶:
curl -fsSL https://ollama.com/install.sh | sh
ollama serve

Step 2:下載并運行模型

ollama pull deepseek-r1:7b
ollama run deepseek-r1:7b

📌 Ollama 會自動處理環境配置,適合零基礎用戶快速嘗試。


? 方式二:vLLM 部署(推薦中高端 GPU)

Step 1:安裝 vLLM

pip install vllm

Step 2:運行模型

vllm serve <模型路徑> \
--tensor-parallel-size 1 \
--max-model-len 32768 \
--quantization gptq \
--dtype half \
--enforce-eager
參數含義推薦值
<模型路徑>模型所在的本地文件夾/root/models/deepseek-r1-distill-qwen-7b-gptq
--tensor-parallel-size啟用的 GPU 數量(單卡填 1)1
--max-model-len最大上下文長度(Token 數)4096 ~ 32768
--quantization指定量化類型gptq
--dtype中間計算精度half(FP16)
--enforce-eager禁用 CUDA Graph,加快加載穩定性建議保留

📌 如果顯存較小(如 8GB),建議將 --max-model-len 改為 4096 或更小。


? 方式三:PyTorch 原生部署(靈活可控)

from modelscope import AutoModelForCausalLM, AutoTokenizer# 模型路徑:請替換為你自己的本地路徑
model_path = "/root/models/deepseek-r1-distill-qwen-7b"# 加載模型
model = AutoModelForCausalLM.from_pretrained(model_path,torch_dtype="auto",device_map="cuda"  # 支持自動切換為 CPU
)# 加載分詞器
tokenizer = AutoTokenizer.from_pretrained(model_path)# 構建 prompt
messages = [{"role": "system", "content": "你是一個樂于助人的編程專家"},{"role": "user", "content": "請用 Python 實現快速排序"}
]# 轉換為對話輸入格式
text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
inputs = tokenizer([text], return_tensors="pt").to(model.device)# 推理生成
outputs = model.generate(**inputs, max_new_tokens=512)# 解碼輸出
response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(response)

📦 運行環境依賴:

pip install torch modelscope

🧠 對比總結

方法優點缺點適合人群
Ollama零配置、簡單易用功能有限小白/入門
vLLM高性能、支持量化顯存要求高中高級用戶
PyTorch靈活自由需懂代碼開發者/研究人員

🧩 提示建議

  • Ollama 支持斷網運行,適合離線環境。
  • 建議使用蒸餾模型部署,節省資源,效果不打折。
  • 復雜推理場景推薦使用 R1-32B 或以上版本。

在這里插入圖片描述

DeepSeek 開源生態發展迅猛,模型性能媲美 GPT-4o,部署簡單靈活,非常適合本地化大模型應用實踐。動手部署一把,感受 LLM 的強大推理力量!

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/91811.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/91811.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/91811.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

使用 Vive Tracker 替代 T265 實現位姿獲取(基于 Ubuntu + SteamVR)

在Dexcap這篇工作列出第二版硬件清單時&#xff0c;我注意到其使用 Vive Tracker 替代 Intel T265 來獲取位姿數據&#xff0c;對這個東西的性能感到好奇&#xff0c;最近因為需要跟進相關工作&#xff0c;參與了一部分實現&#xff0c;由于這方面的中文資料相對較少&#xff0…

博物館 VR 導覽:圖形渲染算法+智能講解技術算法實現及優化

本文面向博物館數字化開發技術員、VR 系統工程師等技術同仁們&#xff0c;聚焦圖形渲染算法在博物館 VR 導覽中的核心應用&#xff0c;解決虛擬展館還原精度不足、多終端適配卡頓、智能講解觸發延遲等實際技術問題。如有項目合作及技術交流歡迎私信作者~一、VR導覽技術痛點1.3D…

zset 中特殊的操作

首先 zset 與我們常規的 redis 操作有所不同, 這里的時間復雜度基本都是 O(log N) 起步的 目錄 1. zcount 2. zpopmax 1. zcount zcount key min max : 這里求的是 key 中下標在 min 和 max 之間的 元素的數量, 這里是比區間 我們要是想排除端點, 就需要加上 ( , 無論是…

KSP與ASM深度對比:原理、性能與使用場景

一、核心目的差異1. KSP&#xff08;Kotlin Symbol Processing&#xff09;核心目的&#xff1a;在編譯時生成新代碼&#xff0c;解決樣板代碼問題(操作對象:.kt源文件編譯過程中的中間表示)主要場景&#xff1a;自動生成DI&#xff08;依賴注入&#xff09;配置代碼創建路由映…

【LLM】如何在Cursor中調用Dify工作流

這篇文章將通過一個接口文檔知識庫示例&#xff0c;帶你了解如何在 Cursor 中通過 Mcp Server 調用 Dify 平臺配置的工作流。 1. 準備工作 需要準備文本生成模型、向量模型、Rerank 模型&#xff08;可選&#xff09;&#xff0c;這些都可以在 阿里云百煉平臺 申請免費使用額度…

L1、L2正則化的幾何解釋

L2正則化: 圖中用幾何方式形象地解釋了 Ridge 回歸&#xff08;L2正則化&#xff09;的原理。 ① 陰影圓&#xff1a;可以理解為&#xff08;w1^2 w2^2&#xff09;?≤R^2&#xff0c;圓周表示目標函數的約束線&#xff0c;這個圓表示了我們的參數 (w1,w2)可以活動的范圍。 …

【學習筆記】Java并發編程的藝術——第1章 并發編程的挑戰

第1章 并發編程的挑戰 1.1 上下文切換 即使是單核處理器也支持多線程執行代碼&#xff0c;CPU給每個線程分配CPU時間片實現多線程&#xff0c;而每個時間片一般是幾十毫秒&#xff0c;所以多個線程感覺是同時執行的 但同一個核切換線程執行時會保存運行狀態&#xff0c;以便下次…

leecode3 無重復元素的最長子串

我的思路 原始代碼 我發現我雖然解決問題了&#xff0c;但是我的思路不簡潔&#xff0c;不明白。 這個題本質上還是滑動窗口的問題。 具體思路為先定義兩個指針&#xff0c;對應滑動窗口的兩個邊界關鍵是&#xff1a;定義一個集合&#xff0c;來判斷這個窗口中的元素是否存在重…

【嵌入式匯編基礎】-ARM架構基礎(三)

ARM架構基礎(三) 文章目錄 ARM架構基礎(三) 7、AArch64 執行狀態 7.3 程序計數器 7.4 堆棧指針 7.5 零寄存器 7.6 鏈接寄存器 7.7 幀指針 7.8 平臺寄存器 (x18) 7.9 過程內調用寄存器 7.10 SIMD 和浮點寄存器 7.11 系統寄存器 7.13 PSTATE 7、AArch64 執行狀態 7.3 程序計…

[buuctf-misc]喵喵喵

m題目在線評測BUUCTF 是一個 CTF 競賽和訓練平臺&#xff0c;為各位 CTF 選手提供真實賽題在線復現等服務。https://buuoj.cn/challenges#%E5%96%B5%E5%96%B5%E5%96%B5BUUCTF 是一個 CTF 競賽和訓練平臺&#xff0c;為各位 CTF 選手提供真實賽題在線復現等服務。https://buuoj.…

Vue 詳情模塊 2

Vue 漸進式JavaScript 框架 基于Vue2的移動端項目&#xff1a;詳情基礎內容&#xff0c;日期及電影描述 目錄 詳情 詳情基礎內容 初始化與賦值 渲染基礎內容 詳情樣式 日期處理 安裝moment 定義過濾器 使用過濾器 電影描述 總結 詳情 詳情基礎內容 初始化與賦值 …

【MODIS數據】MYD03

&#x1f30d; 遙感數據的“導航儀”&#xff1a;深入解析MYD03地理定位產品 在衛星遙感領域&#xff0c;精確的地理定位是數據應用的基礎。作為Aqua衛星中分辨率成像光譜儀&#xff08;MODIS&#xff09;的核心支撐產品&#xff0c;MYD03雖不如地表溫度或植被指數產品知名&am…

如何填寫PDF表格的例子

實際應用場景中&#xff0c;我們會遇到需要根據會話內容自動填寫表格的情況&#xff0c;比如&#xff1a;pdf 表格。假設根據會話內容已經獲得相關信息&#xff0c;下面以填寫個人信息為例來說明。個人信息表格.pdf填寫后的效果&#xff1a;填寫代碼如下&#xff1a;from pdfrw…

2023年影響重大的網絡安全典型案例

以下是2023年影響重大的網絡安全典型案例&#xff0c;按時間順序梳理事件經過及技術細節&#xff1a;---一、DeFi協議攻擊&#xff1a;dForce借貸協議遭入侵&#xff08;2023年4月&#xff09;** - 時間線&#xff1a; - 4月19日08:58&#xff1a;黑客開始攻擊Lendf.Me合約&…

Vue 響應式基礎全解析2

DOM更新時機 修改響應式狀態后,DOM更新不是同步的。Vue會緩沖所有修改,在"next tick"周期中統一更新,確保每個組件只更新一次。 如需在DOM更新后執行代碼,可使用nextTick(): import {nextTick } from vueasync function increment() {count.value++

【黑馬SpringCloud微服務開發與實戰】(九)elasticsearch基礎

1. 認識elasticsearch2. 認識和安裝ES主播這里之前已經安裝好了&#xff0c;資料包里面有鏡像 docker run -d \--name es \-e "ES_JAVA_OPTS-Xms512m -Xmx512m" \-e "discovery.typesingle-node" \-v es-data:/usr/share/elasticsearch/data \-v es-plugin…

由淺入深地講清楚瀏覽器緩存

一、什么是瀏覽器緩存&#xff1f;&#xff08;入門級&#xff09; 1. 瀏覽器緩存的定義瀏覽器緩存就是&#xff1a;瀏覽器把之前請求過的資源保存起來&#xff0c;下次訪問同樣的資源時可以直接用本地副本&#xff0c;而不是重新請求服務器。舉個生活例子&#xff1a; 你第一次…

Linux I/O 多路復用機制對比分析:poll/ppoll/epoll/select

Linux I/O 多路復用機制對比分析&#xff1a;poll/ppoll/epoll/select 1. 概述 I/O 多路復用是現代高性能網絡編程的核心技術&#xff0c;它允許單個線程同時監視多個文件描述符的狀態變化&#xff0c;從而實現高效的并發處理。Linux 提供了多種 I/O 多路復用機制&#xff0c…

高防服務器租用:保障數據安全

您的網絡速度是否卡頓&#xff0c;業務是否經常受到網絡攻擊的威脅呢&#xff1f;別擔心&#xff0c;高防服務器租用能夠幫助你解決這些困擾&#xff01;高防服務器租用擁有著卓越的防御能力&#xff0c;可以幫助企業抵御各種網絡攻擊&#xff0c;能夠輕松化解各種超大流量的網…

基于python多光譜遙感數據處理、圖像分類、定量評估及機器學習方法應用

基于衛星或無人機平臺的多光譜數據在地質、土壤調查和農業等應用領域發揮了重要作用&#xff0c;在地質應用方面&#xff0c;綜合Aster的短波紅外波段、landsat熱紅外波段等多光譜數據&#xff0c;可以通過不同的多光譜數據組合&#xff0c;協同用于礦物信息有效提取。第一&…