進階日記（一）大模型的本地部署與運行

一、背景知識

為什么要在本地部署大模型？

在本地部署大模型需要做哪些準備工作？

（1）硬件配置

（2）軟件環境

有哪些部署工具可供選擇？

二、Ollma安裝

Ollama安裝完之后，還需要進行環境變量的配置

配置完環境變量后，就可以從Ollama上下載模型到本地了

接上一篇（非科班大模型工程師進階日記（〇）），這次我們來試試本地部署一個大模型。

開門見山，要想在本地部署自己的大模型，大致可以分以下幾步：

下載Ollama，通過Ollama將DeepSeek模型下載到本地運行；
下載RAGflow源代碼和Docker，通過Docker來本地部署RAGflow；
在RAGflow中構建個人知識庫并實現基于個人知識庫的對話問答。

But，光了解操作步驟是不夠的，下面我們先從背景知識開始進行一些簡單的介紹。

一、背景知識

注：不了解以下背景知識并不會對后續的安裝部署產生決定性影響，但是授人以魚不如授人以漁，大家各取所需就好。

為什么要在本地部署大模型？

本地部署的核心價值在于自主性與安全性，尤其適合對數據隱私、響應速度或定制化有高需求的場景：

數據主權保障
- 敏感數據（如企業文檔、個人隱私）無需上傳云端，避免第三方泄露風險。例如揚州環境監測中心部署DeepSeek-R1，就是因環境數據涉及國家安全，必須本地處理5。
性能與響應優化
- 本地推理消除網絡延遲，實現毫秒級響應（如實時數據分析、邊緣計算場景）16。
長期成本可控
- 云端模型按Token計費，高頻使用成本高昂；本地部署一次性投入硬件，后續近乎零成本67。
高度定制化能力
- 支持模型微調（如LoRA、P-Tuning）、知識庫集成（上傳私有文檔訓練），突破公版模型的功能限制18。

💡?典型場景：企業機密數據處理、離線環境應用（野外監測）、個性化AI助手開發。

在本地部署大模型需要做哪些準備工作？

（1）硬件配置

根據模型規模選擇硬件，顯存是關鍵瓶頸：

模型規模	最低配置	推薦配置	適用工具
7B參數	16GB內存 + RTX 3060 (6GB)	32GB內存 + RTX 3070 (8GB)	Ollama, LM Studio
13B參數	32GB內存 + RTX 3090 (24GB)	64GB內存 + 雙RTX 4090	vLLM, LLaMA.cpp
70B參數	64GB內存 + 多A100顯卡	服務器級CPU+128GB內存+8×A100 GPU	vLLM（企業級）37

???注意：若無獨立顯卡，可用CPU+大內存運行量化模型（但速度顯著下降）。

（2）軟件環境

操作系統：Linux（最佳兼容性）、Windows/MacOS
基礎依賴：
- Python 3.8+、CUDA工具包（NVIDIA顯卡必需）
- 深度學習框架：PyTorch或TensorFlow6
虛擬環境：建議用Conda隔離依賴（避免版本沖突）

有哪些部署工具可供選擇？

在進行大模型本地部署時，需要根據自己的技術背景和需求，選擇合適工具。

工具	特點	適用場景	安裝復雜度
Ollama	命令行操作，一鍵運行模型，支持多平臺	快速體驗、輕量測試	?
LM Studio	圖形界面，可視化下載/運行模型（Hugging Face集成）	非技術用戶、隱私敏感場景	??
vLLM	高性能推理框架，支持分布式部署、API服務化	企業級高并發需求	????
LLaMA.cpp	CPU/GPU通用，資源占用低（C++編寫）	老舊硬件或低顯存設備	???
GPT4All	開源輕量化，自動調用GPU加速	個人開發者、跨平臺應用	??

示例：Ollama部署DeepSeek-R1（適合新手，也是本次教程的選用方案）

# 安裝Ollama（Linux一鍵命令）
curl -fsSL https://ollama.com/install.sh | sh# 運行7B參數模型
ollama run deepseek-r1:7b

OK，了解完以上知識，開展下面的工作就不會云里霧里，知其然而不知其所以然了。

二、Ollma安裝

Ollama是一個用于本地運行和管理大語言模型(LLM)的工具。

Ollama的安裝，直接上官網Download即可，不放心的可以看這篇教程：Ollama 安裝。

Ollama安裝完之后，還需要進行環境變量的配置：

（必選）OLLAMA_HOST - 0.0.0.0:11434

作用：默認條件下，Ollma只能通過本機訪問，但出于便捷性考慮，我們這次部署是通過Docker進行，配置這一環境變量就是為了讓虛擬機里的RAGFlow能夠訪問到本機上的 Ollama；（具體原理參見：配置Ollama環境變量，實現遠程訪問）
如果配置后虛擬機無法訪問，可能是你的本機防火墻攔截了端口11434；
不想直接暴露 11434 端口則可通過SSH 端口轉發來實現虛擬機訪問。

（可選）OLLAMA_MODELS - 自定義位置

作用：Ollama 默認會把模型下載到C盤，如果希望下載到其他盤需要進行這一配置。

更新完兩個環境變量記得重啟，不然無法立即生效。

配置完環境變量后，就可以從Ollama上下載模型到本地了：

這次我們以Deepseek-R1:8b為例，需要注意的是，模型越大對本地機器配置要求越高，一般來說deepseek 32b就能達到不錯的效果，更高的不一定能跑的起來。

?配置及模型選擇可參考：個人用戶進行LLMs本地部署前如何自查和篩選

下載方式就是復制Ollama官網提供的相應指令，通過電腦命令行進行下載（Windows+R、cmd）

ollama run deepseek-r1:8b

下載完成后，可以直接在命令行窗口進行問答，至此，你就成功完成了大模型的本地化部署！

Congrats！

本地化部署雖然是很簡單的一步，卻為未來打開了更多可能性。但是，做到這里還不算完全擁有了自己的大模型，下一篇我會講如何結合RAGFlow來構建自己的本地知識庫，從而讓DeepSeek更懂你的需求。

祝大家玩兒的開心！

See you next time！:)

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/bicheng/83425.shtml
繁體地址，請注明出處：http://hk.pswp.cn/bicheng/83425.shtml
英文地址，請注明出處：http://en.pswp.cn/bicheng/83425.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！