【LLM】本地部署LLM大語言模型+可視化交互聊天，附常見本地部署硬件要求（以Ollama+OpenWebUI部署DeepSeekR1為例）

文章目錄

- 1、本地部署LLM（以Ollama為例）
- 2、本地LLM交互界面（以OpenWebUI為例）
- 3、本地部署硬件要求對應表

1、本地部署LLM（以Ollama為例）

本地部署LLM的框架

129k-Ollama 1
是一個提供簡單命令行接口的工具，可以輕松下載和運行本地 AI 模型。
139k-Transformers 2
Hugging Face 的 Transformers 庫支持多種預訓練語言模型，并提供簡單的 API 以在本地運行這些模型，適合進行微調和推理。
75k-llama.cpp, 3
CPU友好，一個高效的 C++ 實現，支持在各種設備上運行 LLaMA 模型，適合追求性能的用戶。
39k-vllm, link
GPU優化，vLLM 是一個高效的、用于推理的框架，特別針對大型語言模型的并行推理進行優化。它利用了內存和計算資源的高效管理，提供了顯著的性能提升。
69k-stable-diffusion,link
雖然主要用于圖像生成，它也在開源領域取得了極大的關注，且可以靈活地與文本模型結合使用。

ollama是什么

Ollama 是一個用于構建和運行本地 AI 模型的開源工具。
它可以幫助開發者和研究人員更方便地利用 AI 模型進行各種應用，如自然語言處理、圖像識別等。

下載ollama

要安裝Ollama，可以官方網站的下載頁面：Ollama下載頁面
支持的模型列表
參考安裝 1

使用ollama

ollama     
Usage:ollama [flags]ollama [command]Available Commands:serve       Start ollamacreate      Create a model from a Modelfileshow        Show information for a modelrun         Run a modelstop        Stop a running modelpull        Pull a model from a registrypush        Push a model to a registrylist        List modelsps          List running modelscp          Copy a modelrm          Remove a modelhelp        Help about any commandFlags:-h, --help      help for ollama-v, --version   Show version informationUse "ollama [command] --help" for more information about a command.

例子，安裝deepseek r1

# ollma --version
ollama version is 0.5.12# ollama pull deepseek-r1:1.5b
pulling manifest 
pulling aabd4debf0c8... 100% ▕██████████████████████████████████▏ 1.1 GB                         
pulling 369ca498f347... 100% ▕██████████████████████████████████▏  387 B                         
pulling 6e4c38e1172f... 100% ▕██████████████████████████████████▏ 1.1 KB                         
pulling f4d24e9138dd... 100% ▕██████████████████████████████████▏  148 B                         
pulling a85fe2a2e58e... 100% ▕██████████████████████████████████▏  487 B                         
verifying sha256 digest 
writing manifest 
success # ollama run deepseek-r1:1.5b
# ollama run llama3.2:1b# ollama list
NAME                ID              SIZE      MODIFIED      
llama3.2:1b         baf6a787fdff    1.3 GB    3 minutes ago    
deepseek-r1:1.5b    a42b25d8c10a    1.1 GB    2 hours ago# systemctl stop ollama

2、本地LLM交互界面（以OpenWebUI為例）

本地LLM交互界面項目

78k-OpenWebUI, link
OpenWebUI是一個開源Web用戶界面，旨在讓用戶能夠方便地與本地大語言模型（如GPT、LLaMA等）進行交互。用戶可以通過簡單的Web界面進行對話，支持多種模型。
82k-Nextchat(ChatGPT Next Web) , link
兼容本地LLM，輕量快速的 AI 助手。支持：Web | iOS | MacOS | Android | Linux | Windows。一鍵免費部署私人 ChatGPT 網頁應用，支持 Claude, GPT4 & Gemini Pro 模型。
32k-ChatBox , link
Chatbox AI 是一款 AI 客戶端應用和智能助手，支持眾多先進的 AI 模型和 API，可在 Windows、MacOS、Android、iOS、Linux 和網頁版上使用。
客戶端安裝參考 1，2：選擇使用自己的api-key或本地模型，目前支持
72k-GPT4All, link
GPT4All 在日常臺式機和筆記本電腦上私下運行大型語言模型 (LLM)。無需 API 調用或 GPU - 您只需下載應用程序并開始使用即可。
42k-text-generation-webui, link
適用于大型語言模型的 Gradio Web UI，支持多個推理后端。其目標是成為文本生成的stable-diffusion-webui 。
39k-AnythingLLM, link
全棧應用程序，可以將任何文檔、資源（如網址鏈接、音頻、視頻）或內容片段轉換為上下文，以便任何大語言模型（LLM）在聊天期間作為參考使用。
此應用程序允許您選擇使用哪個LLM或向量數據庫，同時支持多用戶管理并設置不同權限。
150k-stable-diffusion-webui, link
支持一鍵安裝的stable Diffusion網頁用戶界面。
jetbrain-idea/goland集成插件, link
設置-插件里安裝后，配置Ollama API 默認調用端口號：11434

OpenWebUI是什么？

一個可擴展、功能豐富且用戶友好的自托管WebUI，它支持完全離線操作，并兼容Ollama和OpenAI的API。
這為用戶提供了一個可視化的界面，使得與大型語言模型的交互更加直觀和便捷。

安裝openwebUI

# 基于docker的安裝
# 電腦上有Ollama
docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main
# Ollama在其他服務器上，OLLAMA_BASE_URL替換為地址
docker run -d -p 3000:8080 -e OLLAMA_BASE_URL=https://example.com -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main# 安裝完成后，您可以通過http://localhost:3000 訪問OpenWebUI
# 這個時候會發現【Select a model】可以選擇我們剛剛下載好的模型
# 并且他還可以一次性加入多個模型，一起對話對比使用

3、本地部署硬件要求對應表

大模型名稱中的數字含義

例如 1.5b、7b、8b、14b、32b、70b和671b等
這些數字代表模型的參數量（Parameters），單位為「B」（Billion，十億）。例如：
1.5B：15 億參數
7B：70 億參數
671B：6710 億參數（接近萬億規模）
參數量的意義：
模型能力：參數量越大，模型就有更強的理解和生成能力，但是需要更多計算資源。
硬件需求：參數越多，對內存（RAM）和顯存（VRAM）的需求就越高。
運行速度：參數量大的模型，推理速度更慢，尤其是資源不足的時候。1

本地部署的硬件配置「最低」要求（按模型規模分類）

1.3B、1.5B 模型
適用場景：簡單文本生成、問答、輕量級任務
CPU：4 核以上（需支持 AVX2 指令集）
內存（RAM）：8GB 以上
GPU（可選）：顯存 ≥ 4GB（如 NVIDIA GTX 1650）
存儲：需 3~5GB 硬盤空間（模型文件 + 依賴庫）
說明：可在純 CPU 環境下運行，但速度較慢（約 1~2 秒/詞）。
6.7b、7B、8B 模型
適用場景：復雜文本生成、代碼生成、多輪對話
CPU：8 核以上（推薦 Intel i7 或 AMD Ryzen 7）
內存（RAM）：32GB 以上（純 CPU 運行時需更高內存）
GPU（推薦）：顯存 ≥ 16GB（如 RTX 4090 或 Tesla T4）
存儲：需 15~20GB 硬盤空間
優化建議：
使用 4-bit 量化可將顯存需求降至 8GB。
使用 vLLM 或 HuggingFace TGI 框架提升推理速度。
32B、70B 模型
適用場景：企業級應用、高精度需求
CPU：無法純 CPU 運行
內存（RAM）：≥ 128GB（用于加載中間數據）
GPU：顯存 ≥ 80GB（如 A100 80GB x2 或 H100）
存儲：需 70~150GB 硬盤空間
關鍵點：
必須使用多卡并行（如 NVIDIA NVLink 互聯）。
推薦 FP16 或 8-bit 量化以降低顯存占用。

硬件選擇對比表

模型規模	CPU 需求	內存需求	顯卡型號	適用場景
1.5B	純 CPU	4GB	RTX 3050	個人學習
7B	7GB	16GB	RTX 4090	個人學習
14B	24GB	A5000 x2	264GB	小型項目
32B	48GB	A100 40GB	x2	專業應用
40GB	80GB	x4	RTX 7000	企業級服務
64GB+H100	H100	640GB+H100	集群不可行

一些QA

能否用 Mac 電腦運行這些DeepSeek模型？
可以，但僅限于小模型（如 7B以下）。需使用 llama.cpp 的 Metal 后端，M1/M2 芯片需 16GB 以上統一內存。
官方倉庫（如 HuggingFace Hub）、開源社區（如 modelscope）。
如果使用Ollama在本地部署，那么直接在Ollama中下載。
為什么實際顯存占用比參數量大很多？
除了模型權重，還需存儲中間計算結果（KV Cache），尤其在長文本生成時占用顯著增加。
沒有顯存、顯存的筆記本電腦，能在本地部署和運行DeepSeek嗎？
可以。但是內存要求更高，文本生成速度慢。1，

更多部署教程
1 從零到一：本地部署Llama3大模型的簡明指南,
2 本地部署 DeepSeek-R1-671B 滿血版大模型教程
3 預算50-100萬：4 * H100 80GB + NVLink，8 * A100 80GB + NVLink