【LLM】本地部署LLM大語言模型+可視化交互聊天,附常見本地部署硬件要求(以Ollama+OpenWebUI部署DeepSeekR1為例)
文章目錄
- 1、本地部署LLM(以Ollama為例)
- 2、本地LLM交互界面(以OpenWebUI為例)
- 3、本地部署硬件要求對應表
1、本地部署LLM(以Ollama為例)
本地部署LLM的框架
- 129k-Ollama 1
是一個提供簡單命令行接口的工具,可以輕松下載和運行本地 AI 模型。 - 139k-Transformers 2
Hugging Face 的 Transformers 庫支持多種預訓練語言模型,并提供簡單的 API 以在本地運行這些模型,適合進行微調和推理。 - 75k-llama.cpp, 3
CPU友好,一個高效的 C++ 實現,支持在各種設備上運行 LLaMA 模型,適合追求性能的用戶。 - 39k-vllm, link
GPU優化,vLLM 是一個高效的、用于推理的框架,特別針對大型語言模型的并行推理進行優化。它利用了內存和計算資源的高效管理,提供了顯著的性能提升。 - 69k-stable-diffusion,link
雖然主要用于圖像生成,它也在開源領域取得了極大的關注,且可以靈活地與文本模型結合使用。
ollama是什么
- Ollama 是一個用于構建和運行本地 AI 模型的開源工具。
- 它可以幫助開發者和研究人員更方便地利用 AI 模型進行各種應用,如自然語言處理、圖像識別等。
下載ollama
- 要安裝Ollama,可以官方網站的下載頁面:Ollama下載頁面
- 支持的模型列表
- 參考安裝 1
使用ollama
ollama
Usage:ollama [flags]ollama [command]Available Commands:serve Start ollamacreate Create a model from a Modelfileshow Show information for a modelrun Run a modelstop Stop a running modelpull Pull a model from a registrypush Push a model to a registrylist List modelsps List running modelscp Copy a modelrm Remove a modelhelp Help about any commandFlags:-h, --help help for ollama-v, --version Show version informationUse "ollama [command] --help" for more information about a command.
例子,安裝deepseek r1
# ollma --version
ollama version is 0.5.12# ollama pull deepseek-r1:1.5b
pulling manifest
pulling aabd4debf0c8... 100% ▕██████████████████████████████████▏ 1.1 GB
pulling 369ca498f347... 100% ▕██████████████████████████████████▏ 387 B
pulling 6e4c38e1172f... 100% ▕██████████████████████████████████▏ 1.1 KB
pulling f4d24e9138dd... 100% ▕██████████████████████████████████▏ 148 B
pulling a85fe2a2e58e... 100% ▕██████████████████████████████████▏ 487 B
verifying sha256 digest
writing manifest
success # ollama run deepseek-r1:1.5b
# ollama run llama3.2:1b# ollama list
NAME ID SIZE MODIFIED
llama3.2:1b baf6a787fdff 1.3 GB 3 minutes ago
deepseek-r1:1.5b a42b25d8c10a 1.1 GB 2 hours ago# systemctl stop ollama
2、本地LLM交互界面(以OpenWebUI為例)
本地LLM交互界面項目
-
78k-OpenWebUI, link
OpenWebUI是一個開源Web用戶界面,旨在讓用戶能夠方便地與本地大語言模型(如GPT、LLaMA等)進行交互。用戶可以通過簡單的Web界面進行對話,支持多種模型。 -
82k-Nextchat(ChatGPT Next Web) , link
兼容本地LLM,輕量快速的 AI 助手。支持:Web | iOS | MacOS | Android | Linux | Windows。一鍵免費部署私人 ChatGPT 網頁應用,支持 Claude, GPT4 & Gemini Pro 模型。 -
32k-ChatBox , link
Chatbox AI 是一款 AI 客戶端應用和智能助手,支持眾多先進的 AI 模型和 API,可在 Windows、MacOS、Android、iOS、Linux 和網頁版上使用。
客戶端安裝參考 1,2:選擇使用自己的api-key或本地模型,目前支持 -
72k-GPT4All, link
GPT4All 在日常臺式機和筆記本電腦上私下運行大型語言模型 (LLM)。無需 API 調用或 GPU - 您只需下載應用程序并開始使用即可。 -
42k-text-generation-webui, link
適用于大型語言模型的 Gradio Web UI,支持多個推理后端。其目標是成為文本生成的stable-diffusion-webui 。 -
39k-AnythingLLM, link
全棧應用程序,可以將任何文檔、資源(如網址鏈接、音頻、視頻)或內容片段轉換為上下文,以便任何大語言模型(LLM)在聊天期間作為參考使用。
此應用程序允許您選擇使用哪個LLM或向量數據庫,同時支持多用戶管理并設置不同權限。 -
150k-stable-diffusion-webui, link
支持一鍵安裝的stable Diffusion網頁用戶界面。 -
jetbrain-idea/goland集成插件, link
設置-插件里安裝后,配置Ollama API 默認調用端口號:11434
OpenWebUI是什么?
- 一個可擴展、功能豐富且用戶友好的自托管WebUI,它支持完全離線操作,并兼容Ollama和OpenAI的API。
- 這為用戶提供了一個可視化的界面,使得與大型語言模型的交互更加直觀和便捷。
安裝openwebUI
# 基于docker的安裝
# 電腦上有Ollama
docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main
# Ollama在其他服務器上,OLLAMA_BASE_URL替換為地址
docker run -d -p 3000:8080 -e OLLAMA_BASE_URL=https://example.com -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main# 安裝完成后,您可以通過http://localhost:3000 訪問OpenWebUI
# 這個時候會發現【Select a model】可以選擇我們剛剛下載好的模型
# 并且他還可以一次性加入多個模型,一起對話對比使用
3、本地部署硬件要求對應表
大模型名稱中的數字含義
- 例如 1.5b、7b、8b、14b、32b、70b和671b等
- 這些數字代表模型的參數量(Parameters),單位為 「B」(Billion,十億)。例如:
1.5B:15 億參數
7B:70 億參數
671B:6710 億參數(接近萬億規模) - 參數量的意義:
模型能力:參數量越大,模型就有更強的理解和生成能力,但是需要更多計算資源。
硬件需求:參數越多,對內存(RAM)和顯存(VRAM)的需求就越高。
運行速度:參數量大的模型,推理速度更慢,尤其是資源不足的時候。1
本地部署的硬件配置「最低」要求(按模型規模分類)
-
1.3B、1.5B 模型
適用場景:簡單文本生成、問答、輕量級任務
CPU:4 核以上(需支持 AVX2 指令集)
內存(RAM):8GB 以上
GPU(可選):顯存 ≥ 4GB(如 NVIDIA GTX 1650)
存儲:需 3~5GB 硬盤空間(模型文件 + 依賴庫)
說明:可在純 CPU 環境下運行,但速度較慢(約 1~2 秒/詞)。 -
6.7b、7B、8B 模型
適用場景:復雜文本生成、代碼生成、多輪對話
CPU:8 核以上(推薦 Intel i7 或 AMD Ryzen 7)
內存(RAM):32GB 以上(純 CPU 運行時需更高內存)
GPU(推薦):顯存 ≥ 16GB(如 RTX 4090 或 Tesla T4)
存儲:需 15~20GB 硬盤空間
優化建議:
使用 4-bit 量化可將顯存需求降至 8GB。
使用 vLLM 或 HuggingFace TGI 框架提升推理速度。 -
32B、70B 模型
適用場景:企業級應用、高精度需求
CPU:無法純 CPU 運行
內存(RAM):≥ 128GB(用于加載中間數據)
GPU:顯存 ≥ 80GB(如 A100 80GB x2 或 H100)
存儲:需 70~150GB 硬盤空間
關鍵點:
必須使用多卡并行(如 NVIDIA NVLink 互聯)。
推薦 FP16 或 8-bit 量化以降低顯存占用。
硬件選擇對比表
模型規模 | CPU 需求 | 內存需求 | 顯卡 型號 | 適用場景 |
---|---|---|---|---|
1.5B | 純 CPU | 4GB | RTX 3050 | 個人學習 |
7B | 7GB | 16GB | RTX 4090 | 個人學習 |
14B | 24GB | A5000 x2 | 264GB | 小型項目 |
32B | 48GB | A100 40GB | x2 | 專業應用 |
40GB | 80GB | x4 | RTX 7000 | 企業級服務 |
64GB+H100 | H100 | 640GB+H100 | 集群不可行 |
一些QA
- 能否用 Mac 電腦運行這些DeepSeek模型?
可以,但僅限于小模型(如 7B以下)。需使用 llama.cpp 的 Metal 后端,M1/M2 芯片需 16GB 以上統一內存。 - 官方倉庫(如 HuggingFace Hub)、開源社區(如 modelscope)。
如果使用Ollama在本地部署,那么直接在Ollama中下載。 - 為什么實際顯存占用比參數量大很多?
除了模型權重,還需存儲中間計算結果(KV Cache),尤其在長文本生成時占用顯著增加。 - 沒有顯存、顯存的筆記本電腦,能在本地部署和運行DeepSeek嗎?
可以。但是內存要求更高,文本生成速度慢。1,
更多部署教程
1 從零到一:本地部署Llama3大模型的簡明指南,
2 本地部署 DeepSeek-R1-671B 滿血版大模型教程
3 預算50-100萬:4 * H100 80GB + NVLink,8 * A100 80GB + NVLink