進階日記(一)大模型的本地部署與運行

目錄

一、背景知識

為什么要在本地部署大模型?

在本地部署大模型需要做哪些準備工作?

(1)硬件配置

(2)軟件環境

有哪些部署工具可供選擇?

二、Ollma安裝

Ollama安裝完之后,還需要進行環境變量的配置

配置完環境變量后,就可以從Ollama上下載模型到本地了


接上一篇(非科班大模型工程師進階日記(〇)),這次我們來試試本地部署一個大模型。

開門見山,要想在本地部署自己的大模型,大致可以分以下幾步:

  1. 下載Ollama,通過Ollama將DeepSeek模型下載到本地運行;
  2. 下載RAGflow源代碼和Docker,通過Docker來本地部署RAGflow;
  3. 在RAGflow中構建個人知識庫并實現基于個人知識庫的對話問答。

But,光了解操作步驟是不夠的,下面我們先從背景知識開始進行一些簡單的介紹。

一、背景知識

注:不了解以下背景知識并不會對后續的安裝部署產生決定性影響,但是授人以魚不如授人以漁,大家各取所需就好。

為什么要在本地部署大模型?

本地部署的核心價值在于自主性安全性,尤其適合對數據隱私、響應速度或定制化有高需求的場景:

  1. 數據主權保障

    • 敏感數據(如企業文檔、個人隱私)無需上傳云端,避免第三方泄露風險。例如揚州環境監測中心部署DeepSeek-R1,就是因環境數據涉及國家安全,必須本地處理5。

  2. 性能與響應優化

    • 本地推理消除網絡延遲,實現毫秒級響應(如實時數據分析、邊緣計算場景)16。

  3. 長期成本可控

    • 云端模型按Token計費,高頻使用成本高昂;本地部署一次性投入硬件,后續近乎零成本67。

  4. 高度定制化能力

    • 支持模型微調(如LoRA、P-Tuning)、知識庫集成(上傳私有文檔訓練),突破公版模型的功能限制18。

💡?典型場景:企業機密數據處理、離線環境應用(野外監測)、個性化AI助手開發。

在本地部署大模型需要做哪些準備工作?

(1)硬件配置

根據模型規模選擇硬件,顯存是關鍵瓶頸:

模型規模最低配置推薦配置適用工具
7B參數16GB內存 + RTX 3060 (6GB)32GB內存 + RTX 3070 (8GB)Ollama, LM Studio
13B參數32GB內存 + RTX 3090 (24GB)64GB內存 + 雙RTX 4090vLLM, LLaMA.cpp
70B參數64GB內存 + 多A100顯卡服務器級CPU+128GB內存+8×A100 GPUvLLM(企業級)37

???注意:若無獨立顯卡,可用CPU+大內存運行量化模型(但速度顯著下降)。

(2)軟件環境
  • 操作系統:Linux(最佳兼容性)、Windows/MacOS

  • 基礎依賴

    • Python 3.8+、CUDA工具包(NVIDIA顯卡必需)

    • 深度學習框架:PyTorch或TensorFlow6

  • 虛擬環境:建議用Conda隔離依賴(避免版本沖突)


有哪些部署工具可供選擇?

在進行大模型本地部署時,需要根據自己的技術背景和需求,選擇合適工具。

工具特點適用場景安裝復雜度
Ollama命令行操作,一鍵運行模型,支持多平臺快速體驗、輕量測試?
LM Studio圖形界面,可視化下載/運行模型(Hugging Face集成)非技術用戶、隱私敏感場景??
vLLM高性能推理框架,支持分布式部署、API服務化企業級高并發需求????
LLaMA.cppCPU/GPU通用,資源占用低(C++編寫)老舊硬件或低顯存設備???
GPT4All開源輕量化,自動調用GPU加速個人開發者、跨平臺應用??

示例:Ollama部署DeepSeek-R1(適合新手,也是本次教程的選用方案)

# 安裝Ollama(Linux一鍵命令)
curl -fsSL https://ollama.com/install.sh | sh# 運行7B參數模型
ollama run deepseek-r1:7b

OK,了解完以上知識,開展下面的工作就不會云里霧里,知其然而不知其所以然了。

二、Ollma安裝

Ollama是一個用于本地運行和管理大語言模型(LLM)的工具。

Ollama的安裝,直接上官網Download即可,不放心的可以看這篇教程:Ollama 安裝。

Ollama安裝完之后,還需要進行環境變量的配置:

(必選)OLLAMA_HOST - 0.0.0.0:11434

  • 作用:默認條件下,Ollma只能通過本機訪問,但出于便捷性考慮,我們這次部署是通過Docker進行,配置這一環境變量就是為了讓虛擬機里的RAGFlow能夠訪問到本機上的 Ollama;(具體原理參見:配置Ollama環境變量,實現遠程訪問
  • 如果配置后虛擬機無法訪問,可能是你的本機防火墻攔截了端口11434;
  • 不想直接暴露 11434 端口則可通過SSH 端口轉發來實現虛擬機訪問。

(可選)OLLAMA_MODELS - 自定義位置

  • 作用:Ollama 默認會把模型下載到C盤,如果希望下載到其他盤需要進行這一配置。

更新完兩個環境變量記得重啟,不然無法立即生效。

配置完環境變量后,就可以從Ollama上下載模型到本地了:

這次我們以Deepseek-R1:8b為例,需要注意的是,模型越大對本地機器配置要求越高,一般來說deepseek 32b就能達到不錯的效果,更高的不一定能跑的起來。

?配置及模型選擇可參考:個人用戶進行LLMs本地部署前如何自查和篩選

下載方式就是復制Ollama官網提供的相應指令,通過電腦命令行進行下載(Windows+R、cmd)

ollama run deepseek-r1:8b

下載完成后,可以直接在命令行窗口進行問答,至此,你就成功完成了大模型的本地化部署!

Congrats!

本地化部署雖然是很簡單的一步,卻為未來打開了更多可能性。但是,做到這里還不算完全擁有了自己的大模型,下一篇我會講如何結合RAGFlow來構建自己的本地知識庫,從而讓DeepSeek更懂你的需求。

祝大家玩兒的開心!

See you next time!:)

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/83425.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/83425.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/83425.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Spring Boot Starter 自動裝配原理全解析:從概念到實踐

Spring Boot Starter 自動裝配原理全解析:從概念到實踐 在Spring Boot開發中,Starter和自動裝配是兩個核心概念,它們共同構成了“開箱即用”的開發體驗。通過引入一個Starter依賴,開發者可以快速集成第三方組件(如Red…

win11回收站中出現:查看回收站中是否有以下項: WPS云盤回收站

好久沒更新了,首先祝所有大朋友、小朋友六一兒童節快樂,真的希望我們永遠都不會長大呀,長大真的好累呀(?_?) 免責聲明 筆者先來個免責聲明吧,被網上的陰暗面嚇到了 若讀者參照筆者的這篇文章所執行的操作中途或后續出現的任何…

網絡安全大模型理解

一、網絡安全大模型的概述 網絡安全大模型是一種用于識別和應對各種網絡安全威脅的模型。它通過分析網絡數據包、網絡行為等信息,識別潛在的網絡安全事件,并采取相應的措施進行防御。網絡安全大模型主要包括以下幾個部分: 1. 數據預處理&am…

C++語法架構解說

C 是一種功能強大且靈活的編程語言,廣泛應用于系統編程、游戲開發、嵌入式系統、金融軟件等領域。 其語法架構復雜且豐富,涵蓋了從基礎語法到高級特性的各個方面。 對 C 語法架構 的詳細解析,涵蓋其核心語法結構、面向對象編程(…

審計- 1- 審計概述

1.財務報表審計的概念 財務報表審計是指注冊會計師對財務報表是否不存在重大錯報提供合理保證,以積極方式提出意見,增強除管理層之外的預期使用者對財務報表信賴的程度。 1.1 審計業務三方關系人 注冊會計師對財務報表發表審計意見是注冊會計師的責任管…

RapidOCR集成PP-OCRv5_det mobile模型記錄

該文章主要摘取記錄RapidOCR集成PP-OCRv5_mobile_det記錄,涉及模型轉換,模型精度測試等步驟。原文請前往官方博客: https://rapidai.github.io/RapidOCRDocs/main/blog/2025/05/26/rapidocr%E9%9B%86%E6%88%90pp-ocrv5_det%E6%A8%A1%E5%9E%8B…

Spine工具入門教程2之導入

1、導入定義 從原畫轉化為Spine的環節。 (1)選擇路徑,拖動圖片導入方式 缺點:定位不準 【使用批量導出的方式】 在PS工具中,選擇所有圖層后右鍵選擇導出。 在Spine工具中,選擇路徑導入圖片。 然后再拖…

【03】完整開發騰訊云播放器SDK的UniApp官方UTS插件——優雅草上架插件市場-卓伊凡

【03】完整開發騰訊云播放器SDK的UniApp官方UTS插件——優雅草上架插件市場-卓伊凡 一、項目背景與轉型原因 1.1 原定計劃的變更 本系列教程最初規劃是開發即構美顏SDK的UTS插件,但由于甲方公司內部戰略調整,原項目被迫中止。考慮到: 技術…

戴爾AI服務器訂單激增至121億美元,但傳統業務承壓

戴爾科技121億美元的AI服務器訂單,不僅超過了公司整個2025財年的AI服務器出貨量,更讓其AI訂單積壓達到144億美元的歷史高位。 戴爾科技最新財報顯示,AI服務器需求的爆炸式增長正在重塑這家老牌PC制造商的業務格局,但同時也暴露出…

多線程和并發之線程

線程 前面講到進程:為了并發執行任務(程序),現代操作系統才引進進程的概念 分析: 創建開銷問題:創建一個進程開銷:大 子進程需要拷貝父進程的整個地址空間 通信開銷問題:進程間的通…

AAAI 2025論文分享│STD-PLM:基于預訓練語言模型的時空數據預測與補全方法

本文詳細介紹了一篇發表于人工智能頂級會議AAAI 2025的論文《STD-PLM: Understanding Both Spatial and Temporal Properties of Spatial-Temporal Data with PLM》。該論文提出了一種基于預訓練語言模型(Pre-trained Language Model?,PLM)的…

前端八股 tcp 和 udp

都是傳輸層協議 udp 數據報協議 不可靠面向數據包對于應用層傳遞的報文加上UDP首部就傳給網絡層 tcp 傳輸控制協議 可靠 會將報文分段進行傳輸 區別: 1.tcp 可靠 udp 不可靠 2.tcp 面向連接 三握四揮 udp 無連接 3.tcp面向字節流 udp面向報文 4.效率低 效率高…

MES管理系統:Java+Vue,含源碼與文檔,實現生產過程實時監控、調度與優化,提升制造企業效能

前言: 在當今競爭激烈的制造業環境中,企業面臨著提高生產效率、降低成本、提升產品質量以及快速響應市場變化等多重挑戰。MES管理系統作為連接企業上層計劃管理系統與底層工業控制之間的橋梁,扮演著至關重要的角色。它能夠實時收集、分析和處…

MSTNet:用于糖尿病視網膜病變分類的多尺度空間感知 Transformer 與多實例學習方法|文獻速遞-深度學習醫療AI最新文獻

Title 題目 MSTNet: Multi-scale spatial-aware transformer with multi-instance learning for diabetic retinopathy classification MSTNet:用于糖尿病視網膜病變分類的多尺度空間感知 Transformer 與多實例學習方法 01 文獻速遞介紹 糖尿病視網膜病變&#…

每日八股文6.2

每日八股-6.2 Go1.GMP調度原理(這部分多去看看golang三關加深理解)2.GC(同樣多去看看golang三關加深理解)3.閉包4.go語言函數是一等公民是什么意思5.sync.Mutex和sync.RWMutex6.sync.WaitGroup7.sync.Cond8.sync.Pool9.panic和rec…

【Unity】相機 Cameras

1 前言 主要介紹官方文檔中相機模塊的內容。 關于“9動態分辨率”,這部分很多API文檔只是提了一下,具體細節還需要自己深入API才行。 2 攝像機介紹 Unity 場景在三維空間中表示游戲對象。由于觀察者的屏幕是二維屏幕,Unity 需要捕捉視圖并將…

SpringBoot(六)--- AOP、ThreadLocal

目錄 前言 一、AOP基礎 1.入門程序 2. AOP核心概念 3. 底層原理 二、AOP進階 1.通知類型 抽取切入點 2. 切入點表達式 2.1 execution 2.2 annoation 2.3 連接點詳解 三、ThreadLocal 前言 AOP(面向切面編程),面向切面編程實際就…

【深度學習】 19. 生成模型:Diffusion Models

Diffusion Models Diffusion Models 簡介 Diffusion 模型是一類通過逐步添加噪聲并再逆向還原的方式進行圖像生成的深度生成模型。其基本流程包括: 前向過程(Forward Process):將真實圖像逐步加噪,最終變為高斯噪聲…

Y1——鏈式前向星

知識點 模版——鏈表的前插法 head表示頭結點的下標 ver[i]表示結點i 的值 tot存儲當前已經用到了哪個 add用于將x插到頭結點 int head1; intt ver[N],Next[N]; int ttot-1; void add(int x){ver[tot]x;Next[tot]head;headtot; } 常見的鏈式前向星三種實現形式&#xff…

如何排查Redis單個Key命中率驟降?

問題現象 Redis整體命中率98%,但監控發現特定Key(如user:1000:profile)的命中率從99%驟降至40%,引發服務延遲上升。 排查步驟 1. 確認現象與定位Key // 通過Redis監控工具獲取Key指標 public void monitorKey(String key) {Je…