單卡10分鐘部署MiniCPM4-0.5B:輕量級大模型本地運行指南

一、介紹

MiniCPM 4 是一個極其高效的邊緣側大型模型,經過了模型架構、學習算法、訓練數據和推理系統四個維度的高效優化,實現了極致的效率提升。

  • 🏗??高效的模型架構:
    • InfLLM v2 – 可訓練的稀疏注意力機制:采用可訓練的稀疏注意力機制架構,每個 token 只需要計算與 128K 長文本中不到 5% 的 token 的相關性,顯著降低了長文本處理的計算開銷
  • 🧠?高效的算法學習:
    • Model Wind Tunnel 2.0 – 高效的可預測擴展:引入了下游任務性能的擴展預測方法,使得模型訓練配置搜索更加精確
    • BitCPM – 極限三值量化:將模型參數位寬壓縮至 3 個值,實現了 90% 的極端模型位寬減少
    • 高效的訓練工程優化:采用 FP8 低精度計算技術結合多 token 預測訓練策略
  • 📚?高質量的訓練數據:
    • UltraClean – 高質量預訓練數據過濾和生成:基于高效的數據驗證構建迭代數據清洗策略,開源高質量的中文和英文預訓練數據集?UltraFinweb
    • UltraChat v2 – 高質量監督微調數據生成:構建大規模高質量監督微調數據集,涵蓋知識密集型數據、推理密集型數據、指令遵循數據、長文本理解數據及工具調用數據等多個維度
  • ??高效的推理系統:
    • CPM.cu – 輕量級且高效的 CUDA 推理框架:集成稀疏注意力、模型量化和推測采樣以實現高效的填充和解碼
    • ArkInfer – 跨平臺部署系統:支持在多個后端環境中的高效部署,提供靈活的跨平臺適應能力

二、部署過程

基礎環境最低要求說明:

環境名稱版本信息
Ubuntu22.04.5 LTS
python3.10
Cuda12.1.1
NVIDIA Corporation3060

1、構建基礎鏡像

在算家云容器中心的租賃頁面中,構建基礎鏡像 Miniconda-Ubuntu-22.04-cuda12.1.1

屏幕截圖

2、從?github 倉庫?克隆項目:

# 克隆 MiniCPM4 項目(如果克隆速度過慢可以開啟學術代理加速)
git clone https://github.com/OpenBMB/MiniCPM.git

從

3、創建虛擬項目

# 創建一個名為 MiniCPM4 的新虛擬環境,并指定 Python 版本為 3.10
conda create -n MiniCPM4 python=3.10 -y

創建虛擬環境.png

等待安裝完成

等待虛擬環境安裝完成.png

4、安裝模型依賴包

# 激活 MiniCPM4 虛擬環境
conda activate MiniCPM4# 切換到項目工作目錄
cd /MiniCPM# 在 MiniCPM4 環境中安裝 requirements.txt 依賴
pip install -r requirements.txt

安裝模型依賴庫requirements.png

依賴安裝成功如下圖所示:

requirements依賴安裝成功.png

5、下載預訓練模型

推薦下載方法:

1.安裝 modelscope 依賴包。

pip install modelscope

安裝

2.創建一個 Python 下載腳本

vim modelscope_download.py

3.在創建的腳本中插入以下下載代碼

# Python 代碼下載模型
from modelscope import snapshot_download
model_dir = snapshot_download('OpenBMB/MiniCPM3-4B', cache_dir='./', revision='master')

保存文件:Esc --》Shift + :–》輸入英文的 :–》輸入:wq

  • 如果你正在編輯文本,先按?Esc?鍵退出插入模式。
  • 然后,直接按?Shift + :(不需要先按冒號,這個組合鍵已經包含了冒號的輸入),屏幕上會出現一個冒號,提示你輸入命令。
  • 接著,輸入?wq,表示你想要保存文件并退出。
  • 最后,按?Enter?鍵執行命令。

4.執行 modelscope_download.py 文件進行模型下載

python modelscope_download.py

執行

6、運行 hf_based_demo.py 文件

#切換到hf_based_demo.py 文件目錄
cd demo/minicpm# 運行 hf_based_demo.py 文件
python hf_based_demo.py

運行

出現以上報錯,需要修改模型路徑

# 編輯 hf_based_demo.py 文件
vim hf_based_demo.py

修改路徑1.png

將上方劃紅線的部分修改為剛剛下載模型的路徑,并且修改模型的 gradio 頁面 IP 和端口

修改路徑2.png

第二次運行 hf_based_demo.py 文件

# 運行 hf_based_demo.py 文件
python hf_based_demo.py

第二次運行hf_based_demo.py

出現以上結果,還需要繼續安裝 accelerate 依賴

pip install accelerate

安裝

第三次運行 hf_based_demo.py 文件

# 運行 hf_based_demo.py 文件
python hf_based_demo.py

可以成功運行:

第三次運行

三、網頁演示

網頁演示.png

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/916779.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/916779.shtml
英文地址,請注明出處:http://en.pswp.cn/news/916779.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

CSS變量與Houdini自定義屬性:解鎖樣式編程新維度

在前端開發中,CSS變量和Houdini自定義屬性正在徹底改變我們編寫和管理樣式的方式。這些技術不僅提高了樣式代碼的可維護性,更為CSS帶來了編程語言的強大能力。一、CSS變量:原生樣式的革命 CSS變量(CSS Custom Properties&#xff…

Android中PID與UID的區別和聯系(2)

一、核心概念對比特性PID (Process ID)UID (User ID)本質進程唯一標識符應用身份標識符分配時機進程啟動時動態分配應用安裝時靜態分配生命周期進程結束時回收應用卸載時才回收變化性每次啟動都可能不同長期保持不變作用范圍單進程內唯一全設備范圍唯一核心作用系統資源管理&am…

TCPDump實戰手冊:協議/端口/IP過濾與組合分析指南

目錄 一、基礎過濾速查表 1. 協議過濾(單協議) 2. 端口過濾 3. IP地址過濾 二、組合過濾實戰示例 1. 協議端口組合 2. IP端口組合 3. 復雜邏輯組合 三、高級協議分析示例 1. HTTP請求分析 2. DNS問題排查 3. TCP連接問題分析 四、組合過濾場…

【智能協同云圖庫】智能協同云圖庫第八彈:基于阿里云百煉大模型—實現 AI 擴圖功能

AI 擴圖功能 需求分析 隨著 AI 的高速發展,AI 幾乎可以應用到任何傳統業務中,增強應用的功能,帶給用戶更好的體驗。 對于圖庫網站來說,AI 也有非常多的應用空間,比如可以利用 AI 繪圖大模型來編輯圖片,實現…

2025年Solar應急響應公益月賽-7月筆記ing

應急響應身為顏狗的我是真心覺得lovelymem的ui寫得~~~~【任務1】應急大師題目描述:請提交隱藏用戶的名稱?print打印注冊表,或者開啟環境是就有【任務4】應急大師題目描述:請提交黑客創建隱藏用戶的TargetSid(目標賬戶安…

C++/CLI vs 標準 C++ vs C# 語法對照手冊

🚀 C/CLI vs 標準 C vs C# 語法對照手冊🧩 核心類型系統對比 // 類型聲明語法對比 標準 C C/CLI C# ─────────────────────────────────────────────────…

倉庫管理系統-2-后端之基于繼承基類的方式實現增刪改查

文章目錄 1 數據庫表user 2 后端通用框架 2.1 User.java(實體類) 2.2 使用封裝的方法(繼承基類) 2.2.1 UserMapper.java(mapper接口) 2.2.2 UserService.java(service接口) 2.2.3 UserServiceImpl.java(service實現類) 2.2.4 UserController.java(控制器) 3 增刪改查(封裝的方法…

【el-table滾動事件】el-table表格滾動時,獲取可視窗口內的行數據

一個簡單的獲取內容的辦法 表格部分&#xff0c;主要是ref寫一下<el-table :data"tableData" ref"tableRef"> </el-table>進入頁面的時候綁定監聽 mounted(){ // 綁定滾動事件this.$nextTick(() > {const table this.$refs.tableRef;const…

OCR 賦能自動閱卷:讓評分更高效精準

考試閱卷中&#xff0c;OCR 技術正成為高效助手&#xff0c;尤其在客觀題和標準化答題場景中表現亮眼。將考生答題卡掃描后&#xff0c;OCR 能快速識別填涂的選項、手寫數字或特定符號&#xff0c;與標準答案比對后自動判分。相比人工閱卷&#xff0c;它能在短時間內完成成百上…

在docker中安裝frp實現內網穿透

服務端frps 1.首先在服務器端安裝frps docker pull snowdreamtech/frps2.本地創建frps的配置文件frps.ini [common] bind_port 7000 # frp 服務端控制端口 token xxxxx # 客戶端認證密鑰3.啟動frps docker run -d --name frps \ --network host \ --restartalwa…

電腦開機后網絡連接慢?

在數字化日益普及的今天&#xff0c;電腦已成為我們工作和生活中不可或缺的工具。但是&#xff0c;可能很多用戶都遇到過電腦開機后網絡連接慢的情況&#xff0c;這不僅影響了我們的工作效率&#xff0c;還極大降低了上網體驗。怎么解決該問題呢&#xff1f;本文分享的這5個方法…

一分鐘部署一個導航網站

先看效果1.部署教程 mkdir -p /home/ascendking/mysite cd /home/ascendking/mysite# 安裝 WebStack-Hugo 主題git clone https://gitee.com/WangZhe168_admin/WebStack-Hugo.git themes/WebStack-Hugo# 將 exampleSite 目錄下的文件復制到 hugo 站點根目錄 cd /home/ascendki…

Rust實現微積分與高等數學公式

基于Rust實現高等數學中微積分 以下是基于Rust實現高等數學中微積分相關公式的示例整理,涵蓋微分、積分、級數等常見計算場景。內容分為基礎公式和進階應用兩類,提供可直接運行的Rust代碼片段(需依賴num或nalgebra等庫)。 微分運算 導數的數值近似(前向差分) 適用于函…

Android 鍵盤

基礎知識1. 物理鍵盤&#xff08;Physical Keyboard&#xff09;定義物理鍵盤指的是設備上真實存在的、可以按壓的鍵盤。例如&#xff1a;早期的 Android 手機&#xff08;如黑莓、摩托羅拉 Milestone&#xff09;自帶的 QWERTY 鍵盤外接的藍牙/USB 鍵盤平板或 Chromebook 上的…

SuperClaude Framework 使用指南

SuperClaude Framework 使用指南SuperClaude Framework 是一個開源配置框架&#xff0c;將 Claude Code 從通用 AI 助手轉變為專業的上下文感知開發伙伴。該框架通過模板驅動架構應用軟件工程原理&#xff0c;為專業軟件開發工作流程提供了強大的增強功能。目前該項目處于 v3.0…

Ruby 發送郵件 - SMTP

Ruby 發送郵件 - SMTP 在互聯網的世界中,郵件服務已經成為我們日常生活中不可或缺的一部分。而在開發過程中,使用Ruby發送郵件是一項基本技能。SMTP(Simple Mail Transfer Protocol)是互聯網上用于發送電子郵件的標準協議。本文將詳細介紹如何在Ruby中使用SMTP發送郵件。 …

Docker運行Ollama

1.docker-compose啟動ollama 按照 ollama docker-compose配置說明 配置并啟動ollama容器&#xff0c;啟動成功后&#xff0c;瀏覽器訪問 http://localhost:11434 如果顯示如下即代表成功 如果你的服務器支持GPU&#xff0c;可添加GPU參數支持&#xff0c;參考&#xff1a;htt…

輕松管理 WebSocket 連接!easy-websocket-client

在前端開發中&#xff0c;WebSocket 是實現實時通信的核心技術&#xff0c;但原生 WebSocket 的連接管理&#xff08;如斷連重連、心跳維護、事件監聽&#xff09;往往需要編寫大量重復代碼。今天給大家分享一個好用的 WebSocket 連接管理庫 —— easy-websocket-client&#x…

人工智能賦能社會治理:深度解析與未來展望

一、核心應用場景與技術實現1. 公共安全&#xff1a;智能防控與風險預警技術應用&#xff1a;立體化治安防控&#xff1a;AI攝像頭集成人臉識別、行為分析、多目標追蹤技術&#xff0c;提升破案率與公共安全能力。例如&#xff0c;深圳某區通過AI系統使盜竊案件破案率提升40%。…

解決使用vscode連接服務器出現“正在下載 VS Code 服務器...”

# 解決使用vscode連接服務器出現“正在下載 VS Code 服務器...”## 首先在vscode的輸出中獲取 commit idtext [17:17:41.679] Using commit id "c306e94f98122556ca081f527b466015e1bc37b0" and quality "stable" for server 從上面的體制中可以看出&#…