文心開源大模型ERNIE-4.5-0.3B-Paddle私有化部署保姆級教程及技術架構探索

一起來輕松玩轉文心大模型吧👉一文心大模型免費下載地址: https://ai.gitcode.com/theme/1939325484087291906

前言

2025年6月30日,百度正式開源文心大模型4.5系列(ERNIE 4.5),涵蓋10款不同參數規模的模型,包括了47B(470億)、3B(30億)激活參數的異構混合專家架構多模態MoE大模型,及0.3B(3億)參數的稠密型模型,預訓練權重與推理代碼均完全開放。除此之外還提供完整的ERNIEKit微調工具鏈和FastDeploy推理框架,兼容主流生態,適用于各種業務場景。

目前,這些模型已可在GitCode代碼托管平臺進行下載,博主這里也是第一時間對文心開源模型ERNIE-4.5-0.3B-Paddle進行了私有化部署測評。

文心模型開源系列

二、文心開源大模型私有化部署

從GitCode平臺可以看到,百度此次開源的文心大模型有十多款,形成了從0.3B到424B參數的梯度覆蓋,不僅包含文本模型還包含了視覺多模態模型(VLM),除最小的0.3B 模型外,其余模型都采用異構多模態MoE(專家混合模型:Mixture of Experts)架構。

在這里插入圖片描述

這里咱們選擇的是ERNIE-4.5-0.3B-Paddle大模型,只包含了3億參數量,屬于一個輕量化模型,可以進行本地部署,對顯卡要求沒有300B或者28、21B參數的模型(需要80G顯卡)要求高。
在這里插入圖片描述

1、準備好系統鏡像和顯卡

博主這里準備是英偉達的4090顯卡(24G顯存),用來跑ERNIE-4.5-0.3B-Paddle的輕量化模型是足夠的。
在這里插入圖片描述

操作鏡像,這里準備的是Ubuntu 20.04系統,加上必要的環境CUDA12\Python3.10等,如下圖所示:

在這里插入圖片描述

2、下載huggingface-cli

huggingface-cli 是 Hugging Face 官方提供的命令行工具,自帶完善的下載模型功能

pip install -U huggingface_hub
3、如果下載受限制,可以設置以下國內環境變量,
2. 設置環境變量
Linux
export HF_ENDPOINT=https://hf-mirror.comWindows Powershell
$env:HF_ENDPOINT = "https://hf-mirror.com"建議將上面這一行寫入 ~/.bashrc。

4、下載大模型

我們選擇的是ERNIE-4.5-0.3B-Paddle大模型

在這里插入圖片描述

下載命令:

#cDownload Model
huggingface-cli download baidu/ERNIE-4.5-0.3B-Paddle --local-dir baidu/ERNIE-4.5-0.3B-Paddle

在這里插入圖片描述

5、下載 paddlepaddle-gpu

#注意這里的版本需要根據自己的cuda的版本去定python3 -m pip install paddlepaddle-gpu==3.1.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu118/
Looking in indexes: https://www.paddlepaddle.org.cn/packages/stable/cu118/

6、下載fastdeploy-gpu

FastDeploy的安裝按這個文檔,不要直接pip install,有要求,你的顯卡選擇對應命令,
下載地址:https://paddlepaddle.github.io/FastDeploy/get_started/installation/nvidia_gpu/


#1、如果是 For SM86/89 architecture GPUs(e.g A10/4090/L20/L40):執行這個命令:
python -m pip install fastdeploy-gpu -i https://www.paddlepaddle.org.cn/packages/stable/fastdeploy-gpu-86_89/ --extra-index-url https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple#2、如果是For SM80/90 architecture GPUs(e.g A30/A100/H100/):執行這個命令
python -m pip install fastdeploy-gpu -i https://www.paddlepaddle.org.cn/packages/stable/fastdeploy-gpu-80_90/ --extra-index-url https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple

在這里插入圖片描述

7、運行模型

python -m fastdeploy.entrypoints.openai.api_server \--model baidu/ERNIE-4.5-0.3B-Paddle \--port 8180 \--metrics-port 8181 \--engine-worker-queue-port 8182 \--max-model-len 32768 \--max-num-seqs 32

8、成功運行提示

Launching metrics service at http://0.0.0.0:8181/metrics

在這里插入圖片描述

到這一步,咱們的模型就算部署成功了,咱們接下來,寫一個測試腳本,看看模型提供的API接口能否調用成功。

9、編寫腳本測試調用 test.py

test.py 測試腳本如下所示:

import openai
host = "0.0.0.0"
port = "8180"
client = openai.Client(base_url=f"http://{host}:{port}/v1", api_key="null")response = client.chat.completions.create(model="null",messages=[{"role": "system", "content": "你是一位電商售后客服專家,擅長處理客戶售后服務問題,對產品使用體驗、物流配送、售后服務、退換貨流程和日常保養等都有豐富的實踐經驗。"},{"role": "user", "content": "請問一般的產品售后有哪些保障,如何退換貨?."},],stream=True,
)
for chunk in response:if chunk.choices[0].delta:print(chunk.choices[0].delta.content, end='')
print('\n')

在這里插入圖片描述

10、大模型回答

運行命令:python test.py

在這里插入圖片描述

大模型調用成功請求日志
在這里插入圖片描述

到這里我們的大模型就私有化部署成功了。

對于算力有限的中小開發者,0.3B參數的稠密型模型可降低部署門檻,MoE模型則能滿足企業級復雜任務的需求。這種分層供給思路,讓不同資源條件的使用者都能找到適配的工具。

三、文心開源大模型官方Benchmark(基準測試)對比

因為算力有限,博主這里找到百度官方來做的基準測試圖,我們可以看到文心4.5系列21B和30B的多模態大模型在Benchmark測評上與其他開源模型相比,優秀的效果體現。

大模型的Benchmark(基準測試)是用于評估和比較大型機器學習模型(如GPT、DeepSeek、PaLM等)性能的一系列標準化任務、數據集和評價指標,常用來作為評價模型質量的標準之一。

在這里插入圖片描述

四、文心開源大模型(ERNIE 4.5)核心技術架構探索

與常規的單模態MoE不同,此次百度開源的ERNIE 4.5模型是一種異構混合型,也就是通過“分而治之”策略提升模型性能的人工智能架構:將多個不同類型的專家模塊集成在一起,每個輸入僅激活部分相關的專家模塊,從而在不顯著增加計算量的前提下大幅提升模型容量。

我們選擇一個ERNIE-4.5-21B-A3B-Base-Paddle,21b參數的開源模型的工程目錄點擊進去查看,如下圖所示
在這里插入圖片描述

文心開源大模型(ERNIE 4.5)核心技術包含以下幾點:

1、異構多模態MoE架構:

異構多模態:
多模態:模型能“看懂”圖片、“聽懂”語音、“讀懂”文字,還能把三者結合起來理解(比如看到一張“貓在沙發上”的圖片,能生成對應的文字描述)。
異構:不同任務由不同的“專家模塊”處理,比如文本任務由“語言專家”負責,圖片任務由“視覺專家”負責,避免“一刀切”導致的效率低下。

MoE(專家混合模型):
原理:模型內部有多個“專家”(類似不同領域的專家),輸入數據時,系統會自動分配給最擅長的專家處理。
優勢:避免單一模型“什么都做但都不精”的問題,同時通過動態激活專家,減少計算量,提升效率。

2、多模態混合專家模型預訓練

通過模態隔離路由和異構專家并行策略,實現文本與視覺模態的聯合訓練,避免模態間干擾

3、ERNIE 4.5的架構設計理念分析

  1. 專家分工:三類專家各司其職
    文本專家:專注處理語言任務(如翻譯、寫文章、代碼生成)。
    視覺專家:優化圖片/視頻處理(如識別物體、分析場景)。
    共享專家:捕捉跨模態的通用特征(比如文字和圖片的關聯性)。

  2. 動態路由:智能分配任務
    門控網絡:相當于“任務調度員”,根據輸入內容(文本/圖片/視頻)自動選擇最合適的專家組合。
    稀疏激活:每個任務只激活少量專家(比如處理文本時,主要用文本專家,少量用共享專家),減少計算量。

  3. 效率優化:又快又省
    自適應分辨率:視覺專家支持任意尺寸圖片輸入,避免裁剪導致的細節丟失。
    混合精度訓練:用更低的計算資源訓練更大模型,成本降低但性能不降。
    專家并行:分布式訓練中,專家模塊分布在不同設備,提升訓練速度。

4、 對比傳統模型:ERNIE 4.5的優勢

  • ERNIEKit開發套件:覆蓋微調(SFT)、對齊(DPO)到量化的全流程開發。

  • FastDeploy部署工具:解決多硬件平臺高效推理問題,降低部署門檻。

維度傳統模型ERNIE 4.5
處理模態單一模態(如只能處理文本)多模態(文本+圖片+視頻)
計算效率高(可能浪費資源)低(動態激活專家)
專業性泛泛而談各領域專家精準處理
部署難度高(需復雜調優)低(配套工具鏈支持)

五、項目總結

百度開源文心4.5系列,不僅以多模態架構創新、高效訓練體系構建及先進量化技術突破,彰顯其在人工智能領域的技術領導力,更通過開源戰略的深度實踐,為全球大模型技術生態注入普惠動能。此次開源猶如為智能革命裝上渦輪引擎,當技術民主化的浪潮沖破產業壁壘,真正受益的將是扎根開源沃土的萬千創新者——他們以效率為刃,正在智能時代的畫布上勾勒出前所未有的創新圖景。這場由技術普惠驅動的變革,不僅重構了AI開發范式,更在產業升級的深水區開辟出一條由開放創新引領的智能進化之路。

文心是百度自主研發的產業級知識增強大模型,以創新性的知識增強技術為核心,從單模態大模型到跨模態、從通用基礎大模型到跨領域、跨行業持續創新突破,構建了模型層、工具與平臺層,百度開源文心大模型這一動作,大幅降低人工智能開發和應用門檻,加快人工智能大規模產業化進程并拓展人工智能技術邊界。

一起來輕松玩轉文心大模型吧👉一文心大模型免費下載地址: https://ai.gitcode.com/theme/1939325484087291906

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/913430.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/913430.shtml
英文地址,請注明出處:http://en.pswp.cn/news/913430.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【操作系統】內存管理

要求: 1、在該實驗中,采用可變分區方式完成對存儲空間的管理(即存儲空間的分配與回收工作)。 2、設計用來記錄主存使用情況的數據結構:已分區表和空閑分區表。 3、在設計好的數據結構上設計一個主存分配算法&#xff0…

【算法筆記】5.LeetCode-Hot100-矩陣專項

1. 矩陣置零(t73) 中等難度,題目示例如下: 給定一個 m x n 的矩陣,如果一個元素為 0 ,則將其所在行和列的所有元素都設為 0 。請使用原地算法。示例 1: 輸入:matrix [[1,1,1],[1,0,1],[1,1,1]] 輸出&…

ORACLE 日常查詢

一. 查詢索引相關1. 查詢索引所在的表空間,單個索引的大小SELECT ui.table_name, us.segment_name AS index_name, us.tablespace_name,ROUND(SUM(us.bytes) / 1024 / 1024 / 1024, 2) AS total_size_GB FROM dba_indexes ui JOIN dba_segments us ON ui.index_name…

【DeepSeek實戰】17、MCP地圖服務集成全景指南:高德、百度、騰訊三大平臺接入實戰

引言:為什么MCP是地圖服務的下一代革命? 在數字化時代,位置服務已成為電商、出行、物流等行業的核心基礎設施。但單一地圖服務商的局限性日益凸顯:某外賣平臺因高德地圖API突發故障導致30分鐘訂單配送延遲,某打車軟件因百度地圖路線規劃偏差引發用戶投訴激增,某物流企業…

設計模式之【動態代理】

目錄 動態代理中存在的概念 JDK動態代理 代理工廠【ProxyFactory】實現【InvocationHandler】 目標類的接口【TargetInterface】 目標類【Target】實現了接口 測試類【JDKDynamicProxyTest】 CGLIB動態代理 添加Maven依賴 代理工廠【ProxyFactory】實現【MethodInterc…

【Linux驅動-快速回顧】一次性快速回顧TTY體系知識點(新手友好)

我將遵循一條嚴格的“問題驅動”和“演進”的邏輯線索來構建整個TTY知識體系。每引入一個新概念,都是為了解決前一個階段出現的問題。這樣,你不僅能知道“是什么”,更能深刻理解“為什么是這樣設計的”。 第〇階段:最原始的需求 …

深入淺出:讓機器聽懂世界的耳朵——梅爾頻率倒譜系數(MFCCs)

深入淺出:讓機器聽懂世界的耳朵——梅爾頻率倒譜系數(MFCCs) 在人工智能的浪潮中,語音識別、聲紋支付、音樂推薦等技術早已融入我們的日常生活。你是否曾好奇,計算機是如何理解并區分各種復雜的聲音信號的?…

Ubuntu22.04安裝/使用Gazebo時踩的一些坑

首先,本人原本打算安裝gazebo11的,因為官方好像不支持ubuntu22.04,所以要通過PPA和ROS2 humble來安裝,安裝過程跟著教程來的,也就是下面這篇 ubuntu22.04安裝gazebo11(ROS2 Humble)-CSDN博客 …

CPT203-Software Engineering: Introduction 介紹

目錄 1.專業名詞定義 1.1計算機軟件的定義 1.2軟件系統的定義 1.3軟件工程的定義 2.軟件的失敗與成功 2.1 失敗 2.2 成功 3.軟件開發 Professional software development 3.1 分類 3.2 專業軟件開發 professional software development 3.3專業軟件開發產品特性 3.4…

診斷工程師進階篇 --- 車載診斷怎么與時俱進?

我是穿拖鞋的漢子,魔都中堅持長期主義的汽車電子工程師。 老規矩,分享一段喜歡的文字,避免自己成為高知識低文化的工程師: 做到欲望極簡,了解自己的真實欲望,不受外在潮流的影響,不盲從,不跟風。把自己的精力全部用在自己。一是去掉多余,凡事找規律,基礎是誠信;二是…

奧特曼論人工智能、OpenAI與創業

來自Y Combinator的YouTube視頻,展示了OpenAI首席執行官薩姆奧特曼分享的深刻見解。他討論了OpenAI從一個看似瘋狂的通用人工智能(AGI)夢想,如何發展成為一個全球性的現象。奧特曼強調了早期決策的關鍵性、吸引頂尖人才的策略&…

React Ref使用

受控與非受控組件 Ref 1.獲取原生dom 類組件中&#xff1a;在componentDidMount方法內使用document.getElementById的方法獲取到dom元素 1 目標dom增加ref屬性 設置為字符串 <h2 reftitleref></h2>function changeRef(){this.refs.titleref.innerHtml }2 函數組件…

地下管線安全的智能監測先鋒:智能標志樁圖像監測裝置解析?

?在城市與鄉村的地下&#xff0c;縱橫交錯的管線是能源與信息傳輸的關鍵通道。但深埋地下的電纜、燃氣管道等設施&#xff0c;因難以直觀監測&#xff0c;面臨施工誤挖、自然災害等風險。傳統防護手段力不從心&#xff0c;TLKS-PAZ01 智能標志樁圖像監測裝置的誕生&#xff0c…

Camera相機人臉識別系列專題分析之十六:人臉特征檢測FFD算法之libcvface_api.so數據結構詳細注釋解析

【關注我&#xff0c;后續持續新增專題博文&#xff0c;謝謝&#xff01;&#xff01;&#xff01;】 上一篇我們講了&#xff1a; 這一篇我們開始講&#xff1a; Camera相機人臉識別系列專題分析之十六&#xff1a;人臉特征檢測FFD算法之libcvface_api.so數據結構詳細注釋解析…

【字節跳動】數據挖掘面試題0012:數據分析、數據挖掘、數據建模的區別

文章大綱 數據分析、數據挖掘、數據建模的區別一、核心定義與目標二、技術方法差異三、應用場景對比四、三者的關聯與遞進關系五、面試應答策略 數據分析、數據挖掘、數據建模的區別 一、核心定義與目標 數據分析&#xff1a; 是對已有的數據進行收集、清洗、整理&#xff0c;并…

預警:病毒 “黑吃黑”,GitHub 開源遠控項目暗藏后門

在開源生態蓬勃發展的當下&#xff0c;黑客們也將黑手伸向了代碼共享平臺。當黑產開發者以為在共享 “行業秘笈” 時&#xff0c;殊不知已經掉入了黑客布置的陷阱 —— 看似方便的后門遠程控制源碼和游戲作弊外掛源碼等 “圈內資源”&#xff0c;實則是植入了惡意代碼的投毒誘餌…

Qt中的QProcess類

Qt中的QProcess類 QProcess 是 Qt 框架中用于啟動和控制外部進程的類&#xff0c;它屬于 QtCore 模塊。這個類提供了執行外部程序并與它們交互的功能。 一、主要功能 啟動外部程序&#xff1a;可以啟動系統上的其他可執行程序進程通信&#xff1a;通過標準輸入、輸出和錯誤流…

周任務自動化升級:N8N與多維表格無縫聯動全解析

.自動化之言&#xff1a; 在上一篇文章中&#xff0c;我們介紹了如何利用多維表格&#xff08;如飛書多維表格或Notion&#xff09;搭建一個靈活的任務管理系統。現在我們將進一步擴展這個系統&#xff0c;借助 N8N 實現周報的自動匯總與郵件發送&#xff0c;真正實現任務管理…

Go語言的web框架--gin

本章內容&#xff0c;會介紹一下gin的運用&#xff0c;以及gin框架底層的內容&#xff0c;話不多說&#xff0c;開始進入今天的主題吧&#xff01; 一.基本使用 gin框架支持前后端不分離的形式&#xff0c;也就是直接使用模板的形式。 模板是什么&#xff1f; 這里可能有同…

企業為什么需要雙因素認證?

從進入互聯網時代開始&#xff0c;密碼是我們個人日常的重要保護。但是單獨的密碼保護可能已經不再適應當前的數字化時代。密碼已經不再足夠安全最近發生的各種安全漏洞讓我重新審視網絡安全。幾行代碼可能就導致了全球數以百萬的登錄憑證被泄露。今天&#xff0c;僅僅周期性地…