文心開源大模型ERNIE-4.5-0.3B-Paddle私有化部署保姆級教程及技術架構探索

一起來輕松玩轉文心大模型吧👉一文心大模型免費下載地址: https://ai.gitcode.com/theme/1939325484087291906

前言

2025年6月30日，百度正式開源文心大模型4.5系列（ERNIE 4.5），涵蓋10款不同參數規模的模型，包括了47B（470億）、3B（30億）激活參數的異構混合專家架構多模態MoE大模型，及0.3B（3億）參數的稠密型模型，預訓練權重與推理代碼均完全開放。除此之外還提供完整的ERNIEKit微調工具鏈和FastDeploy推理框架，兼容主流生態，適用于各種業務場景。

目前，這些模型已可在GitCode代碼托管平臺進行下載，博主這里也是第一時間對文心開源模型ERNIE-4.5-0.3B-Paddle進行了私有化部署測評。

文心模型開源系列

二、文心開源大模型私有化部署

從GitCode平臺可以看到，百度此次開源的文心大模型有十多款，形成了從0.3B到424B參數的梯度覆蓋，不僅包含文本模型還包含了視覺多模態模型（VLM），除最小的0.3B 模型外，其余模型都采用異構多模態MoE（專家混合模型：Mixture of Experts）架構。

在這里插入圖片描述

這里咱們選擇的是ERNIE-4.5-0.3B-Paddle大模型，只包含了3億參數量，屬于一個輕量化模型，可以進行本地部署，對顯卡要求沒有300B或者28、21B參數的模型（需要80G顯卡）要求高。
在這里插入圖片描述

1、準備好系統鏡像和顯卡

博主這里準備是英偉達的4090顯卡（24G顯存），用來跑ERNIE-4.5-0.3B-Paddle的輕量化模型是足夠的。
在這里插入圖片描述

操作鏡像，這里準備的是Ubuntu 20.04系統，加上必要的環境CUDA12\Python3.10等，如下圖所示：

在這里插入圖片描述

2、下載huggingface-cli

huggingface-cli 是 Hugging Face 官方提供的命令行工具，自帶完善的下載模型功能

pip install -U huggingface_hub

3、如果下載受限制，可以設置以下國內環境變量，

2. 設置環境變量
Linux
export HF_ENDPOINT=https://hf-mirror.comWindows Powershell
$env:HF_ENDPOINT = "https://hf-mirror.com"建議將上面這一行寫入 ~/.bashrc。

4、下載大模型

我們選擇的是ERNIE-4.5-0.3B-Paddle大模型

在這里插入圖片描述

下載命令：

#cDownload Model
huggingface-cli download baidu/ERNIE-4.5-0.3B-Paddle --local-dir baidu/ERNIE-4.5-0.3B-Paddle

在這里插入圖片描述

5、下載 paddlepaddle-gpu

#注意這里的版本需要根據自己的cuda的版本去定python3 -m pip install paddlepaddle-gpu==3.1.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu118/
Looking in indexes: https://www.paddlepaddle.org.cn/packages/stable/cu118/

6、下載fastdeploy-gpu

FastDeploy的安裝按這個文檔，不要直接pip install，有要求，你的顯卡選擇對應命令，
下載地址：https://paddlepaddle.github.io/FastDeploy/get_started/installation/nvidia_gpu/


#1、如果是 For SM86/89 architecture GPUs(e.g A10/4090/L20/L40):執行這個命令：
python -m pip install fastdeploy-gpu -i https://www.paddlepaddle.org.cn/packages/stable/fastdeploy-gpu-86_89/ --extra-index-url https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple#2、如果是For SM80/90 architecture GPUs(e.g A30/A100/H100/):執行這個命令
python -m pip install fastdeploy-gpu -i https://www.paddlepaddle.org.cn/packages/stable/fastdeploy-gpu-80_90/ --extra-index-url https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple

在這里插入圖片描述

7、運行模型

python -m fastdeploy.entrypoints.openai.api_server \--model baidu/ERNIE-4.5-0.3B-Paddle \--port 8180 \--metrics-port 8181 \--engine-worker-queue-port 8182 \--max-model-len 32768 \--max-num-seqs 32

8、成功運行提示

Launching metrics service at http://0.0.0.0:8181/metrics

在這里插入圖片描述

到這一步，咱們的模型就算部署成功了，咱們接下來，寫一個測試腳本，看看模型提供的API接口能否調用成功。

9、編寫腳本測試調用 test.py

test.py 測試腳本如下所示：

import openai
host = "0.0.0.0"
port = "8180"
client = openai.Client(base_url=f"http://{host}:{port}/v1", api_key="null")response = client.chat.completions.create(model="null",messages=[{"role": "system", "content": "你是一位電商售后客服專家，擅長處理客戶售后服務問題，對產品使用體驗、物流配送、售后服務、退換貨流程和日常保養等都有豐富的實踐經驗。"},{"role": "user", "content": "請問一般的產品售后有哪些保障，如何退換貨？."},],stream=True,
)
for chunk in response:if chunk.choices[0].delta:print(chunk.choices[0].delta.content, end='')
print('\n')

在這里插入圖片描述

10、大模型回答

運行命令：python test.py

在這里插入圖片描述

大模型調用成功請求日志
在這里插入圖片描述

到這里我們的大模型就私有化部署成功了。

對于算力有限的中小開發者，0.3B參數的稠密型模型可降低部署門檻，MoE模型則能滿足企業級復雜任務的需求。這種分層供給思路，讓不同資源條件的使用者都能找到適配的工具。

三、文心開源大模型官方Benchmark(基準測試)對比

因為算力有限，博主這里找到百度官方來做的基準測試圖，我們可以看到文心4.5系列21B和30B的多模態大模型在Benchmark測評上與其他開源模型相比,優秀的效果體現。

大模型的Benchmark（基準測試）是用于評估和比較大型機器學習模型（如GPT、DeepSeek、PaLM等）性能的一系列標準化任務、數據集和評價指標，常用來作為評價模型質量的標準之一。

在這里插入圖片描述

四、文心開源大模型（ERNIE 4.5）核心技術架構探索

與常規的單模態MoE不同，此次百度開源的ERNIE 4.5模型是一種異構混合型，也就是通過“分而治之”策略提升模型性能的人工智能架構：將多個不同類型的專家模塊集成在一起，每個輸入僅激活部分相關的專家模塊，從而在不顯著增加計算量的前提下大幅提升模型容量。

我們選擇一個ERNIE-4.5-21B-A3B-Base-Paddle,21b參數的開源模型的工程目錄點擊進去查看，如下圖所示
在這里插入圖片描述

文心開源大模型（ERNIE 4.5）核心技術包含以下幾點:

1、異構多模態MoE架構：

異構多模態：
多模態：模型能“看懂”圖片、“聽懂”語音、“讀懂”文字，還能把三者結合起來理解（比如看到一張“貓在沙發上”的圖片，能生成對應的文字描述）。
異構：不同任務由不同的“專家模塊”處理，比如文本任務由“語言專家”負責，圖片任務由“視覺專家”負責，避免“一刀切”導致的效率低下。

MoE（專家混合模型）：
原理：模型內部有多個“專家”（類似不同領域的專家），輸入數據時，系統會自動分配給最擅長的專家處理。
優勢：避免單一模型“什么都做但都不精”的問題，同時通過動態激活專家，減少計算量，提升效率。

2、多模態混合專家模型預訓練

通過模態隔離路由和異構專家并行策略，實現文本與視覺模態的聯合訓練，避免模態間干擾

3、ERNIE 4.5的架構設計理念分析

專家分工：三類專家各司其職
文本專家：專注處理語言任務（如翻譯、寫文章、代碼生成）。
視覺專家：優化圖片/視頻處理（如識別物體、分析場景）。
共享專家：捕捉跨模態的通用特征（比如文字和圖片的關聯性）。
動態路由：智能分配任務
門控網絡：相當于“任務調度員”，根據輸入內容（文本/圖片/視頻）自動選擇最合適的專家組合。
稀疏激活：每個任務只激活少量專家（比如處理文本時，主要用文本專家，少量用共享專家），減少計算量。
效率優化：又快又省
自適應分辨率：視覺專家支持任意尺寸圖片輸入，避免裁剪導致的細節丟失。
混合精度訓練：用更低的計算資源訓練更大模型，成本降低但性能不降。
專家并行：分布式訓練中，專家模塊分布在不同設備，提升訓練速度。

4、對比傳統模型：ERNIE 4.5的優勢

ERNIEKit開發套件：覆蓋微調（SFT）、對齊（DPO）到量化的全流程開發。
FastDeploy部署工具：解決多硬件平臺高效推理問題，降低部署門檻。

維度	傳統模型	ERNIE 4.5
處理模態	單一模態（如只能處理文本）	多模態（文本+圖片+視頻）
計算效率	高（可能浪費資源）	低（動態激活專家）
專業性	泛泛而談	各領域專家精準處理
部署難度	高（需復雜調優）	低（配套工具鏈支持）

五、項目總結

百度開源文心4.5系列，不僅以多模態架構創新、高效訓練體系構建及先進量化技術突破，彰顯其在人工智能領域的技術領導力，更通過開源戰略的深度實踐，為全球大模型技術生態注入普惠動能。此次開源猶如為智能革命裝上渦輪引擎，當技術民主化的浪潮沖破產業壁壘，真正受益的將是扎根開源沃土的萬千創新者——他們以效率為刃，正在智能時代的畫布上勾勒出前所未有的創新圖景。這場由技術普惠驅動的變革，不僅重構了AI開發范式，更在產業升級的深水區開辟出一條由開放創新引領的智能進化之路。

文心是百度自主研發的產業級知識增強大模型，以創新性的知識增強技術為核心，從單模態大模型到跨模態、從通用基礎大模型到跨領域、跨行業持續創新突破，構建了模型層、工具與平臺層，百度開源文心大模型這一動作，大幅降低人工智能開發和應用門檻，加快人工智能大規模產業化進程并拓展人工智能技術邊界。

一起來輕松玩轉文心大模型吧👉一文心大模型免費下載地址: https://ai.gitcode.com/theme/1939325484087291906