一起來輕松玩轉文心大模型吧👉一文心大模型免費下載地址: https://ai.gitcode.com/theme/1939325484087291906
前言
2025年6月30日,百度正式開源文心大模型4.5系列(ERNIE 4.5),涵蓋10款不同參數規模的模型,包括了47B(470億)、3B(30億)激活參數的異構混合專家架構多模態MoE大模型,及0.3B(3億)參數的稠密型模型,預訓練權重與推理代碼均完全開放。除此之外還提供完整的ERNIEKit微調工具鏈和FastDeploy推理框架,兼容主流生態,適用于各種業務場景。
目前,這些模型已可在GitCode代碼托管平臺進行下載,博主這里也是第一時間對文心開源模型ERNIE-4.5-0.3B-Paddle進行了私有化部署測評。
二、文心開源大模型私有化部署
從GitCode平臺可以看到,百度此次開源的文心大模型有十多款,形成了從0.3B到424B參數的梯度覆蓋,不僅包含文本模型還包含了視覺多模態模型(VLM),除最小的0.3B 模型外,其余模型都采用異構多模態MoE(專家混合模型:Mixture of Experts)架構。
這里咱們選擇的是ERNIE-4.5-0.3B-Paddle大模型,只包含了3億參數量,屬于一個輕量化模型,可以進行本地部署,對顯卡要求沒有300B或者28、21B參數的模型(需要80G顯卡)要求高。
1、準備好系統鏡像和顯卡
博主這里準備是英偉達的4090顯卡(24G顯存),用來跑ERNIE-4.5-0.3B-Paddle的輕量化模型是足夠的。
操作鏡像,這里準備的是Ubuntu 20.04系統,加上必要的環境CUDA12\Python3.10等,如下圖所示:
2、下載huggingface-cli
huggingface-cli 是 Hugging Face 官方提供的命令行工具,自帶完善的下載模型功能
pip install -U huggingface_hub
3、如果下載受限制,可以設置以下國內環境變量,
2. 設置環境變量
Linux
export HF_ENDPOINT=https://hf-mirror.comWindows Powershell
$env:HF_ENDPOINT = "https://hf-mirror.com"建議將上面這一行寫入 ~/.bashrc。
4、下載大模型
我們選擇的是ERNIE-4.5-0.3B-Paddle大模型
下載命令:
#cDownload Model
huggingface-cli download baidu/ERNIE-4.5-0.3B-Paddle --local-dir baidu/ERNIE-4.5-0.3B-Paddle
5、下載 paddlepaddle-gpu
#注意這里的版本需要根據自己的cuda的版本去定python3 -m pip install paddlepaddle-gpu==3.1.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu118/
Looking in indexes: https://www.paddlepaddle.org.cn/packages/stable/cu118/
6、下載fastdeploy-gpu
FastDeploy的安裝按這個文檔,不要直接pip install,有要求,你的顯卡選擇對應命令,
下載地址:https://paddlepaddle.github.io/FastDeploy/get_started/installation/nvidia_gpu/
#1、如果是 For SM86/89 architecture GPUs(e.g A10/4090/L20/L40):執行這個命令:
python -m pip install fastdeploy-gpu -i https://www.paddlepaddle.org.cn/packages/stable/fastdeploy-gpu-86_89/ --extra-index-url https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple#2、如果是For SM80/90 architecture GPUs(e.g A30/A100/H100/):執行這個命令
python -m pip install fastdeploy-gpu -i https://www.paddlepaddle.org.cn/packages/stable/fastdeploy-gpu-80_90/ --extra-index-url https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple
7、運行模型
python -m fastdeploy.entrypoints.openai.api_server \--model baidu/ERNIE-4.5-0.3B-Paddle \--port 8180 \--metrics-port 8181 \--engine-worker-queue-port 8182 \--max-model-len 32768 \--max-num-seqs 32
8、成功運行提示
Launching metrics service at http://0.0.0.0:8181/metrics
到這一步,咱們的模型就算部署成功了,咱們接下來,寫一個測試腳本,看看模型提供的API接口能否調用成功。
9、編寫腳本測試調用 test.py
test.py 測試腳本如下所示:
import openai
host = "0.0.0.0"
port = "8180"
client = openai.Client(base_url=f"http://{host}:{port}/v1", api_key="null")response = client.chat.completions.create(model="null",messages=[{"role": "system", "content": "你是一位電商售后客服專家,擅長處理客戶售后服務問題,對產品使用體驗、物流配送、售后服務、退換貨流程和日常保養等都有豐富的實踐經驗。"},{"role": "user", "content": "請問一般的產品售后有哪些保障,如何退換貨?."},],stream=True,
)
for chunk in response:if chunk.choices[0].delta:print(chunk.choices[0].delta.content, end='')
print('\n')
10、大模型回答
運行命令:python test.py
大模型調用成功請求日志
到這里我們的大模型就私有化部署成功了。
對于算力有限的中小開發者,0.3B參數的稠密型模型可降低部署門檻,MoE模型則能滿足企業級復雜任務的需求。這種分層供給思路,讓不同資源條件的使用者都能找到適配的工具。
三、文心開源大模型官方Benchmark(基準測試)對比
因為算力有限,博主這里找到百度官方來做的基準測試圖,我們可以看到文心4.5系列21B和30B的多模態大模型在Benchmark測評上與其他開源模型相比,優秀的效果體現。
大模型的Benchmark(基準測試)是用于評估和比較大型機器學習模型(如GPT、DeepSeek、PaLM等)性能的一系列標準化任務、數據集和評價指標,常用來作為評價模型質量的標準之一。
四、文心開源大模型(ERNIE 4.5)核心技術架構探索
與常規的單模態MoE不同,此次百度開源的ERNIE 4.5模型是一種異構混合型,也就是通過“分而治之”策略提升模型性能的人工智能架構:將多個不同類型的專家模塊集成在一起,每個輸入僅激活部分相關的專家模塊,從而在不顯著增加計算量的前提下大幅提升模型容量。
我們選擇一個ERNIE-4.5-21B-A3B-Base-Paddle,21b參數的開源模型的工程目錄點擊進去查看,如下圖所示
文心開源大模型(ERNIE 4.5)核心技術包含以下幾點:
1、異構多模態MoE架構:
異構多模態:
多模態:模型能“看懂”圖片、“聽懂”語音、“讀懂”文字,還能把三者結合起來理解(比如看到一張“貓在沙發上”的圖片,能生成對應的文字描述)。
異構:不同任務由不同的“專家模塊”處理,比如文本任務由“語言專家”負責,圖片任務由“視覺專家”負責,避免“一刀切”導致的效率低下。
MoE(專家混合模型):
原理:模型內部有多個“專家”(類似不同領域的專家),輸入數據時,系統會自動分配給最擅長的專家處理。
優勢:避免單一模型“什么都做但都不精”的問題,同時通過動態激活專家,減少計算量,提升效率。
2、多模態混合專家模型預訓練
通過模態隔離路由和異構專家并行策略,實現文本與視覺模態的聯合訓練,避免模態間干擾
3、ERNIE 4.5的架構設計理念分析
-
專家分工:三類專家各司其職
文本專家:專注處理語言任務(如翻譯、寫文章、代碼生成)。
視覺專家:優化圖片/視頻處理(如識別物體、分析場景)。
共享專家:捕捉跨模態的通用特征(比如文字和圖片的關聯性)。 -
動態路由:智能分配任務
門控網絡:相當于“任務調度員”,根據輸入內容(文本/圖片/視頻)自動選擇最合適的專家組合。
稀疏激活:每個任務只激活少量專家(比如處理文本時,主要用文本專家,少量用共享專家),減少計算量。 -
效率優化:又快又省
自適應分辨率:視覺專家支持任意尺寸圖片輸入,避免裁剪導致的細節丟失。
混合精度訓練:用更低的計算資源訓練更大模型,成本降低但性能不降。
專家并行:分布式訓練中,專家模塊分布在不同設備,提升訓練速度。
4、 對比傳統模型:ERNIE 4.5的優勢
-
ERNIEKit開發套件:覆蓋微調(SFT)、對齊(DPO)到量化的全流程開發。
-
FastDeploy部署工具:解決多硬件平臺高效推理問題,降低部署門檻。
維度 | 傳統模型 | ERNIE 4.5 |
---|---|---|
處理模態 | 單一模態(如只能處理文本) | 多模態(文本+圖片+視頻) |
計算效率 | 高(可能浪費資源) | 低(動態激活專家) |
專業性 | 泛泛而談 | 各領域專家精準處理 |
部署難度 | 高(需復雜調優) | 低(配套工具鏈支持) |
五、項目總結
百度開源文心4.5系列,不僅以多模態架構創新、高效訓練體系構建及先進量化技術突破,彰顯其在人工智能領域的技術領導力,更通過開源戰略的深度實踐,為全球大模型技術生態注入普惠動能。此次開源猶如為智能革命裝上渦輪引擎,當技術民主化的浪潮沖破產業壁壘,真正受益的將是扎根開源沃土的萬千創新者——他們以效率為刃,正在智能時代的畫布上勾勒出前所未有的創新圖景。這場由技術普惠驅動的變革,不僅重構了AI開發范式,更在產業升級的深水區開辟出一條由開放創新引領的智能進化之路。
文心是百度自主研發的產業級知識增強大模型,以創新性的知識增強技術為核心,從單模態大模型到跨模態、從通用基礎大模型到跨領域、跨行業持續創新突破,構建了模型層、工具與平臺層,百度開源文心大模型這一動作,大幅降低人工智能開發和應用門檻,加快人工智能大規模產業化進程并拓展人工智能技術邊界。
一起來輕松玩轉文心大模型吧👉一文心大模型免費下載地址: https://ai.gitcode.com/theme/1939325484087291906