百度文心 ERNIE 4.5 開源:開啟中國多模態大模型開源新時代
隨著DeepSeek-R1的橫空出示,越來越多大公司開始開源模型,像DeepSeek R1發布的時候Kimi同步開源了技術文檔,隨著R1推動著思維鏈推理技術的發展,開源社區也出現了越來越多開源推理大模型,比如前段時間開源的Qwen3,開始使用MOE架構并且能自由切換思維模式,以及Kimi也開源了一些模型,比如Kimi-VL多模態模型,也適用了思維鏈R1的方式應用到多模態大模型中。最近沖浪中,我又發現百度也開始進行開源了,6.30號的時候剛剛發布了開源模型,也就是文心大模型 ERNIE 4.5系列,現在在huggingface已經可以下載開源的權重了 https://huggingface.co/baidu。
這次百度也是真的大氣,一口氣開源了很多個模型,包括了 47B、3B 激活參數的混合專家(MoE)模型,以及 0.3B 參數的稠密型模型,共計 10 款模型,實現了預訓練權重和推理代碼的完全開源。最驚訝的是同時開源了多模態推理大模型,之前Seed-VL公開技術報告的時候我驚艷了一波,但是字節并沒有開源,百度這波開源的正是時候,而且是一個424B的大模型,也具有切換思考模模式的能力,也擁有Qwen3的語言模型能力。
同時從現有全球主流大模型開源維度上來看,現在百度開源的大模型無論是覆蓋類型以及開源模型的數量,不僅包括基礎模型,也包括多模態模型,這些都處于領先地位,并且主要的是開源協議是 Apache 協議,是開源進行商用的,依托這種趨勢,未來肯定會有更多的大模型進行開源。
這次比較有意思是的,這次百度不僅僅開源了模型權重,同時也發布了技術報告和訓練推理代碼,能夠讓我們快速的了解這次開源的文心系列 ERNIE 4.5大模型,本次大模型還針對 MoE 架構,百度提出了一種創新性的多模態異構模型結構,這種范式在保留文本任務性能的基礎上,還顯著的增強多模態理解能力;同時百度的多模態MOE預訓練和針對多模態后訓練等關鍵技術,讓他們在各個文本和多模態基準測試中脫穎而出,能夠和 Qwen3/DeepSeekV3 的一較高下,比如ERNIE 4.5在 28 個基準測試中的 20+個指標上 上超越了 DeepSeek-V3-671B-A37B-Base,達到 SOTA 水平。這也可能是為什么百度能夠開源高達424B的多模態大模型的原因,像這么大的多模態推理大模型暫時在國內還沒有人進行開源,百度不論是在技術還是開源都走在了中國的前列。
最后意思的還是ERNIE 4.5系列中的多模態后訓練模型,可支持思考,這次開源兩個模型,一個是平價版本的28B的VL大模型,一個是超大版本的424B的大模型,可以看出來文心的大模型已經在多個基準上都超過了OpenAI-o1的水準了,而且也是為數不多開源的多模態推理大模型,性能也是數一數二,未來可能會有更多的文章和開源項目來follow 文心大模型了。這一部分也是最讓我驚艷的,就算是關閉思考的模型也在通用環境中展現超強的能力,超過了Qwen2.5-VL,同樣在多個領域都達到了SOTA。
并且在海外的twitter中,我也關注到,huggingface上到 CEO、創始人和眾多工程師都對這次百度的開源一致好評,ERNIE 4.5是 DeepSeek以來中國最大的開源模型發布,同時文心的基準測試展現出很強的模型技術能力,可與Qwen3/DeepSeekv3等開源大模型競爭,并且參數量喜人,涵蓋從0.3B到424B。
這次百度開源的時候也同時開源了訓練代碼,ERNIE 4.5模型使用飛槳(PaddlePaddle)框架進行訓練,不僅僅有paddle的模型,也有pytorch模型。
同時配套一個微調的框架,也就是ERNIEKit,他 是一個面向 ERNIE 4.5 的產業級開發套件。它提供了模型訓練和壓縮功能,包括預訓練,SFT,LoRA, DPO,量化感知訓練(QAT)和訓練后量化(PTQ)等技術。
使用示例:
# Download modelhuggingface-cli download baidu/ERNIE-4.5-300B-A47B-Base-Paddle \--local-dir baidu/ERNIE-4.5-300B-A47B-Base-Paddle
# SFTerniekit train examples/configs/ERNIE-4.5-300B-A47B/sft/run_sft_wint8mix_lora_8k.yaml \model_name_or_path=baidu/ERNIE-4.5-300B-A47B-Base-Paddle
# DPOerniekit train examples/configs/ERNIE-4.5-300B-A47B/dpo/run_dpo_wint8mix_lora_8k.yaml \model_name_or_path=baidu/ERNIE-4.5-300B-A47B-Base-Paddle
于此同時還提供了基于飛槳的大模型高效部署套件FastDeploy,使用接口兼容vLLM和OpenAI協議,針對ERNIE模型進行了優化,支持low bit推理,上下文緩存等加速技術,這里就不過多闡述了,以下是示例代碼。
本地推理示例:
from fastdeploy import LLM, SamplingParams
prompt = "Write me a poem about large language model."sampling_params = SamplingParams(temperature=0.8, top_p=0.95)
llm = LLM(model="baidu/ERNIE-4.5-0.3B-Paddle", max_model_len=32768)
outputs = llm.generate(prompt, sampling_params)
服務部署示例:
python -m fastdeploy.entrypoints.openai.api_server \--model "baidu/ERNIE-4.5-0.3B-Paddle" \--max-model-len 32768 \--port 9904
有關詳細文檔、安裝指南和高級配置選項,請參考ERNIEKit和 FastDeploy 倉庫,這里我就不多說了。
現在大模型越來越卷了,不僅僅有開源和閉源之爭,也有中美AI之爭,OpenAI和谷歌大模型也在不斷的發布,Open AI 以前的的閉源態度發生了明顯轉變,也開始打出 “開源 + 免費” 的組合拳,還開源了Agent框架以及DeepResearch,這無不顯示中國的開源大模型的策略,已對 OpenAI 形成了強大的壓力,迫使其不得不做出改變。現在大模型在技術層面逐漸向多模態方向發展,生態層面則愈發重視開源,而這次百度文心大模型 4.5 系列的開源,是中國 AI 發展歷程中的一座重要里程碑,它向世界展示了中國 AI 的強大實力,也為中國 AI 開源生態的發展注入了強大動力。百度其實也一直在路上,百度有自研paddle飛槳框架以及千帆大模型平臺,這次又開源了ERNIE 4.5,性價比拉滿,同時給開源社區注入活力,后續我會嘗試體驗文心模型,看看github上的代碼,共建開源社區,為開源貢獻一份力量。
參考
- ERNIE 4.5 模型系列正式開源:https://ernie.baidu.com/blog/zh/posts/ernie4.5/
- https://x.com/eliebakouch/status/1939512373007765666
- https://x.com/Xianbao_QIAN/status/1939506694838714530
- https://x.com/ClementDelangue/status/1939516209172480141