百度文心一言開源ERNIE-4.5深度測評報告：技術架構解讀與性能對比

目錄
一、技術架構解讀
1.1、ERNIE 4.5 系列模型概覽
1.2、模型架構解讀
1.2.1、異構MoE（Heterogeneous MoE）
1.2.2、視覺編碼器（Vision Encoder）
1.2.3、適配器（Adapter）
1.2.4、多模態位置嵌入（Multimodal Positional Embedding）
二、模型性能測評對比
2.1、通用能力
2.2、知識能力
2.3、指令遵循能力
2.4、數學能力
2.5、推理能力
2.6、編程能力
2.7、多模態能力
2.8、總結
三、產業觀察對比
3.1、技術選型與架構
3.2、生態建設與應用場景
3.3、合規性和安全性
總結

一、技術架構解讀

2025年6月30日，百度正式宣布開源即文心一言大模型ERNIE 4.5系列，涵蓋了47B和3B激活參數的MoE（混合專家）模型，以及0.3B參數的稠密模型，并實現了預訓練權重與推理代碼的完全開源。這一舉措不僅彰顯了百度在大模型領域的深厚積累，也為業界提供了寶貴的參考和實踐基礎。

1.1、ERNIE 4.5 系列模型概覽

本次開源的 ERNIE 4.5 系列模型可以大致分為兩類：主要處理文本的語言模型（LLMs）和能夠處理多種模態數據的視覺-語言模型（VLMs）。這些模型的主要特點和區別體現在幾個方面：

多模態（Multimodal）能力：普通模型主要專注于文本，帶有“VL”標識的模型具備多模態處理能力，能夠理解和生成文本、圖像等多種形式的數據。
專家混合（MoE）架構：除了最小的0.3B稠密模型外，ERNIE 4.5系列的大多數模型都采用了MoE架構。MoE模型通過動態選擇性地激活不同的專家網絡來處理輸入，這在保持高性能的同時，也提高了訓練和推理的效率。
后訓練（Post-Trained）：模型名稱中不帶“-Base”后綴的通常表示這些模型在預訓練的基礎上，經過了進一步的后訓練或微調，以優化其在特定應用場景下的性能。而帶有“-Base”后綴的模型則是基礎的預訓練模型。
思考/非思考模式（Thinking / Non-Thinking Mode）：在“non-thinking”模式下，模型可以直接給出答案，無需復雜的推理過程。而“both”模式（主要出現在VL模型中）則意味著模型可以根據任務需求，在直接響應和進行更深層次的“思考”（即復雜的推理和分析）之間切換。

在這里插入圖片描述

1.2、模型架構解讀

ERNIE 4.5 的架構基于 Transformer，支持圖像、視頻和文本作為輸入，并生成文本作為輸出。其核心設計理念在于通過精巧的組件協同工作，實現高效的多模態信息處理。以下將從異構MoE（Heterogeneous MoE）、視覺編碼器（Vision Encoder）、**適配器（Adapter）和多模態位置編碼（Multimodal Positional Embedding）**四個方面進行深入解讀。

在這里插入圖片描述

1.2.1、異構MoE（Heterogeneous MoE）

ERNIE 4.5的核心架構創新在于其提出的"異構模態MoE"設計，這一設計巧妙地解決了多模態模型訓練中的關鍵矛盾：如何在共享知識的同時保持各模態的特性。

傳統多模態模型往往面臨"模態干擾"問題——視覺信息的引入可能會損害模型原有的語言理解能力，反之亦然。ERNIE 4.5通過分層級的專家路由機制和參數分配策略，實現了模態間的有機融合。

在這里插入圖片描述
與傳統的統一MoE不同，ERNIE 4.5將專家(Experts)明確劃分為三類：文本專家、視覺專家和共享專家。文本token被路由到文本專家，視覺token被路由到視覺專家，而所有token都會經過共享專家處理。這種設計既保留了模態特異性，又促進了跨模態知識轉移。值得注意的是，視覺專家的參數量僅為文本專家的三分之一，這反映了視覺token的冗余特性以及計算效率的考量。

在這里插入圖片描述

在實際應用中，例如處理一張含有文字說明的圖片時，文本專家能夠精準解析文字內容，提取文字的語義信息，如文字所表達的概念、情感等；視覺專家則專注于圖像特征提取，如顏色、形狀、紋理等視覺元素。二者共同作用于共享專家，使得模型不僅能理解圖片中的文字語義，還能結合圖像的視覺信息，更準確地把握整體內容。

1.2.2、視覺編碼器（Vision Encoder）

視覺編碼器的設計同樣體現了ERNIE 4.5對多模態特性的深入思考。與傳統的固定分辨率ViT不同，ERNIE 4.5采用了自適應分辨率機制，將圖像高度和寬度分別調整至ViT patch大小的最近倍數，從而保持原始長寬比，避免了固定尺寸調整導致的失真。對于視頻輸入，模型提出了動態幀采樣策略，根據視頻時長和可用序列長度同時調整幀數和分辨率，實現了有限上下文長度下的最優時空覆蓋。

在這里插入圖片描述

在實際應用中，當處理不同分辨率的圖片時，自適應分辨率機制能夠確保模型在不損失關鍵信息的前提下，高效地對圖像進行編碼。例如，對于一幅長寬比特殊的圖像，該機制可以將其調整為適合 ViT 處理的尺寸，同時保留圖像的原始比例，避免因強制變形而導致的視覺信息扭曲。對于視頻，動態幀采樣策略則使得模型能夠根據視頻的時長和復雜程度，合理分配計算資源。

1.2.3、適配器（Adapter）

適配器(Adapter)模塊在多模態對齊中扮演關鍵角色。ERNIE 4.5的適配器不僅執行空間和時間維度的token壓縮，更重要的是通過訓練將多模態特征空間對齊到文本嵌入空間。具體實現上，靜態圖像被處理為合成的兩幀"視頻"，確保跨模態的時間建模一致性。像素重排(pixel shuffle)操作被用于高效的特征重組，將相鄰的token特征重新排列為更緊湊的形式。

在這里插入圖片描述
以一張包含多個物體的圖片為例，適配器能夠將圖像的空間信息進行壓縮整合，提取出物體的關鍵特征，并將其映射到文本嵌入空間。這樣，模型就能像處理文本一樣處理圖像特征，使得圖像與文本之間的交互更加自然流暢。同時，通過將靜態圖像轉化為 “視頻” 格式，模型在處理圖像時也能利用時間維度的建模優勢，更好地理解圖像中的動態信息或序列關系。例如，在處理一系列相關圖片或圖像序列時，這種時間建模能力可以幫助模型捕捉物體的運動軌跡或場景的變化過程，從而更準確地理解和生成符合邏輯的內容。

1.2.4、多模態位置嵌入（Multimodal Positional Embedding）

與常規的1D(文本)和2D(圖像)位置編碼不同，ERNIE 4.5為視覺語言模型設計了統一的多模態位置編碼方案，獨立編碼時間、寬度和高度維度。低頻被分配給變化最慢的時間軸，剩余頻率在空間軸間交錯分配，實現了對稱的空間建模和強大的長期時序建模能力。這種方法在長視頻理解任務中表現出色，支持序列長度外推。

在這里插入圖片描述
在多模態環境下，精準的位置信息對于理解內容的語義和關系至關重要。通過獨立編碼時間、寬度和高度維度，ERNIE 4.5 的多模態位置嵌入能夠為模型提供更豐富的空間和時間線索。

二、模型性能測評對比

本次對 ERNIE 4.5 模型的性能測評基于其技術報告及相關參考文獻展開。在測評過程中，我們重點關注了以下幾個方面的性能指標：

語言理解任務 ：包括對文本的一般理解、知識掌握程度、推理能力以及代碼生成與理解等。
多模態任務 ：主要涵蓋視覺知識理解、文檔和圖表理解、多模態推理、視覺感知以及視頻理解等。
測評數據主要來源于以下渠道：
技術報告 ：深入分析 ERNIE 4.5 技術報告中提供的各類實驗結果和性能數據，這是本次測評的基礎數據來源。
參考文獻 ：參考了多篇大模型的研究文獻、技術報告，以獲取更多實際應用場景下的性能表現數據。
實測數據 ：針對少部分指標，進行了簡單的實測，確保數據的可靠性和可比性。

參與測評的模型主要包括ERNIE-4.5系列（ERNIE-4.5-0.3B-Base, ERNIE-4.5-21B-A3B-Base, ERNIE-4.5-300B-A47B, ERNIE-4.5-VL-28B-A3B, ERNIE-4.5-VL-424B-A47B）以及其他主流模型，如Qwen3系列、Qwen2.5系列、DeepSeek系列、OpenAI-o1和GPT-4.1。

復現的ERNIE-4.5系列模型均來自于GitCode：https://ai.gitcode.com/theme/1939325484087291906

2.1、通用能力

在通用能力方面，ERNIE系列模型自誕生之初就對中文語境有著深刻的理解和優化。ERNIE-4.5系列模型不僅繼承了這一核心優勢，更在中文及多語言通用能力上實現了顯著躍升。這種優勢源于模型在規模龐大的高質量中文語料庫上進行的深度預訓練，以及對中文特有的詞法結構、句法規則和語義內涵進行的精細算法優化。

ERNIE-4.5-300B-A47B在C-Eval、CMMLU和MMCU等中文和多語言基準測試中表現出色，多數情況下得分最高，顯示出其在通用語言理解和生成方面的強大實力。例如，在MMCU上，ERNIE-4.5-300B-A47B達到了95.9分，顯著高于其他模型。

而且，即使是參數規模相對較小的ERNIE-4.5-0.3B-Base模型，在其參數級別上也展現出了可觀的通用能力基礎。

在這里插入圖片描述

2.2、知識能力

在衡量模型知識儲備與問答準確性的關鍵任務上，ERNIE-4.5系列同樣表現優異。ERNIE-4.5-300B-A47B在ChineseSimpleQA和SimpleQA等知識問答任務中展現出領先優勢，尤其是在ChineseSimpleQA上，得分高達77.1，表明其擁有豐富的中文知識儲備和問答能力。這清晰反映了模型經過海量知識學習后所具備的豐富中文知識庫和精準問答能力。

ERNIE-4.5-21B-A3B-Base在SimpleQA任務上的表現也相當亮眼，超越了同等量級的Qwen3-30B-A3B-Base模型。

在這里插入圖片描述

2.3、指令遵循能力

模型對復雜指令的理解與執行能力是評估其實用性的重要維度。在指令遵循方面，ERNIE-4.5-300B-A47B在IFEval和Multi-IF上表現突出，得分分別為88.0和76.6，顯示出其對復雜指令的理解和執行能力較強。雖然在Sysbench基準上GPT-4.1表現最佳，但ERNIE-4.5-300B-A47B依然保持了極具競爭力的表現。

在這里插入圖片描述

2.4、數學能力

數學解題和邏輯推理能力是衡量大模型核心智能水平的關鍵指標。ERNIE-4.5-300B-A47B在MATH-500、GSM8K和CMath等多個數學基準測試中均取得最高分，例如GSM8K達到96.6分，這表明了其在邏輯思維、問題分解和逐步推理方面的顯著提升。

這種能力的增強，可能源于其在訓練過程中引入了更多的邏輯推理任務、數學問題集，以及對思維鏈（Chain-of-Thought）等推理范式的有效學習。Qwen3和DeepSeek系列模型在部分數學任務上也表現良好，但ERNIE-4.5的整體表現更為均衡和領先。

在這里插入圖片描述

2.5、推理能力

在更廣泛的推理能力評估方面，ERNIE-4.5-300B-A47B在BBH（Big-Bench Hard）、ARC-Challenge和HellaSwag等具有挑戰性的常識推理與復雜推理基準上也表現優異。其在BBH上94.3的高分，進一步驗證了其處理復雜、多步驟推理問題的強大能力。

在這里插入圖片描述

2.6、編程能力

隨著人工智能在軟件開發領域的深入應用，模型的代碼生成與理解能力成為衡量其實用價值的重要標尺。ERNIE-4.5在HumanEval+和MBPP+等代碼生成和理解任務中表現出色，與頂尖模型并駕齊驅，其在HumanEval+上與GPT-4.1并列第一，得分92.1，充分證明了其生成高質量、功能正確代碼以及深刻理解編程邏輯的卓越能力。

在這里插入圖片描述

2.7、多模態能力

ERNIE-4.5-VL系列模型在多模態理解領域展現了強大的綜合實力，測評覆蓋了視覺知識問答、文檔圖表解析、多模態推理、基礎視覺感知以及視頻理解等多個關鍵維度。

視覺知識：ERNIE-4.5-VL-424B-A47B在MMBench-cn和MMBench-en等視覺知識基準測試中表現突出，得分分別為90.9和92.0，表明其在圖像理解和視覺問答方面具有優勢。Qwen2.5-VL-72B則在SimpleVQA基準上表現最佳。
文檔與圖表：ERNIE-4.5-VL-424B-A47B在OCRBench、AI2D和DocVQA等文檔與圖表理解任務中均取得最高分，例如AI2D達到96.0分，顯示出其在處理復雜視覺信息（如文檔和圖表）方面的卓越能力。
多模態推理：ERNIE-4.5-VL-424B-A47B在MathVista上表現最佳，得分78.9，表明其在結合視覺和文本信息進行復雜推理方面具有優勢。Qwen2.5-VL-72B在VisualPuzzle和ZeroBench(sub)上表現突出。
視覺感知：ERNIE-4.5-VL-424B-A47B在CV-Bench和CountBench上表現最佳，得分分別為85.5和93.3，顯示出其在視覺感知任務中的高精度。
視頻理解：ERNIE-4.5-VL-424B-A47B在VideoMME w/ subs和LongVideoBench上表現最佳，得分分別為79.7和66.2，表明其在視頻內容理解和分析方面的能力。

在這里插入圖片描述

2.8、總結

綜合評估ERNIE-4.5系列模型在各項核心能力基準測試中的表現，其在通用語言能力、數學計算、邏輯推理、代碼生成以及多模態理解方面均展現出業界領先的性能水平。該系列模型的核心優勢體現在：

中文領域深耕： ERNIE-4.5在中文通用能力和知識問答方面表現卓越，尤其在中文基準測試中持續領先，這使其在中文應用場景中具有天然優勢。
多模態融合： ERNIE-4.5-VL系列在視覺和視頻理解方面取得了顯著突破，展現了其在處理復雜多模態信息方面的強大實力，為未來多模態應用的創新奠定了基礎。
綜合能力均衡：無論是在邏輯嚴謹的數學和推理任務，還是在實用性強的編程任務中，ERNIE-4.5均表現出頂尖水平，顯示出其全面而均衡的綜合能力。

三、產業觀察對比

3.1、技術選型與架構

在這里插入圖片描述
從技術選型來看，各家大模型都在Transformer架構的基礎上進行創新，如文心大模型的知識增強ERNIE架構、Gemini的原生多模態和超長上下文、Llama的MoE架構。多模態和Agent架構是未來的重要發展方向，各模型都在積極布局。上下文長度的提升也極大地擴展了模型的應用邊界。

3.2、生態建設與應用場景

大模型的生態建設是其長期發展的關鍵。閉源模型通過API和云服務構建商業生態，而開源模型則通過社區協作和免費模型權重推動技術普及。

在這里插入圖片描述
在大模型生態建設與應用場景的對比中，各模型在不同維度上各有千秋。得益于與百度生態的深度整合，ERNIE 4.5 系列開源模型憑借百度強大的生態系統，其在中文應用場景中具有獨特優勢，在中文應用適配和生態融合度上表現突出。ChatGPT則在開發者社區活躍度和API開放程度上領先，展現出其強大的開發者生態和開放性。Gemini與Google產品集成良好，適合企業級部署。其他開源模型則在定制化開發方面具有靈活性，適合學術研究。

在這里插入圖片描述

3.3、合規性和安全性

在這里插入圖片描述

通過調研分析，國外大模型（如ChatGPT、Gemini、Claude等）服務商通常遵循其所在國家和地區的數據隱私法規，如歐盟的GDPR、美國的CCPA等。國內大模型服務商則比較嚴格遵守了中國的《數據安全法》、《個人信息保護法》等法律法規。重要的數據存儲和處理均在中國境內進行，有效避免了數據出境的合規風險。這對于涉及敏感數據或個人信息的國內企業而言，是優先選擇的重要因素。

在這里插入圖片描述

本次開源的 ERNIE 4.5 系列模型作為百度旗下的產品，嚴格遵守中國的數據安全和內容合規要求，其數據處理和存儲也均在中國境內完成。百度在內容審核方面擁有豐富的經驗和技術積累，在生成內容時會進行嚴格的過濾和審查，確保符合國家相關規定。這使得 ERNIE 4.5 系列模型在金融、政務、醫療等對數據安全和內容合規性要求極高的行業中具有顯著優勢。對于希望避免數據出境風險、確保內容合規的國內企業，是一個理想的選擇。