Llama 4全面評測:官方數據亮眼,社區測試顯不足之處

引言

2025年4月,Meta正式發布了全新的Llama 4系列模型,這標志著Llama生態系統進入了一個全新的時代。Llama 4不僅是Meta首個原生多模態模型,還采用了混合專家(MoE)架構,并提供了前所未有的上下文長度支持。本文將詳細介紹Llama 4的主要特性、技術創新以及社區對這次更新的相關評測結果,幫助您全面了解這一AI領域的重大突破。

Llama 4系列模型概覽

Llama 4系列模型概覽

Meta此次推出了Llama 4系列的三個主要模型:

  1. Llama 4 Scout:擁有17B活躍參數和16個專家,總參數量為109B。它是同類中最佳的多模態模型,可以在單個NVIDIA H100 GPU上運行,并提供業界領先的1000萬token上下文窗口。

  2. Llama 4 Maverick:擁有17B活躍參數和128個專家,總參數量為400B。它在多項廣泛報告的基準測試中擊敗了GPT-4o和Gemini 2.0 Flash,同時在推理和編碼方面與新的DeepSeek v3取得了相當的結果,但活躍參數不到后者的一半。

  3. Llama 4 Behemoth:擁有288B活躍參數和16個專家,總參數量接近2萬億。作為Meta最強大的LLM,它在多項STEM基準測試中優于GPT-4.5、Claude Sonnet 3.7和Gemini 2.0 Pro。目前該模型仍在訓練中,尚未公開發布。

值得注意的是,雖然Llama 4 Maverick的總參數量為400B,但在處理每個token時,實際參與計算的"活躍參數"始終是17B。這大大降低了推理和訓練的延遲。

技術創新與突破

混合專家(MoE)架構:效率與性能的完美平衡

Llama 4 MoE架構示意圖

Llama 4是Meta首次使用混合專家(MoE)架構的模型。在MoE模型中,單個token只激活總參數的一小部分。這種架構在訓練和推理方面更加計算高效,與固定訓練FLOP預算相比,能夠提供更高的質量。

例如,Llama 4 Maverick模型有17B活躍參數和400B總參數。它使用交替的密集層和混合專家(MoE)層來提高推理效率。MoE層使用128個路由專家和一個共享專家。每個token都會被發送到共享專家和128個路由專家中的一個。因此,雖然所有參數都存儲在內存中,但在提供這些模型服務時,只有一部分總參數被激活。

原生多模態能力:視覺與文本的無縫融合

Llama 4模型設計具有原生多模態性,通過早期融合將文本和視覺token無縫集成到統一的模型主干中。早期融合是一個重大進步,因為它使模型能夠用大量未標記的文本、圖像和視頻數據聯合預訓練。

這些模型在各種圖像和視頻幀上進行了訓練,以提供廣泛的視覺理解能力,包括時間活動和相關圖像。這使得模型能夠輕松處理多圖像輸入和文本提示,用于視覺推理和理解任務。模型在預訓練階段支持多達48張圖像,并在后訓練階段測試中顯示出良好的結果,最多支持8張圖像。

超長上下文支持:突破性的1000萬token容量

Llama 4 Scout將支持的上下文長度從Llama 3的128K大幅增加到業界領先的1000萬token。這開啟了許多可能性,包括:

  • 多文檔摘要生成
  • 解析大量用戶活動進行個性化任務
  • 對龐大代碼庫的深度推理
  • 長文本理解與分析

技術實現:Llama 4 Scout在預訓練和后訓練階段都使用了256K上下文長度,這使基礎模型具備了先進的長度泛化能力。Llama 4架構的一個關鍵創新是使用交替注意力層(無位置嵌入)。此外,還采用了推理時間注意力溫度縮放來增強長度泛化。這種架構被稱為iRoPE,其中"i"代表"交替"注意力層,突出了支持"無限"上下文長度的長期目標,而"RoPE"指的是大多數層中使用的旋轉位置嵌入。

訓練方法與優化

預訓練創新:MetaP超參數設置技術

Meta開發了一種新的訓練技術,稱為MetaP,它允許可靠地設置關鍵模型超參數,如每層學習率和初始化比例。這些超參數在不同的批量大小、模型寬度、深度和訓練token上都能很好地遷移。

Llama 4通過在200種語言上進行預訓練來支持開源微調工作,其中超過100種語言的token超過10億個,總體上比Llama 3多10倍的多語言token。

此外,Meta還專注于高效的模型訓練,使用FP8精度,同時不犧牲質量并確保高模型FLOP利用率。在使用FP8和32K GPU預訓練Llama 4 Behemoth模型時,每個GPU達到了390 TFLOP。總體數據混合訓練包含超過30萬億個token,是Llama 3預訓練混合的兩倍多,包括多樣化的文本、圖像和視頻數據集。

后訓練優化:創新的三階段訓練流程

Meta為Llama 4 Maverick模型采用了全新的后訓練流程:

  1. 輕量級監督微調(SFT)
  2. 在線強化學習(RL)
  3. 輕量級直接偏好優化(DPO)

關鍵發現:SFT和DPO可能會過度約束模型,限制在線RL階段的探索,導致次優精度,特別是在推理、編碼和數學領域。

解決方案:Meta通過使用Llama模型作為評判標準,移除了超過50%被標記為"簡單"的數據,并對剩余的更難數據集進行輕量級SFT。在隨后的多模態在線RL階段,通過仔細選擇更難的提示,實現了性能的大幅提升。

模型評測與性能對比

Llama 4系列官方評測結果

從Meta官方給出的評測結果可以看出,Llama 4 Maverick主要是全面對標GPT-4o和Gemini 2.0 Flash,同時作為開源模型,也與DeepSeek v3進行了對比。

Llama 4 Maverick與主流大模型性能對比

而Llama 4 Scout則主要對標輕量級的模型,比如Gemma 3、Gemini 2.0 Flash-Lite等。

Llama 4 Scout與輕量級模型性能對比

尚未發布的最強模型Llama 4 Behemoth,從數據上顯著優于Claude 3.7 Sonnet和Gemini 2.0 Pro。

Llama 4 Behemoth與頂級商業模型性能對比

社區獨立評測結果

官方評測自然只是一家之言,社區評測則更為客觀。以下是來自LMArena的評測結果,可以看到,Llama 4 Maverick僅次于Google剛發布不久的Gemini-2.5-Pro,位居第二。

LMArena社區評測結果

編碼能力與Agent能力評測

對于AI研究者和開發者來說,編碼能力和Agent能力是評判大語言模型實用性的重要指標。

編碼能力評測:從Aider Polyglot leaderboard的結果來看,即使是Llama 4 Maverick,在編碼能力上也排名相當靠后,基本就是DeepSeeK V2.5的水平,這與預期有一定差距。

Llama 4編碼能力評測結果

Agent能力評測:在huggingface agent leaderboard中,Llama 4 Maverick甚至連前20都排不進去。不僅與商業模型相比有差距,就是與開源的Qwen和DeepSeek相比,也略顯不足,甚至不如自家上一代的Llama-3.3,這一點令人意外。

Llama 4 Agent能力評測結果

這兩項特別關鍵的評測中,Llama 4的表現都不盡如人意,期待官方之后能繼續優化或對測試結果做出合理解釋。

總結

總體來說,Llama 4系列模型在技術上實現了多項創新:

  • 首次采用MoE架構,大幅提升計算效率
  • 原生多模態能力,實現文本與視覺的深度融合
  • 突破性的1000萬token超長上下文支持
  • 創新的訓練方法與優化技術

然而,在實際社區評測中,特別是在編碼能力和Agent能力方面,Llama 4系列的表現還有待提高。作為Meta新一代的開源模型,Llama 4理應在各方面取得更好的評測結果,但目前看來,距離預期還有一定差距。

應用前景:作為問答模型,Llama 4表現尚可,但作為智能體的大腦,還需進一步優化。目前的表現似乎更適合考試場景,而非實戰應用,暫時還未能進入我的AI智能體大腦候選列表。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/76264.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/76264.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/76264.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

淘寶API驅動跨境選品:多語言詳情頁自動翻譯與本地化定價

淘寶 API 驅動跨境選品實現多語言詳情頁自動翻譯與本地化定價,為跨境電商業務帶來諸多便利與優勢,以下是詳細介紹: 一、多語言詳情頁自動翻譯 技術原理 借助淘寶的 API 接口,獲取商品詳情頁的各類文本信息,包括標題、描…

MFC工具欄CToolBar從專家到小白

CToolBar m_wndTool; //創建控件 m_wndTool.CreateEx(this, TBSTYLE_FLAT|TBSTYLE_NOPREFIX, WS_CHILD | WS_VISIBLE | CBRS_FLYBY | CBRS_TOP | CBRS_SIZE_DYNAMIC); //加載工具欄資源 m_wndTool.LoadToolBar(IDR_TOOL_LOAD) //在.rc中定義:IDR_TOOL_LOAD BITMAP …

【Java面試系列】Spring Boot微服務架構下的分布式事務處理與性能優化詳解 - 3-5年Java開發必備知識

【Java面試系列】Spring Boot微服務架構下的分布式事務處理與性能優化詳解 - 3-5年Java開發必備知識 引言 在當今的微服務架構中,分布式事務處理和性能優化是面試中經常被問及的高頻話題。隨著系統規模的擴大,如何保證數據一致性和系統性能成為了開發者…

【動態規劃】 深入動態規劃—兩個數組的dp問題

文章目錄 前言例題一、最長公共子序列二、不相交的線三、不同的子序列四、通配符匹配五、交錯字符串六、兩個字符串的最小ASCII刪除和七、最長重復子數組 結語 前言 問題本質 它主要圍繞著給定的兩個數組展開,旨在通過對這兩個數組元素間關系的分析,找出…

【C++面向對象】封裝(上):探尋構造函數的幽微之境

每文一詩 💪🏼 我本將心向明月,奈何明月照溝渠 —— 元/高明《琵琶記》 譯文:我本是以真誠的心來對待你,就像明月一樣純潔無瑕;然而,你卻像溝渠里的污水一樣,對這份心意無動于衷&a…

JavaScript性能優化(下)

1. 使用適當的算法和邏輯 JavaScript性能優化是一個復雜而重要的話題,尤其是在構建大型應用時。通過使用適當的算法和邏輯,可以顯著提高代碼的效率和響應速度。以下是一些關鍵策略和實踐,用于優化JavaScript性能: 1.1. 采用適當…

螞蟻 Flink 實時計算編譯任務 Koupleless 架構改造

張馮君(遠遠) Koupleless PMC 螞蟻集團技術工程師 就職于螞蟻集團中間件團隊,參與維護與建設螞蟻 SOFAArk 和 Koupleless 開源項目、內部 SOFAServerless 產品的研發和實踐。 本文 3488 字,預計閱讀 11 分鐘 業務背景 基于開源 A…

使用pycharm社區版調試DIFY后端python代碼

目錄 背景 前置條件 DIFY使用的框架 API服務調試配置步驟(基于tag為0.15.3的版本) 1.配置.env文件 2.關閉docker里面的docker-api-1服務 3.使用DOCKER啟動本地環境需要用到的中間件,并暴露端口 注意事項一: 注意事項二&#xff1a…

從 macos 切換到 windows 上安裝的工具類軟件

起因 用了很多年的macos, 已經習慣了macos上的操作, 期望能在windows上獲得類似的體驗, 于是花了一些時間來找windows上相對應的軟件. 截圖軟件 snipaste?????? windows和macos都有的軟件, 截圖非常好用 文件同步軟件 oneDrive: 嘗試了不同的同步軟件, 還是微軟在各…

MySQL體系架構(一)

1.1.MySQL的分支與變種 MySQL變種有好幾個,主要有三個久經考驗的主流變種:Percona Server,MariaDB和 Drizzle。它們都有活躍的用戶社區和一些商業支持,均由獨立的服務供應商支持。同時還有幾個優秀的開源關系數據庫,值得我們了解一下。 1.1.1.Drizzle Drizzle是真正的M…

【項目實訓項目博客】prompt初版實踐

通過對camel技術的理解,我們向其中添加了市場營銷角色的prompt 初版設計如下: chatchainconfig.json { "chain": [ { "phase": "DemandAnalysis", "phaseType": "SimplePhase", "max_turn_step…

[Bond的雜貨鋪] CKS 證書也到貨咯

最近比較忙,忘記寫Blog了:) 一年前黑五去官網蹲了一手Cyber Monday,買了英文考試券bundle,當時只考了cka,后來cks差點都忘記了。將近一年后,無意中收到官方的提醒郵件,說考試券本已過期&#x…

【回眸】Linux 內核 (十五) 之 多線程編程 上

前言 進程和線程 區別 線程API 1.創建線程 2.線程退出 3.線程等待 4.線程脫離 5. 線程ID獲取及比較 6.創建及銷毀互斥鎖 7.創建及銷毀條件變量 8. 等待 9.觸發 多線程編程 后記 前言 高產的幾天。 進程和線程 區別 進程——資源分配的最小單位,線…

127.0.0.1本地環回地址(Loopback Address)

127.0.0.1 是計算機網絡中的一個特殊IPv4地址,稱為本地環回地址(Loopback Address),主要用于以下用途: 1. 基本定義 本地主機(Localhost):該地址始終指向當前正在使用的計算機本身&a…

S7-1200 PLC熱電偶和熱電阻模擬量模塊

熱電偶和熱電阻模擬量模塊 S7-1200 PLC有專用用于對溫度進行采集的熱電偶模塊SM1231 TC和SM 1231RTD。熱電偶模塊有4AI和8AI兩種,下面以SM1231 TC 4AI為例看一下接線圖。 該模塊一共有4個通道,每個通道有兩個接線端子,比如0,0-。…

深度了解向量引論

今天去研究了一個基本數學原理 這個其實需要證明 今天推導了一下這個公式,感覺收獲挺大 下面是手工推導過程

Feign修仙指南:聲明式HTTP請求的優雅之道

各位在微服務世界摸爬滾打的道友們!今天要解鎖的是Spring Cloud的絕世神通——Feign!這貨堪稱HTTP界的"言出法隨",只需定義接口,就能自動生成HTTP請求代碼!從此告別手動拼裝URL的苦日子,讓你的代…

UDP學習筆記(四)UDP 為什么大小不能超過 64KB?

🌐 UDP 為什么大小不能超過 64KB?TCP 有這個限制嗎? 在進行網絡編程或者調試網絡協議時,我們常常會看到一個說法: “UDP 最大只能發送 64KB 數據。” 這到底是怎么回事?這 64KB 是怎么來的?TCP…

LabVIEW 中串口設備與采集卡的同步精度

在 LabVIEW 項目開發中,常涉及多種設備協同工作,如通過串口設備采集溫度,利用采集卡(如 NI 6251)采集壓力。此時,設備間的同步精度至關重要,它直接影響系統數據的準確性與可靠性。下面&#xff…

DP_AUX輔助通道介紹

DisplayPort(簡稱DP)是一個由PC及芯片制造商聯盟開發,視頻電子標準協會(VESA)標準化的數字式視頻接口標準。該接口免認證、免授權金,主要用于視頻源與顯示器等設備的連接,并也支持攜帶音頻、USB…