Llama 4 家族:原生多模態 AI 創新的新時代開啟

0 要點總結

  • Meta發布 Llama 4 系列的首批模型,幫用戶打造更個性化多模態體驗
  • Llama 4 Scout 是有 170 億激活參數、16 個專家模塊的模型,同類中全球最強多模態模型,性能超越以往所有 Llama 系列模型,能在一張 NVIDIA H100 GPU 上運行。該模型支持業界領先的 1000 萬上下文窗口,在多個權威測試中表現優于 Gemma 3、Gemini 2.0 Flash-Lite 和 Mistral 3.1
  • Llama 4 Maverick 也擁有 170 億激活參數,但配置多達 128 個專家模塊,是同類中最強的多模態模型,在多個廣泛測試中超越 GPT-4o 和 Gemini 2.0 Flash,推理和編程能力可與 DeepSeek v3 相當,但激活參數數量不到其一半。其聊天版在 LMArena 上取得了 1417 的 ELO 分數,性能與成本比行業領先
  • 這些出色的模型得益于“教師模型” Llama 4 Behemoth 的知識蒸餾。Behemoth 擁有 2880 億激活參數和 16 個專家模塊,是我們最強大的模型,在多項 STEM 基準測試中超越 GPT-4.5、Claude Sonnet 3.7 和 Gemini 2.0 Pro。目前該模型仍在訓練中,我們將持續分享更多細節。
  • 立即前往 llama.com 或 Hugging Face 下載 Llama 4 Scout 與 Maverick。也可在 WhatsApp、Messenger、Instagram 私信體驗基于 Llama 4 構建的 Meta AI。

隨 AI 在日常生活中的廣泛應用,確保領先的模型與系統開放可用,對推動個性化體驗創新至關重要。支持整個 Llama 生態 的最先進模型組合。正式推出的 Llama 4 ScoutLlama 4 Maverick,是首批開放權重、原生多模態、支持超長上下文窗口、采用 MoE架構構建的模型。“巨獸”—— Llama 4 Behemoth,不僅是迄今最強大的模型之一,也是新一代模型的“老師”。

這些 Llama 4 模型的發布標志著 Llama 生態邁入新紀元。Llama 4 系列中的 Scout 和 Maverick 都是高效設計的模型:

  • 前者能以 Int4 量化方式部署在單張 H100 GPU 上
  • 后者則適配于單個 H100 主機

訓練了 Behemoth 教師模型,在 STEM 基準(如 MATH-500 和 GPQA Diamond)中表現優于 GPT-4.5、Claude Sonnet 3.7 和 Gemini 2.0 Pro。

開放才能推動創新,對開發者、Meta 和整個世界都是利好。可通過 llama.com 和 Hugging Face 下載 Scout 與 Maverick。同時,Meta AI 也已在 WhatsApp、Messenger、Instagram 私信啟用 Llama 4 模型。

這只是 Llama 4 系列的開始。最智能的系統應能泛化行動、自然對話并解決未曾遇到的問題。賦予 Llama 在這些領域的“超能力”,將催生更優質的產品和更多開發者創新機會。

無論你是構建應用的開發者,集成 AI 的企業用戶,或是對 AI 潛力充滿好奇的普通用戶,Llama 4 Scout 和 Maverick 都是將下一代智能融入產品的最佳選擇。接下來,介紹它們的四大研發階段以及設計過程中的一些關鍵洞察。

1 預訓練階段

這些模型代表 Llama 系列的巔峰之作,具備強大多模態能力,同時在成本上更具優勢,甚至性能超越了一些參數規模更大的模型。為打造 Llama 下一代模型,在預訓練階段采用了多項新技術。

MoE

Llama 4是首批采用MoE的模型。MoE架構的一個核心優勢:每個 token 只激活模型中一小部分參數,從而大幅提高訓練與推理的效率。在給定的 FLOPs(浮點運算)預算下,MoE 模型的效果優于傳統的密集模型。

img

Llama 4 Maverick 為例:它擁有 170 億激活參數,總參數數為 4000 億。其網絡結構在推理過程中交替使用密集層與 MoE 層。每個 token 會被送入一個共享專家和一個 128 個路由專家之一,這種機制確保模型在保持全參數存儲的同時,僅激活必要部分,從而提升運行效率、降低成本與延遲。Maverick 可在一臺 NVIDIA H100 DGX 主機上運行,也支持分布式部署以實現最大效率。

Llama 4 天生支持多模態輸入,采用 早期融合(early fusion)機制,將文本與視覺 token 一體化輸入模型主干。使得能用大量未標注的文本、圖像和視頻數據對模型進行聯合預訓練。同時,升級視覺編碼器,基于 MetaCLIP 的改進版,在預訓練階段與凍結的 Llama 主干協同優化。

新訓練方法MetaP

精確控制每層學習率和初始化比例。這些超參數在不同 batch size、模型寬度、深度和 token 數下都具有良好的遷移性。Llama 4 預訓練涵蓋 200 多種語言,其中 100 多種語言的數據量超過 10 億 tokens,總體上多語種訓練 token 數量是 Llama 3 的 10 倍。

FP8 精度

FP8 精度 進行訓練,保持模型質量的同時提高訓練效率。如訓練 Behemoth 時,用 32000 張 GPU,并實現 390 TFLOPs/GPU 的高效能。整個訓練數據超過 30 萬億個 token,是 Llama 3 的兩倍,數據類型包含多樣的文本、圖像和視頻內容。

訓練中期,采用“mid-training”階段,通過專門數據集提升模型的核心能力,如支持更長上下文的能力。得益于這些改進,Llama 4 Scout 實現 業界領先的 1000 萬 token 輸入長度

2 后訓練階段

新模型有大小多種選擇,以滿足不同應用場景與開發者需求。Llama 4 Maverick 在圖像和文本理解方面表現卓越,是多語言 AI 應用和創意寫作的理想選擇。

后訓練階段最大的挑戰是保持不同輸入模態、推理能力與對話能力之間的平衡。為此,設計“多模態課程”訓練策略,確保模型不因學習多模態而犧牲單一模態性能。更新了后訓練流程,采取輕量監督微調(SFT)> 在線強化學習(RL)> 輕量偏好優化(DPO)的方式。發現SFT 與 DPO 若使用不當,會限制模型在 RL 階段的探索,特別是在推理、編程和數學領域會導致效果下降。

為解決這問題,剔除超過 50% 的“簡單樣本”,僅對更難數據進行 SFT。之后 RL 階段用更具挑戰性提示,實現性能飛躍。采用 持續在線 RL 策略:訓練模型 → 用模型篩選中等難度以上的提示 → 再訓練,如此循環,有效平衡計算成本與精度。最終,我們通過輕量 DPO 優化邊緣情況,全面提升模型的智能與對話能力。

Llama 4 Maverick 擁有 170 億激活參數、128 個專家模塊與 4000 億總參數,在性能上超越 Llama 3.3 的 70B 模型。它是目前最頂級的多模態模型,在編程、推理、多語言、長文本與圖像等任務中優于 GPT-4o 與 Gemini 2.0,與 DeepSeek v3.1 的表現不相上下。

[外鏈圖片轉存中…(img-Y4bYAPfr-1743952046715)]

Llama 4 Scout 是一款通用模型,具備 170 億激活參數、16 個專家模塊、1090 億總參數,性能在同類模型中首屈一指。它將上下文長度從 Llama 3 的 128K 大幅提升至 1000 萬 tokens,支持多文檔摘要、個性化任務解析、大型代碼庫推理等復雜應用。

Scout 在預訓練和后訓練階段都使用了 256K 上下文長度,從而擁有出色的長文本泛化能力。在文本檢索、代碼負對數似然(NLL)評估等任務中均表現優秀。其一大創新是采用了 不使用位置嵌入的交錯注意力機制(iRoPE),通過 溫度調節推理機制 提升了對超長輸入的處理能力。

img

外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳

我們對兩個模型都進行了廣泛的圖像和視頻幀訓練,以增強它們對視覺內容的理解能力,包括時間相關活動和圖像之間的關聯。這讓模型在處理多圖輸入時能輕松地結合文字提示進行視覺推理與理解。預訓練階段使用最多48張圖像的輸入,并在后期測試中驗證模型在處理最多8張圖像時的良好表現。

Llama 4 Scout 在圖像定位方面表現尤為出色,能夠將用戶的提示準確對應到圖像中的具體視覺元素,實現更精確的視覺問答。這款模型在編程、推理、長文本理解和圖像處理等方面全面超越以往版本的 Llama 模型,性能領先同類模型。

3 推出更大規模的 Llama:2 萬億參數巨獸 Behemoth

Llama 4 Behemoth——擁有高級智能的“教師模型”,在同類模型中表現領先。Behemoth 是一個多模態專家混合(MoE)模型,激活參數達 2880 億,擁有 16 個專家模塊,總參數量接近兩萬億。在數學、多語言和圖像基準測試中表現一流,因此成為訓練更小的 Llama 4 模型的理想“老師”。

從 Behemoth 模型中通過“共蒸餾”(codistillation)技術訓練出了 Llama 4 Maverick,有效提升了最終任務表現。我們還研發了一種全新的損失函數,能在訓練過程中動態調整軟標簽和硬標簽的權重。此外,我們還通過在 Behemoth 上運行前向傳遞,生成用于訓練學生模型的數據,大幅降低了訓練成本。

對這樣一個擁有兩萬億參數的模型,其后期訓練本身就是一項巨大挑戰。我們從數據量級就開始徹底改革訓練方法。為提升性能,我們將監督微調(SFT)數據削減了95%(相比于小模型只需要削減50%),以更專注于數據質量和效率。

還發現:先進行輕量級的 SFT,再進行大規模強化學習(RL),能夠顯著提升模型的推理和編程能力。RL策略包括:

  • 使用 pass@k 方法選取具有挑戰性的提示構建訓練課程;
  • 動態過濾無效提示;
  • 混合多個任務的提示組成訓練批次;
  • 使用多種系統指令樣本,確保模型能廣泛適應不同任務。

為支持 2 萬億參數的 RL 訓練,重構了整個強化學習基礎設施。對 MoE 并行架構進行了優化,提高訓練速度,并開發了完全異步的在線 RL 框架,提升了訓練的靈活性和效率。通過將不同模型分配到不同 GPU 并進行資源平衡,實現訓練效率的近10倍提升。

4 安全機制與防護措施

致力打造有用且安全的模型,同時規避潛在的重大風險。Llama 4 遵循《AI 使用開發指南》中的最佳實踐,從預訓練到系統級都融入了防護機制,以保障開發者免受惡意行為干擾,從而開發出更安全、可靠的應用。

4.1 預訓練與后訓練防護

  • 預訓練:使用數據過濾等方法保護模型。
  • 后訓練:通過一系列技術確保模型遵循平臺政策,保持對用戶和開發者的友好性和安全性。

4.2 系統級方法

開源了多種安全工具,方便集成進 Llama 模型或第三方系統:

  • Llama Guard:與 MLCommons 聯合開發的風險分類法構建的輸入輸出安全模型。
  • Prompt Guard:一個可識別惡意提示(如 Jailbreak 和提示注入)的分類模型。
  • CyberSecEval:幫助開發者了解和降低生成式 AI 網絡安全風險的評估工具。

這些工具支持高度定制,開發者可根據應用需求進行優化配置。

4.3 安全評估與紅隊測試

我們在各種使用場景下進行系統化測試,并將測試結果反饋到模型后訓練中。我們使用動態對抗性探測技術(包括自動和人工測試)來識別模型的潛在風險點。

一種新測試方式——生成式攻擊智能代理測試(GOAT),可模擬中等技能水平的攻擊者進行多輪交互,擴大測試覆蓋范圍。GOAT 的自動化測試能替代人工團隊處理已知風險區域,讓專家更專注于新型對抗場景,提高測試效率。

4.4 解決語言模型中的偏見問題

大型語言模型容易出現偏見,尤其在社會和政治話題上偏向自由派。這是因為網絡訓練數據本身就存在傾向性。

目標是消除偏見,讓 Llama 能夠公正地理解并表達有爭議話題的不同觀點,而非偏袒某一方。

Llama 4 在這方面取得了重大進展:

  • 拒答比例從 Llama 3 的 7% 降低至 Llama 4 的 2% 以下;
  • 對于具有爭議性的問題,拒答不平衡的比例降至 1% 以下;
  • 表現出強烈政治傾向的響應率僅為 Llama 3 的一半,與 Grok 相當。

繼續努力,進一步降低偏見水平。

5 探索 Llama 生態系統

除了模型智能,用戶還希望模型反應個性化、速度快。Llama 4 是迄今為止最先進的模型,已為此進行優化。模型只是打造完整體驗的一部分。

本項目感謝以下 AI 生態伙伴的大力支持(按字母順序排列):
Accenture、Amazon Web Services、AMD、Arm、CentML、Cerebras、Cloudflare、Databricks、Deepinfra、DeepLearning.AI、Dell、Deloitte、Fireworks AI、Google Cloud、Groq、Hugging Face、IBM Watsonx、Infosys、Intel、Kaggle、Mediatek、Microsoft Azure、Nebius、NVIDIA、ollama、Oracle Cloud、PwC、Qualcomm、Red Hat、SambaNova、Sarvam AI、Scale AI、Scaleway、Snowflake、TensorWave、Together AI、vLLM、Wipro。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/76927.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/76927.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/76927.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【硬件開發技巧】如何通過元器件絲印反查型號

目錄 一、在線數據庫查詢 二、官方資料匹配 三、專業軟件輔助 四、實物比對與場景推斷 五、社區與人工支持 注意事項 一、在線數據庫查詢 專業元器件平臺 Digi-Key、Mouser、ICMaster等平臺支持直接輸入絲印代碼檢索,可獲取芯片型號、技術文檔及替代型號。例如…

【算法/c++】利用中序遍歷和后序遍歷建二叉樹

目錄 題目:樹的遍歷前言題目來源樹的數組存儲基本思想存儲規則示例 建樹算法關鍵思路代碼總代碼 鏈表法 題目:樹的遍歷 前言 如果不是完全二叉樹,使用數組模擬樹,會很浪費空間。 題目來源 本題來自 PTA 天梯賽。 題目鏈接: 樹…

李臻20242817_安全文件傳輸系統項目報告_第6周

安全文件傳輸系統項目報告(第 1 周) 1. 代碼鏈接 Gitee 倉庫地址:https://gitee.com/li-zhen1215/homework/tree/master/Secure-file 代碼結構說明: project-root/├── src/ # 源代碼目錄│ ├── main.c # 主程序入口│ ├…

嵌入式rodata段

在嵌入式軟件開發中,將數據放入只讀數據段(.rodata)具有以下好處及典型應用示例: 好處 數據保護 .rodata段的內容在程序運行時不可修改,防止意外或惡意篡改,提升系統穩定性。 節省RAM資源 只讀數據可直接…

InfoSec Prep: OSCP靶場滲透

InfoSec Prep: OSCP InfoSec Prep: OSCP ~ VulnHubInfoSec Prep: OSCP, made by FalconSpy. Download & walkthrough links are available.https://www.vulnhub.com/entry/infosec-prep-oscp,508/ 1,將兩臺虛擬機網絡連接都改為NAT模式 2,攻擊機上做…

【JavaWeb-Spring boot】學習筆記

目錄 <<回到導覽Spring boot1. http協議1.1.請求協議1.2.響應協議 2.Tomcat2.1.請求2.1.1.apifox2.1.2.簡單參數2.1.3.實體參數2.1.4.數組集合參數2.1.5.日期參數2.1.6.(重點)JSON參數2.1.7.路徑參數 2.2.響應2.3.綜合練習 3.三層架構3.1.三層拆分3.2.分層解耦3.3.補充 &…

C++的多態-上

目錄 多態的概念 多態的定義及實現 1.虛函數 2. 多態的實現 2.1.多態構成條件 2.2.虛函數重寫的兩個例外 (1)協變(基類與派生類虛函數返回值類型不同) (2)析構函數的重寫(基類與派生類析構函數的名字不同) 2.3.多態的實現 2.4.多態在析構函數中的應用 2.5.多態構成條…

網絡安全的重要性與防護措施

隨著信息技術的飛速發展&#xff0c;互聯網已經成為我們日常生活、工作和學習的必需品。無論是通過社交媒體與朋友互動&#xff0c;還是在網上進行銀行交易&#xff0c;網絡已經滲透到我們生活的方方面面。然而&#xff0c;隨之而來的是各種網絡安全問題&#xff0c;包括數據泄…

CMake學習--Window下VSCode 中 CMake C++ 代碼調試操作方法

目錄 一、背景知識二、使用方法&#xff08;一&#xff09;安裝擴展&#xff08;二&#xff09;創建 CMake 項目&#xff08;三&#xff09;編寫代碼&#xff08;四&#xff09;配置 CMakeLists.txt&#xff08;五&#xff09;生成構建文件&#xff08;六&#xff09;開始調試 …

訪問數組元素(四十四)

1. 數組下標與類型 數組的索引從 0 開始。例如&#xff0c;一個包含 10 個元素的數組&#xff0c;其合法下標范圍為 0 到 9&#xff0c;而不是 1 到 10。為了表示下標&#xff0c;通常使用 size_t 類型&#xff0c;它是一種與機器相關的無符號整型&#xff0c;足夠大以存放內存…

計算機網絡 3-1 數據鏈路層(功能+組幀+差錯控制)

【考綱內容】 &#xff08;一&#xff09;數據鏈路層的功能 &#xff08;二&#xff09;組幀 &#xff08;三&#xff09;差錯控制 檢錯編碼&#xff1b;糾錯編碼 &#xff08;四&#xff09;流量控制與可靠傳輸機制 流量控制、可靠傳輸與滑動窗口機制&#xff1b;停止-等…

Django中使用不同種類緩存的完整案例

Django中使用不同種類緩存的完整案例 推薦超級課程: 本地離線DeepSeek AI方案部署實戰教程【完全版】Docker快速入門到精通Kubernetes入門到大師通關課AWS云服務快速入門實戰目錄 Django中使用不同種類緩存的完整案例步驟1:設置Django項目步驟2:設置URL路由步驟3:視圖級別…

Spring Boot 集成Redis 的Lua腳本詳解

1. 對比Lua腳本方案與Redis自身事務 對比表格 對比維度Redis事務&#xff08;MULTI/EXEC&#xff09;Lua腳本方案原子性事務命令序列化執行&#xff0c;但中間可被其他命令打斷&#xff0c;不保證原子性Lua腳本在Redis單線程中原子執行&#xff0c;不可中斷計算能力僅支持Red…

【大模型】DeepSeek + 藍耕MaaS平臺 + 海螺AI生成高質量視頻操作詳解

目錄 一、前言 二、藍耘智能云MaaS平臺介紹 2.1 藍耘智算平臺是什么 2.2 平臺優勢 2.3 平臺核心能力 三、海螺AI視頻介紹 3.1 海螺AI視頻是什么 3.2 海螺AI視頻主要功能 3.3 海螺AI視頻應用場景 3.4 海螺AI視頻核心優勢 3.5 項目git地址 四、藍耘MaaS平臺DeepSeek海…

12-產品經理-維護模塊

需求模塊是幫助產品經理進行需求的分類和維護。 1. 維護模塊 在具體產品的“研發需求”頁面左側&#xff0c;點擊“維護模塊”。也可以在具體產品的“設置”-“模塊”下進行維護。 點擊保存后&#xff0c;返回模塊頁面。還可以點擊“子模塊”對已有模塊進行子模塊的維護。 點擊…

考研單詞筆記 2025.04.06

area n領域&#xff0c;范圍&#xff0c;方面&#xff0c;地區&#xff0c;地方&#xff0c;場地&#xff0c;面積 aspect n方面&#xff0c;層面&#xff0c;外表&#xff0c;外觀 boundary n限度&#xff0c;界限&#xff0c;分界線&#xff0c;邊界 cap n最高限額&#x…

護網藍初面試題

《網安面試指南》https://mp.weixin.qq.com/s/RIVYDmxI9g_TgGrpbdDKtA?token1860256701&langzh_CN 5000篇網安資料庫https://mp.weixin.qq.com/s?__bizMzkwNjY1Mzc0Nw&mid2247486065&idx2&snb30ade8200e842743339d428f414475e&chksmc0e4732df793fa3bf39…

玄機-apache日志分析

靶場任務 1、提交當天訪問次數最多的IP&#xff0c;即黑客IP&#xff1a; 查看apache日志 apache訪問日志的位置是&#xff1a;/var/log/apache2/access.log.1 匹配正則算法 首先先cat看看 發現地址都在第一行&#xff0c;直接匹配計算輸出 cat access.log.1 |grep -Eo &…

C++ I/O 流通俗指南

1. std::ostream 是什么&#xff1f; 定義&#xff1a;std::ostream 是 C 標準庫中的輸出流類&#xff0c;負責將數據輸出到各種目標&#xff08;如屏幕、文件、網絡等&#xff09;。你可以把 std::ostream 想象成一根“數據水管”&#xff1a; 數據從 C 代碼流進 std::ostrea…

Systemd 使用教程(二):Unit 的概念

目錄 【二】 Systemd 單元&#xff08;Unit&#xff09;的概念 本教程將由淺入深的介紹 linux 中 Systemd 的知識和相關使用&#xff08;同時也方便自己后續查閱&#xff09; 【二】 Systemd 單元&#xff08;Unit&#xff09;的概念 雖然我想介紹的比較偏實際操作&#xff0…