0 要點總結
- Meta發布 Llama 4 系列的首批模型,幫用戶打造更個性化多模態體驗
- Llama 4 Scout 是有 170 億激活參數、16 個專家模塊的模型,同類中全球最強多模態模型,性能超越以往所有 Llama 系列模型,能在一張 NVIDIA H100 GPU 上運行。該模型支持業界領先的 1000 萬上下文窗口,在多個權威測試中表現優于 Gemma 3、Gemini 2.0 Flash-Lite 和 Mistral 3.1
- Llama 4 Maverick 也擁有 170 億激活參數,但配置多達 128 個專家模塊,是同類中最強的多模態模型,在多個廣泛測試中超越 GPT-4o 和 Gemini 2.0 Flash,推理和編程能力可與 DeepSeek v3 相當,但激活參數數量不到其一半。其聊天版在 LMArena 上取得了 1417 的 ELO 分數,性能與成本比行業領先
- 這些出色的模型得益于“教師模型” Llama 4 Behemoth 的知識蒸餾。Behemoth 擁有 2880 億激活參數和 16 個專家模塊,是我們最強大的模型,在多項 STEM 基準測試中超越 GPT-4.5、Claude Sonnet 3.7 和 Gemini 2.0 Pro。目前該模型仍在訓練中,我們將持續分享更多細節。
- 立即前往 llama.com 或 Hugging Face 下載 Llama 4 Scout 與 Maverick。也可在 WhatsApp、Messenger、Instagram 私信體驗基于 Llama 4 構建的 Meta AI。
隨 AI 在日常生活中的廣泛應用,確保領先的模型與系統開放可用,對推動個性化體驗創新至關重要。支持整個 Llama 生態 的最先進模型組合。正式推出的 Llama 4 Scout 和 Llama 4 Maverick,是首批開放權重、原生多模態、支持超長上下文窗口、采用 MoE架構構建的模型。“巨獸”—— Llama 4 Behemoth,不僅是迄今最強大的模型之一,也是新一代模型的“老師”。
這些 Llama 4 模型的發布標志著 Llama 生態邁入新紀元。Llama 4 系列中的 Scout 和 Maverick 都是高效設計的模型:
- 前者能以 Int4 量化方式部署在單張 H100 GPU 上
- 后者則適配于單個 H100 主機
訓練了 Behemoth 教師模型,在 STEM 基準(如 MATH-500 和 GPQA Diamond)中表現優于 GPT-4.5、Claude Sonnet 3.7 和 Gemini 2.0 Pro。
開放才能推動創新,對開發者、Meta 和整個世界都是利好。可通過 llama.com 和 Hugging Face 下載 Scout 與 Maverick。同時,Meta AI 也已在 WhatsApp、Messenger、Instagram 私信啟用 Llama 4 模型。
這只是 Llama 4 系列的開始。最智能的系統應能泛化行動、自然對話并解決未曾遇到的問題。賦予 Llama 在這些領域的“超能力”,將催生更優質的產品和更多開發者創新機會。
無論你是構建應用的開發者,集成 AI 的企業用戶,或是對 AI 潛力充滿好奇的普通用戶,Llama 4 Scout 和 Maverick 都是將下一代智能融入產品的最佳選擇。接下來,介紹它們的四大研發階段以及設計過程中的一些關鍵洞察。
1 預訓練階段
這些模型代表 Llama 系列的巔峰之作,具備強大多模態能力,同時在成本上更具優勢,甚至性能超越了一些參數規模更大的模型。為打造 Llama 下一代模型,在預訓練階段采用了多項新技術。
MoE
Llama 4是首批采用MoE的模型。MoE架構的一個核心優勢:每個 token 只激活模型中一小部分參數,從而大幅提高訓練與推理的效率。在給定的 FLOPs(浮點運算)預算下,MoE 模型的效果優于傳統的密集模型。
以 Llama 4 Maverick 為例:它擁有 170 億激活參數,總參數數為 4000 億。其網絡結構在推理過程中交替使用密集層與 MoE 層。每個 token 會被送入一個共享專家和一個 128 個路由專家之一,這種機制確保模型在保持全參數存儲的同時,僅激活必要部分,從而提升運行效率、降低成本與延遲。Maverick 可在一臺 NVIDIA H100 DGX 主機上運行,也支持分布式部署以實現最大效率。
Llama 4 天生支持多模態輸入,采用 早期融合(early fusion)機制,將文本與視覺 token 一體化輸入模型主干。使得能用大量未標注的文本、圖像和視頻數據對模型進行聯合預訓練。同時,升級視覺編碼器,基于 MetaCLIP 的改進版,在預訓練階段與凍結的 Llama 主干協同優化。
新訓練方法MetaP
精確控制每層學習率和初始化比例。這些超參數在不同 batch size、模型寬度、深度和 token 數下都具有良好的遷移性。Llama 4 預訓練涵蓋 200 多種語言,其中 100 多種語言的數據量超過 10 億 tokens,總體上多語種訓練 token 數量是 Llama 3 的 10 倍。
FP8 精度
用 FP8 精度 進行訓練,保持模型質量的同時提高訓練效率。如訓練 Behemoth 時,用 32000 張 GPU,并實現 390 TFLOPs/GPU 的高效能。整個訓練數據超過 30 萬億個 token,是 Llama 3 的兩倍,數據類型包含多樣的文本、圖像和視頻內容。
訓練中期,采用“mid-training”階段,通過專門數據集提升模型的核心能力,如支持更長上下文的能力。得益于這些改進,Llama 4 Scout 實現 業界領先的 1000 萬 token 輸入長度。
2 后訓練階段
新模型有大小多種選擇,以滿足不同應用場景與開發者需求。Llama 4 Maverick 在圖像和文本理解方面表現卓越,是多語言 AI 應用和創意寫作的理想選擇。
后訓練階段最大的挑戰是保持不同輸入模態、推理能力與對話能力之間的平衡。為此,設計“多模態課程”訓練策略,確保模型不因學習多模態而犧牲單一模態性能。更新了后訓練流程,采取輕量監督微調(SFT)> 在線強化學習(RL)> 輕量偏好優化(DPO)的方式。發現SFT 與 DPO 若使用不當,會限制模型在 RL 階段的探索,特別是在推理、編程和數學領域會導致效果下降。
為解決這問題,剔除超過 50% 的“簡單樣本”,僅對更難數據進行 SFT。之后 RL 階段用更具挑戰性提示,實現性能飛躍。采用 持續在線 RL 策略:訓練模型 → 用模型篩選中等難度以上的提示 → 再訓練,如此循環,有效平衡計算成本與精度。最終,我們通過輕量 DPO 優化邊緣情況,全面提升模型的智能與對話能力。
Llama 4 Maverick 擁有 170 億激活參數、128 個專家模塊與 4000 億總參數,在性能上超越 Llama 3.3 的 70B 模型。它是目前最頂級的多模態模型,在編程、推理、多語言、長文本與圖像等任務中優于 GPT-4o 與 Gemini 2.0,與 DeepSeek v3.1 的表現不相上下。
[外鏈圖片轉存中…(img-Y4bYAPfr-1743952046715)]
Llama 4 Scout 是一款通用模型,具備 170 億激活參數、16 個專家模塊、1090 億總參數,性能在同類模型中首屈一指。它將上下文長度從 Llama 3 的 128K 大幅提升至 1000 萬 tokens,支持多文檔摘要、個性化任務解析、大型代碼庫推理等復雜應用。
Scout 在預訓練和后訓練階段都使用了 256K 上下文長度,從而擁有出色的長文本泛化能力。在文本檢索、代碼負對數似然(NLL)評估等任務中均表現優秀。其一大創新是采用了 不使用位置嵌入的交錯注意力機制(iRoPE),通過 溫度調節推理機制 提升了對超長輸入的處理能力。
我們對兩個模型都進行了廣泛的圖像和視頻幀訓練,以增強它們對視覺內容的理解能力,包括時間相關活動和圖像之間的關聯。這讓模型在處理多圖輸入時能輕松地結合文字提示進行視覺推理與理解。預訓練階段使用最多48張圖像的輸入,并在后期測試中驗證模型在處理最多8張圖像時的良好表現。
Llama 4 Scout 在圖像定位方面表現尤為出色,能夠將用戶的提示準確對應到圖像中的具體視覺元素,實現更精確的視覺問答。這款模型在編程、推理、長文本理解和圖像處理等方面全面超越以往版本的 Llama 模型,性能領先同類模型。
3 推出更大規模的 Llama:2 萬億參數巨獸 Behemoth
Llama 4 Behemoth——擁有高級智能的“教師模型”,在同類模型中表現領先。Behemoth 是一個多模態專家混合(MoE)模型,激活參數達 2880 億,擁有 16 個專家模塊,總參數量接近兩萬億。在數學、多語言和圖像基準測試中表現一流,因此成為訓練更小的 Llama 4 模型的理想“老師”。
從 Behemoth 模型中通過“共蒸餾”(codistillation)技術訓練出了 Llama 4 Maverick,有效提升了最終任務表現。我們還研發了一種全新的損失函數,能在訓練過程中動態調整軟標簽和硬標簽的權重。此外,我們還通過在 Behemoth 上運行前向傳遞,生成用于訓練學生模型的數據,大幅降低了訓練成本。
對這樣一個擁有兩萬億參數的模型,其后期訓練本身就是一項巨大挑戰。我們從數據量級就開始徹底改革訓練方法。為提升性能,我們將監督微調(SFT)數據削減了95%(相比于小模型只需要削減50%),以更專注于數據質量和效率。
還發現:先進行輕量級的 SFT,再進行大規模強化學習(RL),能夠顯著提升模型的推理和編程能力。RL策略包括:
- 使用 pass@k 方法選取具有挑戰性的提示構建訓練課程;
- 動態過濾無效提示;
- 混合多個任務的提示組成訓練批次;
- 使用多種系統指令樣本,確保模型能廣泛適應不同任務。
為支持 2 萬億參數的 RL 訓練,重構了整個強化學習基礎設施。對 MoE 并行架構進行了優化,提高訓練速度,并開發了完全異步的在線 RL 框架,提升了訓練的靈活性和效率。通過將不同模型分配到不同 GPU 并進行資源平衡,實現訓練效率的近10倍提升。
4 安全機制與防護措施
致力打造有用且安全的模型,同時規避潛在的重大風險。Llama 4 遵循《AI 使用開發指南》中的最佳實踐,從預訓練到系統級都融入了防護機制,以保障開發者免受惡意行為干擾,從而開發出更安全、可靠的應用。
4.1 預訓練與后訓練防護
- 預訓練:使用數據過濾等方法保護模型。
- 后訓練:通過一系列技術確保模型遵循平臺政策,保持對用戶和開發者的友好性和安全性。
4.2 系統級方法
開源了多種安全工具,方便集成進 Llama 模型或第三方系統:
- Llama Guard:與 MLCommons 聯合開發的風險分類法構建的輸入輸出安全模型。
- Prompt Guard:一個可識別惡意提示(如 Jailbreak 和提示注入)的分類模型。
- CyberSecEval:幫助開發者了解和降低生成式 AI 網絡安全風險的評估工具。
這些工具支持高度定制,開發者可根據應用需求進行優化配置。
4.3 安全評估與紅隊測試
我們在各種使用場景下進行系統化測試,并將測試結果反饋到模型后訓練中。我們使用動態對抗性探測技術(包括自動和人工測試)來識別模型的潛在風險點。
一種新測試方式——生成式攻擊智能代理測試(GOAT),可模擬中等技能水平的攻擊者進行多輪交互,擴大測試覆蓋范圍。GOAT 的自動化測試能替代人工團隊處理已知風險區域,讓專家更專注于新型對抗場景,提高測試效率。
4.4 解決語言模型中的偏見問題
大型語言模型容易出現偏見,尤其在社會和政治話題上偏向自由派。這是因為網絡訓練數據本身就存在傾向性。
目標是消除偏見,讓 Llama 能夠公正地理解并表達有爭議話題的不同觀點,而非偏袒某一方。
Llama 4 在這方面取得了重大進展:
- 拒答比例從 Llama 3 的 7% 降低至 Llama 4 的 2% 以下;
- 對于具有爭議性的問題,拒答不平衡的比例降至 1% 以下;
- 表現出強烈政治傾向的響應率僅為 Llama 3 的一半,與 Grok 相當。
繼續努力,進一步降低偏見水平。
5 探索 Llama 生態系統
除了模型智能,用戶還希望模型反應個性化、速度快。Llama 4 是迄今為止最先進的模型,已為此進行優化。模型只是打造完整體驗的一部分。
本項目感謝以下 AI 生態伙伴的大力支持(按字母順序排列):
Accenture、Amazon Web Services、AMD、Arm、CentML、Cerebras、Cloudflare、Databricks、Deepinfra、DeepLearning.AI、Dell、Deloitte、Fireworks AI、Google Cloud、Groq、Hugging Face、IBM Watsonx、Infosys、Intel、Kaggle、Mediatek、Microsoft Azure、Nebius、NVIDIA、ollama、Oracle Cloud、PwC、Qualcomm、Red Hat、SambaNova、Sarvam AI、Scale AI、Scaleway、Snowflake、TensorWave、Together AI、vLLM、Wipro。