1000萬上下文+2880億引數的Llama4，卻讓DeepSeek們鬆了一口氣

作者｜王兆洋郵箱｜[email protected]

Llama4 來了。

4月5日，Meta釋出了外界期待許久的Llama4系列開源模型，目前它包括Llama 4 Scout、Llama 4 Maverick和Llama 4 Behemoth。三種模型對應不同的使用需求，簡單來說：

Llama 4 Scout是可以在單張H100上跑的多模態MoE模型，

Llama 4 Maverick是擊敗了GPT-4o 和 Gemini 2.0，比DeepSeek v3小但編碼和推理能力匹配的“最佳模型”，

還有一個即將釋出的、隱藏在後為所有Llama4系列提供能力的2880億活躍引數“巨獸”模型Llama 4 Behemoth。

根據它官方釋出的介紹，此次Llama4有幾個重要的技術亮點。

MoE架構：此次是Llama首次採用混合專家架構，任務執行時僅啟用部分引數（如Maverick總引數4000億，活躍引數170億），顯著提升訓練和推理效率。

多模態融合：早期融合（Early Fusion）策略統一處理文字、影像、影片，突破傳統多模態模型的分階段處理限制。

超長上下文：Scout支援1000萬Token上下文視窗（約2000萬字文字或20小時影片），透過iRoPE架構實現“短序列訓練，長序列泛化”。

部署上，Scout支援單張H100 GPU執行（Int4量化後），Maverick需H100 DGX叢集，Behemoth則誇張地使用了32000塊GPU訓練。

後訓練策略：採用“輕量級SFT → 線上RL → 輕量級DPO”流程，減少對齊約束，增強模型探索能力。引入“自我批判式資料篩選”，利用早期模型Check point檢查點過濾低質量訓練樣本，提升最終效能。

由於Behemoth這個巨大引數的模型此次並沒有正式釋出，另外兩個模型並沒有太過讓人震驚的突破——尤其在重新整理評測榜單這件事已經沒那麼重要的今天，人們對Llama4的期待在於它的技術思路上是否有新玩意。

從目前官方給的說明來看，它自己總結的幾個重要的創新在於：

原生多模態的預訓練融合方法

Llama 4 模型設計為原生多模態，透過早期融合（early fusion）無縫整合文字和視覺標記到統一的模型主幹中。早期融合是一大進步，使 Llama 能夠聯合預訓練大量未標記的文字、影像和影片資料。Llama 還改進了 Llama 4 的視覺編碼器——基於 MetaCLIP——但與凍結的 Llama 模型聯合訓練，以更好地和LLM結合。

最佳化MoE專家超引數設定的MetaP；

Llama 開發了一種新訓練技術 MetaP，能夠可靠設定關鍵模型超引數，如每層學習率和初始化規模。Llama 發現所選超引數在不同batch size、模型寬度、深度和訓練token數中可以很好的匹配。Llama 4 透過在200種語言上預訓練（包括超過100種每種超過10億token的語言），總體的多語言訓練token比 Llama 3 多10倍。

對注意力機制做改進，從而突破上下文能力的iRoPE架構；

Llama 4 架構的一個關鍵創新是使用了交錯注意力層，且不使用位置嵌入（positional embeddings）。此外，我們還採用了推理時注意力溫度縮放（ inference time temperature scaling of attention）來增強長度和泛化。我們將這種架構稱為 iRoPE 架構，其中“i”代表“交錯”注意力層，突出了支援“無限”上下文長度的長期目標，“RoPE”則指在大多數層中使用的旋轉位置嵌入。

SFT、RL和DPO使用搭配上的新配方

在 Llama 4 中，Llama 透過採用不同方法重構了後訓練流程：輕量級監督微調（SFT） > 線上強化學習（RL） > 輕量級直接偏好最佳化（DPO）。關鍵經驗是，SFT和DPO可能過度約束模型，限制線上RL階段的探索，導致推理、編碼和數學領域的次優準確性。

後訓練一個擁有2萬億引數的模型也是一大挑戰，需要 Llama 徹底改造配方，從資料規模開始。為最大化效能，Llama 不得不修剪95%的SFT資料（相比小型模型的50%），以實現質量和效率的必要關注。

為2萬億引數模型擴充套件RL還需要 Llama 改造底層RL基礎設施，因其規模前所未有。Llama 優化了MoE並行設計以提高速度，加快了迭代。Llama 開發了一個完全非同步的線上RL訓練框架，增強了靈活性。與犧牲計算記憶體以在記憶體中堆疊所有模型的現有分散式訓練框架相比，Llama 的新基礎設施支援將不同模型靈活分配到單獨GPU上，根據計算速度平衡多個模型的資源。這一創新使訓練效率比前幾代提高了約10倍。

這些創新與大家對今天開源模型競賽的預期相比，可能會略微讓人失望。

原生多模態的做法基本依然是行業的常規操作——把其他模態與最強的語言模態在token層面上統一；MetaP背後強調的不同尺寸的高效轉化，讓人想到諸如面壁智慧提出的“densing law”，如何在小一點的引數上做實驗，預測出更大引數的表現；對注意力的改進也在過去幾個月有諸多嘗試，無論是月之暗面的MoBA，DeepSeek的NSA還是MiniMax-01對Lighting Attention的激進的融合，似乎Meta的嘗試並沒有比這些帶來更徹底的效果；而在SFT，RL和DPO的“煉丹”上，也反而讓DeepSeek R1的更純粹的RL方法顯得更簡潔優雅。

與Llama過往作為開源執旗者時相比，透過開源給社群提供對抗閉源模型強大的新方法的意味少了很多，結合其他更徹底的開源模型公佈的各種技術來快速交出一個作品來先跟上領先者的意味更強了。這次的模型與此前Llama2和Llama3釋出時的影響完全不同，它不是碾壓式領先的釋出，也許之後的Behemoth才是主菜，這次只是開胃菜。但目前看來，Behemoth的最大亮點可能還是在它背後的算力資源，Meta表示，Behemoth使用FP8和32K GPU訓練，實現了390 TFLOPs/GPU。

這些都在提示這一次Llama4釋出的倉促。這次Llama在行業對推理模型需求爆炸，對很看重程式設計能力的AI Agent類產品興趣濃厚的時候，沒有先發布推理模型，而是繼續透過做大底座模型來提高推理和程式設計能力。在透過Scout強調部署便利的同時，卻又沒有可以在本地執行的尺寸的模型。

整體看來，Llama4像是Meta先給自己一個“臺階”——在DeepSeek爆火之前，它堅持不用MoE架構，這次算是完成了糾錯。