深入分析Llama4最新架構

MLNLP社群是國內外知名的機器學習與自然語言處理社群,受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。
社群的願景是促進國內外自然語言處理,機器學習學術界、產業界和廣大愛好者之間的交流和進步,特別是初學者同學們的進步。
來源 | 知乎
作者 | 陳巍

Llama 4是Meta AI推出的新一代開源大模型,是Llama系列的第四代。
下面將結合現有Llama系列(主要是Llama 3和Llama 3.1)的架構演進、行業趨勢以及DeepSeek的架構,對Llama 4的架構進行深入分析。(對於deepseek的深入分析可以看我們的其他文章)

Llama 4的MoE架構(來源:Meta)

Llama 4整體情況介紹

Llama系列自Meta AI推出以來,以其高效性、開源性和不錯的表現在學術界和工業界廣受關注。從Llama 1到Llama 3,我們見證了模型在規模、訓練資料質量和應用場景上的持續最佳化。而Llama 4的到來,標誌著這一系列在多模態能力和計算效率上的又一次飛躍。當然Llama再怎麼蹦躂,目前在中文領域還難以超過deepseek。
根據目前網際網路上的資訊,Llama 4在2025年4月正式釋出,並推出了三個不同規模的模型版本,前兩個都比deepseek V3/R1小一些:
Llama 4 Scout: 啟用引數170億,總引數109B,16個專家,支援高達1000萬(10M)token的超長上下文視窗。可在INT4模式下在單個H100 GPU上部署。
Llama 4 Maverick: 啟用引數170億(17B),總引數400B,128個專家,效能進一步提升。專家數少於DeepSeek V3的256,但在某些基準測試上與DeepSeek V3相當。上下文長度為 256K。
Llama 4 Behemoth: 仍在訓練中,啟用引數288B,16個專家,總引數2萬億,目標是超越當前的閉源頂尖模型如Gemini 2.5 Pro和GPT-4.5。

Llama 4 Scout與Maverick概況(來源:huggingface)
Llama 4的主要亮點包括:
多模態能力
不僅限於文字輸入,還支援影像等多模態(注意,這裡是多模態還不是混合模態)資料處理,這使其在實際應用中(如企業知識管理和多語言寫作)更具潛力。

AnyMAL架構(來源:Meta)
完全遷移至MoE架構
混合專家模型(Mixture of Experts, MoE)成為Llama 4的核心設計,顯著提高了計算效率和效能。這使得Llama 4也成為第一個開源的主流的多模態MoE大模型。
超長上下文視窗
Scout版本的1000萬token上下文長度領先於行業主流,預計將為長文件處理、複雜任務提供了強大支援,併為後繼更強的推理(Reasoning)能力預留long context空間。有意思的是Maverick反而縮短到256K(deepseek V3的2倍)。
效能超越開源競品
根據X(推)上的討論,Llama 4在部分基準測試中已超過DeepSeek V3,成為開源模型的新一代國外霸主。
然而,值得注意的是,Llama 4在多語言訓練中似乎對中文支援不足(估計是缺乏中文訓練資料),這可能限制其在中文場景下的表現。
由於Llama 4並非推理(Reasoning)模型,所以這裡我們主要以DeepSeek V3來與Llama 4對比。DeepSeek V3以數學、程式碼和中文能力見長,訓練成本低至600萬美元,而Llama 4則更注重多模態和超長上下文。由於單次啟用的專家引數量更少,這也意味著Llama 4的單次計算成本更低。根據X上的反饋,Llama 4 Maverick在前端介面生成等任務中效果不如DeepSeek V3(2024年3月版),但優於DeepSeek V3的上一代。這表明Llama 4在多功能與多模態上佔優,但在特定領域(如文字生成和推理)可能尚未超越DeepSeek V3。

Llama 4架構深入分析與資訊補全

以下分析基於Llama系列的演進邏輯、MoE架構的典型特徵以及行業前沿趨勢,實際情況應以官方釋出為準。
2.1 多模態MoE架構的核心設計

典型的多模態大模型基本架構(來源:騰訊AI Lab)
Llama 4全面轉向MoE架構,這與Llama 3堅持密集模型(Dense Model)形成鮮明對比。MoE的核心思想是透過稀疏啟用機制,在大規模引數中僅啟用部分“專家”來處理特定任務,從而在保持高效能的同時降低計算成本。
專家數量與引數分佈: Meta在專家數量和單專家規模之間進行了權衡,小型模型傾向於更小的專家,而大模型使用了更大的專家規模。目前看來使用了共享專家模式,大機率與DeepSeekMoE類似。
路由機制: MoE的關鍵在於如何將輸入分配給合適的專家。Llama 4沿用了類似DeepSeek或Mixtral的動態路由策略,透過一個門控網路(Gating Network)根據輸入特徵選擇啟用哪些專家。這種稀疏性使得模型在推理時僅需計算一小部分引數,顯著降低了能耗和延遲。
多模態支援: MoE架構天然適合多模態任務。不排除Llama 4可能為不同模態(文字、影像等)設計了與MetaClip協作專用專家,例如文字專家負責語言生成,視覺專家處理影像特徵提取。這種分工協作的方式既提高了效率,也增強了模型對複雜輸入的適應性。

DeepSeekMoE與傳統的多路由和細粒度專家MoE對比(來源:DeepSeek)
2.2 MetaCLIP的多模態對映
MetaCLIP(Metadata-Curated Language-Image Pre-training)是由Meta AI開發的一種先進的語言-影像預訓練模型,旨在提升CLIP(Contrastive Language-Image Pre-training)的效能,主要透過最佳化資料篩選和訓練過程實現。MetaCLIP的主要最佳化在於資料策展(data curation,大白話就是優化了訓練資料集)。與OpenAI的CLIP相比,MetaCLIP並不依賴複雜的模型架構調整,而是透過改進訓練資料的質量和分佈來提升效能。
MetaCLIP 採用原始資料池和元資料(源自 CLIP 的概念),對資料進行篩選和平衡,確保訓練資料集在語義分佈上更加均勻和高質量。MetaCLIP 應用於具有 400M 影像-文字資料對的 CommonCrawl 在多個標準基準測試中優於 CLIP 的資料 。在零樣本 ImageNet 分類中,MetaCLIP 的準確率達到 70.8%,超過了 ViT-B 模型上的 CLIP 的 68.3%。

MetaClip與CLIP對比(來源:Meta)
2.3 Transformer基礎上的改進
Llama系列一直基於Transformer解碼器架構(Decoder-only),Llama 4預計延續這一傳統,但在以下方面進行了最佳化:

Flamingo架構使用交錯的視覺/文字資料作為輸入
交錯注意力層(Interleaved Attention Layer):Llama 4架構中的一項關鍵創新是使用交錯注意力層(與Flamingo架構類似) ,而無需位置嵌入。為了提高計算效率和匹配低紋理場景的穩定性,透過交錯 self-attention 和 crossattention 來構建匹配感知編碼器。該方法可以同時學習影像本身的區域性特徵及其配對影像的相似性,減輕瞭解碼器負擔,使整個模型更高效。
位置編碼: 為支援1000萬token的超長上下文(主要是Scout),Llama 4 iRoPE擴充套件技術。

傳統的感知編碼器與交錯注意力層(c)對比(來源:Karlsruhe Institute of Technology)
自注意和交叉注意力模組的組合在交錯策略的進行組合計算。下圖中的每個塊包含 N 個注意力模組,其中每個注意力模組根據輸入影像對錶示為自注意力或替代交叉注意力。對於自注意力,Q 和 (K, V ) 來自相同的輸入,因此自注意力負責影像本身的特徵提取。對於交叉注意力,(K’, V’) 來自影像對的另一個輸入。因此,交叉注意力學習影像對的相似性,從而產生一個基於匹配感知的 transformer 編碼器。在注意力塊中,會提取自注意特徵,而特徵對的相似度則由交叉注意力來確定。這一策略更符合人類的直覺,可以同時學習影像對的更多相應特徵,同時關注相似度。

交錯注意力層結構(來源:Karlsruhe Institute of Technology)
2.4 超長上下文的實現
1000萬token的上下文視窗是Llama 4 Scout的一大亮點。這背後可能涉及:
位置編碼: 為支援1000萬token的超長上下文(主要是Scout),Llama 4採用了推理時間溫度縮放(Inference Time Temperature Scaling),也稱為iRoPE擴充套件技術,以支援超長序列。
分層記憶結構: Llama 4可能引入了分層記憶機制,將上下文分為短期和長期記憶,動態管理token的儲存和訪問。
資料壓縮: 透過更高效的分詞器(Llama 3已使用128K詞彙表),Llama 4可能進一步壓縮輸入表示,減少記憶體佔用。
推斷(Inference)時間擴充套件是指在機器學習模型推理期間分配越來越多的計算資源,以提高在複雜任務上的效能。但在實際應用中,儘管推斷時間擴充套件可以提高效能,但其有效性因領域和任務而異。隨著任務複雜性的增加,這一方法的效率會遞減。

LongRoPE示意圖
我們也注意到,Llama 4的1000萬token明顯超過DeepSeek的128K,這是否預示著Llama 4位置編碼最佳化更激進。這種明顯強化的超長上下文能力,是否會犧牲部分短上下文任務的精度。
2.5 訓練資料與最佳化策略
Llama 4的效能提升離不開高質量的訓練資料和最佳化策略:
原生多模態:Llama 4模型採用原生多模態設計,結合早期資料融合,將文字和視覺標記無縫整合到統一的模型主幹中。早期融合是MoE模型向前邁出的一大步,能夠使用大量未標記的文字、影像和影片資料聯合預訓練模型。Llama 4還基於MetaCLIP優化了視覺編碼器,以更好的使編碼器適應 MoE架構。
新訓練技術:Meta開發了新的訓練技術 MetaP,以便於更可靠的設定關鍵的模型超引數,例如每層學習率和初始化規模。Llama 4透過對 200 種語言進行預訓練來支援微調工作,其中包括 100 多種語言,每種語言的token超過 10 億個,總體上是 Llama 3 的 10 倍。
FP8訓練:專注於透過使用 FP8 精度進行高效的模型訓練,不犧牲質量並確保模型 FLOPs 的高利用率,同時使用 FP8 和 32K GPU 對 Llama 4 Behemoth 模型進行預訓練。

FP8訓練框架區域性方案(來源:DeepSeek)
長上下文擴充套件:使用專用資料集的進行長上下文擴充套件。
混合模態特有的訓練流程:輕量級監督微調 (SFT) > 線上強化學習 (RL) > 輕量級直接偏好最佳化 (DPO)。
資料規模: Llama 4 Scout 在 ~40 萬億個token上進行了預訓練,Llama 4 Maverick 在 ~22 萬億個多模態資料token上進行了預訓練。懂的都懂,這些資料有一部分來自於Instagram 和 Facebook。
資料過濾: Meta一貫重視資料質量,Llama 4可能延續Llama 2的策略,使用分類器(如Llama 3)篩選高質量token,並針對多語言和多模態任務進行主題均衡。
知識截止: X使用者提到知識截至2024年8月,這表明Llama 4的訓練資料更新較為及時,但中文資料的缺失可能影響其在特定場景的表現。

潛在挑戰與改進空間

儘管Llama 4在架構上非常先進,在多模態MoE架構的進步上表現亮眼,但仍有一些需要進一步確認的資訊:
專家負載均衡
MoE模型容易出現某些專家被過度使用的情況,Llama 4使用了何種機制/路由演算法來最佳化負載和訓練均衡。Llama 4是否會照搬DeepSeekMoE的訓練方法?
多模態融合
多模態能力的實現可能依賴獨特的預訓練模組來進行模態增強,如何無縫整合這些模組仍需驗證。
推理與訓練成本
儘管MoE降低了計算量,但超長上下文和高參數量對記憶體需求依然巨大,單張H100執行Scout已屬極限,更大模型可能需要多GPU/AI晶片支援。後面的大模型競爭依然有點算力為王的意思。這次Llama 4的釋出,與加關稅的步調高度協同,不知道是否是醜國競爭的一張牌。
Llama 4是Meta在開源AI領域的一次重大突破,並體現了其與DeepSeek在MoE架構上血拼的決心。
換句話說,DeepSeek的對開源界的貢獻也倒逼Llama加速其開放速度。Llama 4MoE架構結合多模態能力和超長上下文視窗,不僅在效能上逼近甚至超越閉源模型,也為學術研究和企業應用提供了更多可能性。
從架構上看,Llama 4在Transformer的基礎上,減小了單個專家,透過稀疏啟用、動態路由和高效注意力機制實現了效率與效能的平衡。中文支援的不足和高資源需求可能是未來需要解決的痛點。

技術交流群邀請函

△長按新增小助手
掃描二維碼新增小助手微信
請備註:姓名-學校/公司-研究方向
(如:小張-哈工大-對話系統)
即可申請加入自然語言處理/Pytorch等技術交流群

關於我們

MLNLP 社群是由國內外機器學習與自然語言處理學者聯合構建的民間學術社群,目前已經發展為國內外知名的機器學習與自然語言處理社群,旨在促進機器學習,自然語言處理學術界、產業界和廣大愛好者之間的進步。
社群可以為相關從業者的深造、就業及研究等方面提供開放交流平臺。歡迎大家關注和加入我們。


相關文章