白交 衡宇 發自 凹非寺量子位 | 公眾號 QbitAI
AI不過週末,矽谷也是如此。
大週日的,Llama家族上新,一群LIama 4就這麼突然釋出了。
這是Meta首個基於MoE架構模型系列,目前共有三個款:
Llama 4 Scout、Llama 4 Maverick、Llama 4 Behemoth。
最後一個尚未推出,只是預告,但Meta已經毫不避諱地稱前兩者是“我們迄今為止最先進的型號,也是同類產品中最好的多模態型號”。
詳細來看一些關鍵詞——
Llama 4 Scout,16位專家的170億啟用引數的多模態模型,單個H100 GPU可執行, 同類SOTA,並擁有10M上下文視窗
Llama 4 Maverick,128位專家的170億啟用引數多模態模型,擊敗GPT-4o和Gemini 2.0 Flash,與DeepSeek-V3同等程式碼能力引數只要一半,主打與DeepSeek一樣的價效比,單個H100主機即可執行。
Llama 4 Behemoth:2萬億引數的超大超強模型,以上二者都由這個模型蒸餾而來;目前還在訓練中;多個基準測試超過GPT-4.5、Claude Sonnet 3.7和 Gemini 2.0 Pro。

Meta官推激情表示,這些Llama 4模型標誌著Llama生態系統新時代——原生多模態AI創新的開始。

與此同時,大模型競技場排名迎來一輪更新。
此次釋出的Llama 4 Maverick,在困難提示、編碼、數學、創意寫作方面並列第一;得分1417,不僅大大超越了此前Meta自家的Llama-3-405B(提升了149分),還成為史上第4個突破1400分的模型;。
而且跑分明確——超越DeepSeek-V3,實現亮相即登頂,直接成為排名第一的開源模型。

谷歌CEO劈柴哥第一時間發來賀電:
AI世界,從不平淡!恭喜呀!前進吧,Llama 4團隊!

中杯、大杯首批亮相
瞭解了Llama 4家族全體成員後,我們先來見識一下首批發布的2個模型:
- 中杯
:Llama 4 Scout(偵查兵Llama 4)。 - 大杯
:Llama 4 Maverick(特立獨行的Llama 4)。
兩者均已能在Llama官網和抱抱臉上下載。

我們抓取並提煉出這倆模型的一些特點:
Meta首批MoE架構模型
這是Llama系列,第一批使用MoE(混合專家模型)構建的模型。
中杯Llama 4 Scout有17B啟用引數,擁有16個專家模型。
大杯Llama 4 Maverick擁有17B啟用引數,擁有128個專家模型。
至於還沒和大家正式見面的超大杯Llama 4 Maverick,擁有288B啟用引數,擁有16個專家模型。
非常長————的上下文
Llama 4系列,均具有很長的上下文視窗。
這一點主要體現在Meta公佈的中杯Llama 4 Scout的詳細資料裡:
Llama 4 Scout提供了行業領先的100萬上下文視窗。經過預訓練和後訓練,Llama 4 Scout長度為256K,這使基本模型具有高階長度泛化能力。
這個配置,讓它在廣泛的測評集上,比Gemma 3、Gemini 2.0 Flash-Lite和Mistral 3.1的結果更優秀。

它在「大海撈針」測試上的表現如下:

結果如下:

那麼之前的Llama系列模型的上下文視窗情況呢?
-
Llama 1,上下文視窗為2k; -
Llama 2,上下文視窗預設為4k,但可以透過微調等可以拓展到32k; -
Llama 3,上下文視窗是8k,後來Llama 3.1的長文字能力拓展到了128k。
Meta官方部落格中是這麼寫的:
(Llama 4的長上下文)開闢了一個充滿可能性的世界,包括多文件摘要、解析廣泛的使用者活動以執行個性化任務以及對龐大的程式碼庫進行推理。
原生多模態設計
Llama 4系列,開啟了Llama的原生多模態時代。
而已經公開對外的中杯和大杯,被官方稱為“輕量級原生多模態模型”。
給使用者的體驗就是,上傳一張圖片,可以直接在對話方塊中提問關於這張圖片的各種問題。
不是我說,Llama終於長眼睛了!!!

上面這張動圖展示的僅僅是最基礎的,“為難”程都升級也不怕。
比如餵它一張鋪滿工具的圖片,問它哪些適合來幹某個活。
它會很快地把適用的工具圈出來:

要認顏色+認小鳥,也沒在怕的:

中杯和大杯都在官方介紹中被打上了“世界上同類產品中最好的多模態模型”的tag。
來看和Llama系列前作、Gemma 3、Mistral 3.1、Gemini 2.0 Flash-Lite的對比結果——
可以看到,在各個測評集上的表現,Llama 4 Scout樣樣都是新SOTA。

語言天賦Max
經過了預訓練和微調的Llama 4,掌握全球12種語言,以此“方便全球開發者的部署”。

比DeepSeek更狠的“AI模型拼多多”
一定要跟大家分享的一個細節,Meta這次在模型API價格方面,下狠手了!
先說結果:
系列超大杯Llama 4 Maverick,不僅超越了同類型號其它模型,價格還非常之美麗。

更直觀地來看這張表格,真的狠過DeepSeek——從效能到價格各個緯度。

要知道,超大杯Llama 4 Behemoth屬於是Llama 4系列的教師模型。
如果說中杯和大杯是輕量級選手,這位就是絕對的重磅玩家。
288B啟用引數,16個專家模型。
最重要的是,它的總引數量高達2000B!
在數學、多語言和影像基準測試中,它提供了非推理模型的最先進效能。

當“最牛”和“最便宜”擺在一起的時候,試問哪位開發者會不心動?(doge)
訓練細節
用他們自己的話來說,Llama系列是進行了徹底的重新設計。目前第一組LIama 4系列模型,他們也公佈了具體的訓練細節。
預訓練
他們首次使用混合專家MoE架構,在MoE架構中,單個token僅啟用總引數的一小部分。MoE架構在訓練和推理方面具有更高的計算效率,固定訓練FLOP成本情況下質量更高。

比如,Llama 4Maverick模型有17B個啟用引數和400B個總引數。他們使用交替的密集層和混合專家(MoE)層來提高推理效率。
MoE層使用128位路由(Routed)專家和一位共享專家。每個令牌都會發送給共享專家以及128位路由(Routed)專家之一。
因此,雖然所有引數都儲存在記憶體中,但在為這些模型提供服務時,只有總引數的子集被啟用。
這透過降低模型服務成本和延遲來提高推理效率——Llama 4 Maverick 可以在單個H100 DGX主機上執行,以便於部署,也可以透過分散式推理實現最高效率。
他們早期融合,將文字和視覺token無縫整合到統一模型中。
他們開發了一種新的訓練技術:MetaP,可以設定關鍵模型超引數,比如每層的學習率和初始化尺度。
結果發現,所選的超引數能在批次大小、模型寬度、深度和訓練token的不同值之間很好地擴充套件和泛化——
Llama 4透過在200種語言(包括100多種語言,每種語言有超過10億個詞庫)上進行預訓練,實現了開源微調工作,多語言詞庫總量是Llama 3的10倍。
此外,他們使用FP8精度進行高效模型訓練,同時不犧牲質量並確保模型 FLOPs的高利用率—在使用FP8和32K GPU 預訓練 Llama 4 Behemoth模型時,結果他們實現了390TFLOPs/GPU。
用於訓練的整體混合資料包括30多萬億個token,是Llama 3預訓練混合物的兩倍多,其中包括各種文字、影像和影片資料集。
在所謂的“中期訓練”中繼續訓練模型,透過新的訓練方法(包括使用專業資料集進行長上下文擴充套件)來提高模型的核心功能。
後訓練
後訓練階段,他們提出一個課程策略,與單個模式專家模型相比,該策略不會犧牲效能。
在Llama 4中,採用了一種不同的方法來改造我們的後期訓練管道:
輕量級監督微調(SFT)>線上強化學習(RL)>輕量級直接偏好最佳化 (DPO)。
一個關鍵的教訓是,SFT和DPO可能會過度約束模型,限制線上強化學習階段的探索,並導致精度降低,尤其是在推理、編碼和數學領域。
為了解決這個問題,他們使用Llama模型作為評判標準,刪除了50%以上被標記為簡單的資料,並對剩餘的較難資料集進行了輕量級SFT處理。
在隨後的線上強化學習階段,透過仔細選擇較難的提示,我們實現了效能上的飛躍。
此外,他們還實施了一種連續的線上強化學習策略,即交替訓練模型,然後利用模型不斷過濾並只保留中等難度到較高難度的提示。事實證明,這種策略在計算量和準確性的權衡方面非常有利。
然後,他們採用輕量級DPO來處理與模型響應質量相關的拐角情況,從而有效地在模型的智慧性和對話能力之間實現了良好的平衡。流水線架構和帶有自適應資料過濾功能的連續線上RL策略,最後造就了現在的LIama 4。
總結來看,Llama 4架構的一項關鍵創新是使用交錯注意力層,而無需位置嵌入。此外,他們還採用了注意力推理時間溫度縮放來增強長度泛化。
這些他們稱之為iRoPE架構,其中“i”代表 “交錯 ”注意力層,突出了支援 “無限”上下文長度的長期目標,而 “RoPE ”指的是大多數層中採用的旋轉位置嵌入。
Llama 4 Behemoth
最後,他們還透露了超大模型Llama 4 Behemoth一些蒸餾和訓練細節。
我們開發了一種新穎的蒸餾損失函式,可透過訓練動態加權軟目標和硬目標。
預訓練階段,Llama 4 Behemoth的程式碼蒸餾功能可以攤銷學生訓練中使用的大部分訓練資料計算蒸餾目標所需的資源密集型前向傳遞的計算成本。對於納入學生訓練的其他新資料,他們在Behemoth模型上執行前向傳遞,以建立蒸餾目標。
後訓練階段,為了最大限度地提高效能,他們刪減了95%的SFT資料,而小型模型只需刪減50%的資料,以實現對質量和效率的必要關注。
他們在進行輕量級SFT後,再進行大規模強化學習(RL),模型的推理和編碼能力會有更顯著的提高。
強化學習方法側重於透過對策略模型進行pass@k分析來抽取高難度提示,並根據提示難度的增加精心設計訓練課程。
此外還發現,在訓練過程中動態過濾掉優勢為零的提示語,並構建包含多種能力的混合提示語的訓練批次,有助於提高數學、推理和編碼的效能。最後,從各種系統指令中取樣對於確保模型在推理和編碼方面保持指令跟隨能力並在各種任務中表現出色至關重要。
由於其規模空前,要為兩萬億個引數模型擴充套件RL,還需要改造底層RL基礎設施。
他們優化了MoE並行化的設計,從而加快了迭代速度;並開發了一個完全非同步的線上RL訓練框架,提高了靈活性。
現有的分散式訓練框架會犧牲計算記憶體以將所有模型堆疊在記憶體中,相比之下,他們新基礎架構能夠將不同模型靈活分配到不同GPU上,並根據計算速度在多個模型之間平衡資源。
與前幾代產品相比,這一創新使訓練效率提高了約10倍。
One More Thing
要知道,由於昨天DeepSeek發了新論文,搞得奧特曼都坐不住了,趕緊出來發聲:
計劃改變:我們可能在幾周之後先發布o3和o4-mini。GPT-5就在幾個月後啊~
但,誰知道半路又殺出個Llama 4?!
前有猛虎,後有豺狼,OpenAI你真的得加油了……
網友調侃道,當奧特曼一睜眼,看到Llama 4來了,而且Llama 4的成本比GPT-4.5降低了3個數量級後——
他的狀態一定是醬嬸兒的:

以及相比Llama,現在可能神秘低調的DeepSeek,可能不知道什麼時候突然就會推出DeepSeek R2和V4…同在杭州的通義千問也幹勁十足,Llama也好GPT也好,基本成為平行參考了。
太平洋這頭,已經開始落地應用和智慧體了。
參考連結:[1]https://www.llama.com/[2]https://ai.meta.com/blog/llama-4-multimodal-intelligence/[3]https://x.com/AIatMeta/status/1908598456144531660[4]https://x.com/lmarena_ai/status/1908601011989782976[5]https://x.com/IOHK_Charles/status/1908635624036590070
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
— 完 —
速搶席位!中國AIGC產業峰會觀眾報名通道已開啟 🙋♀️
最新嘉賓曝光啦 🔥 百度、華為、AWS、無問芯穹、數勢科技、面壁智慧、生數科技等十數位AI領域創變者將齊聚峰會,讓更多人用上AI、用好AI,與AI一同加速成長~

🌟 一鍵星標 🌟
科技前沿進展每日見