Llama4模型細節&效果實測

MLNLP社群是國內外知名的機器學習與自然語言處理社群,受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。
社群的願景是促進國內外自然語言處理,機器學習學術界、產業界和廣大愛好者之間的交流和進步,特別是初學者同學們的進步。
來源 | NLP工作站
作者 | 劉聰NLP
昨天MetaAI釋出了Llama4模型,終於來啦!開源社群也是等了很久。
本次共兩系列模型Scout和Maverick模型,兩個模型均為MoE架構模型,DeepSeek得含金量還在提高,哈哈哈!
榜單效果反正是槓槓滴。

HF模型路徑:https://huggingface.co/collections/meta-llama/llama-4-67f0c30d9fe03840bc9d0164

模型的總體資訊如上圖所示,
  • 模型MoE架構中,無論是Scout還是Maverick,啟用的路由專家資料均為1,有點奇怪,之前MoE架構一般啟用路由專家資料都是2或更多,不知道這裡是不是有什麼說法!歡迎評論區討論!當然128啟用8,跟16啟用1一樣,但不是專家粒度越細,效果越好嗎?

  • 預訓練階段Llama4訓練採用了200多種語言,其中100多種的Tokens總是超過1B,但Llama4 Instruct模型僅寫了支援阿拉伯語、英語、法語、德語、印地語、印度尼西亞語、義大利語、葡萄牙語、西班牙語、他加祿語、泰語和越南語 12種。對的,沒有中文,雖然可以中文問答,可能是故意沒寫,也可能是沒有專門進行訓練,也可能是因為xxx,反正我感覺格局有點小了。
  • 使用FP8精度進行模型訓練,在使用FP8和32KGPU 對 Llama 4 Behemoth(2T引數) 模型進行預訓練,實現了 390 TFLOPs/GPU。
  • 後訓練:SFT -> online RL -> 輕量 DPO 。
  • Scout上下文擴充到10M,採用iRoPE結構,透過交錯注意力層(Interleaved Attention Layers) 和 推理時溫度縮放(Temperature Scaling) 消除位置嵌入(Position Embeddings)的限制,支援更長的輸入序列,而溫度縮放則透過調整注意力權重的分佈,進一步提升了模型的泛化能力。

  • Llama 4 Behemoth暫未開源,還在訓練ing,總引數近2T,啟用引數288B,16 個專家,同時也是Maverick的教師模型。與資料蒸餾不同,Llama4貌似採用之前傳統的蒸餾豐方法,透過訓練動態加權軟目標和硬目標,一般軟目標就是logits,細節不知道,等公佈再說。
  • Llama4是多模態模型,採用了早期融合技術,透過海量的無標籤文字、圖片和影片資料一起來預訓練模型,提高模型後續視覺理解能力。影像的部分是一個單獨的編碼器,透過一個Linear的projector進行橋接
  • 其他沒啥了,等一手2T的模型,但是我也跑不了~~
下面是模型測試,因為本地模型還在下載,就用lmsys上對戰模型進行測試。僅測試Maverick模型,lmsys上標記的是llama-4-maverick-03-26-experimental,也就是號稱開源第一的那個模型。
https://lmarena.ai/?leaderboard
其中,引數跟模型config裡保持一致,

總體體驗其實不好,感覺不太行,不知道是lmsys上的問題,還是什麼問題,反正體感和效果都不理想。
  • 模型回答特別喜歡延申,回答完問題之後,喜歡給你再舉幾個例子,然後例子有時就很不恰當,過度回答;
  • 也許我問的都是中文問題,反正效果我真覺得一般,不如Qwen。
  • 回答超級喜歡代表情,是不是因為用了很多facebook中的評論對話資料呀。
正式測試開始:
  • 常規測試
  • 將“I love Llama4”這句話的所有內容反過來寫
  • 說明:結果不對,但知道可以寫程式碼反轉一下。

  • 依舊弱智吧
  • 生蠔煮熟了叫什麼?

    說明:接受的吧,但真不知道在哪兒延申啥呢,越延申看著答案越奇怪。

  • 用水來兌水,得到的是濃水還是稀水

    說明:稀水,不過解釋了,可能是因為問法中說的是濃水還是稀水吧,但別的模型可以回答水,既不是濃水也不是稀水。。。

  • 依舊小紅,依舊老鷹
  • 小紅有2個兄弟,3個姐妹,那麼小紅的兄弟有幾個姐妹

    說明:後面我沒有截到,還給我列個表格,說各種人問這個問題答案是啥,畫蛇添足ing。

  • 未來的某天,李同學在實驗室製作超導磁懸浮材料時,意外發現實驗室的老鼠在空中飛,分析發現,是因為老鼠不小心吃了磁懸浮材料。第二天,李同學又發現實驗室的蛇也在空中飛,分析發現,是因為蛇吃了老鼠。第三天,李同學又發現實驗室的老鷹也在空中飛,你認為其原因是

    說明:這題確實難,老鷹反正不會飛!

  • 數學
  • 2024年高考全國甲卷數學(理)試題

    說明:對了。

  • R1滿血測試題:在平面四邊形ABCD中,AB = AC = CD = 1,\angle ADC = 30^{\circ},\angle DAB = 120^{\circ}。將\triangle ACD沿AC翻折至\triangle ACP,其中P為動點。 求二面角A – CP – B的餘弦值的最小值。

    說明:沒對。

  • 大數計算:178939247893 * 299281748617等於多少?

    說明:沒對,答案是53553251005627872913981。然後感謝你教我怎麼讀~~~

  • 倫理、數學、生物終極測試:有一天,一個女孩參加數學考試只得了 38 分。她心裡對父親的懲罰充滿恐懼,於是偷偷把分數改成了 88 分。她的父親看到試卷後,怒髮衝冠,狠狠地給了她一巴掌,怒吼道:“你這 8 怎麼一半是綠的一半是紅的,你以為我是傻子嗎?”女孩被打後,委屈地哭了起來,什麼也沒說。過了一會兒,父親突然崩潰了。請問這位父親為什麼過一會崩潰了?

    說明:沒對,沒回答點子上。

  • 程式碼
  • 卡片:生成一個打工人時鐘的html頁面

    其他程式碼,貪吃蛇、彈球因為輸出長度不足,生成不完,我就沒測,但是單看這個時鐘這個反正不如Gemini2.5 pro好看。並且按道理今天不上班!!!之前用Gemini2.5可以自動判斷上不上班,哈哈哈哈

  • 創作
  • 用貼吧嘴臭老哥的風格點評大模型套殼現象

    說明:跟我沒關係,全是llama4回答的,我其實不理解他為什麼指名道姓。感覺沒有完全理解我的意思,沒有從全面出發,評價這一現象。

整體測試感覺不是很好,可能是因為Maverick模型適合創意任務造成?問答喜歡發散?可能英文提問更好吧,但是我都是中文場景,就這麼測了!歡迎大家評論區討論!
不過好像llama4的reasoning模型也快來了~
https://www.llama.com/llama4-reasoning-is-coming/
對了,怎麼還沒用Chinese-Llama4的Github專案,這不都是搞star的機會嘛,哈哈哈。也許在訓練ing,也許需要裝置有點多了,普通人不好搞了?
這次Llama4的整體興奮度讓我不是很高,也許我內心更喜歡看到國產的開源,哈哈哈哈!病了3天,下午爬起來寫完了這篇測試!

技術交流群邀請函

△長按新增小助手
掃描二維碼新增小助手微信
請備註:姓名-學校/公司-研究方向
(如:小張-哈工大-對話系統)
即可申請加入自然語言處理/Pytorch等技術交流群

關於我們

MLNLP 社群是由國內外機器學習與自然語言處理學者聯合構建的民間學術社群,目前已經發展為國內外知名的機器學習與自然語言處理社群,旨在促進機器學習,自然語言處理學術界、產業界和廣大愛好者之間的進步。
社群可以為相關從業者的深造、就業及研究等方面提供開放交流平臺。歡迎大家關注和加入我們。


相關文章