Llama4爆料大反轉，沒在測試集上訓練！華人員工實名闢謠，LeCun出面救火

2025-08-06 05:54 程式設計師的那些事

轉自：新智元

【導讀】近日，關於Meta Llama 4的「訓練作弊」爆料搞得沸沸揚揚。Meta迅速反擊，Licheng Yu、Di Jin及GenAI負責人Ahmad Al-Dahle接連闢謠，首席AI科學家Yann LeCun也親自下場力挺。與此同時，Llama 4的實際表現卻頻頻被吐槽。

Llama 4大瓜，又有了新的反轉。

4 月 7 日，自稱是Meta內部員工的一則Llama 4訓練作弊爆料，徹底掀翻了全網。

緊接著，Meta研究科學家主管Licheng Yu實名闢謠，團隊根本沒有針對測試集過擬合訓練。

此前，他曾參與了Llama 3系列的研發，並這次負責Llama4 17B模型。

另一位Meta高階AI研究科學家Di Jin（此次負責Llama 4 288B）反懟道，「我參與了微調和強化學習的datamix，也沒有這種情況，樓主是否實名證實」？

而且，他還抓住了所謂爆料者的一大破綻——最近離職高階VP，並非是GenAI團隊的。但凡是內部的員工，不可能不瞭解這一點。

與此同時，領導Llama團隊的Meta GenAI副總裁兼負責人Ahmad Al-Dahle在X上發帖進行了澄清。

Ahmad表示，不同平臺間之所以會存在質量差異，是因為模型在完成開發後Meta便立即進行了開源。預計還需數日，各家才能完成最佳化適配。

至於那些「使用測試集訓練」的言論，可以說是毫無依據，因為這完全違背了Meta原則。

Ahmad堅信Llama 4模型標誌著重大的技術進步，並期待與開發者社群攜手挖掘其潛能。

作為Meta首席AI科學家的Yann LeCun，也在第一時間轉發了Ahmad的帖子表示力挺。

話雖如此，但並不能「洗白」Meta在背後偷偷動了手腳——刷榜LMSYS的Llama 4是一款「提供版」模型。

競技場開撕Meta，2000+對話公開真相

Llama 4開源首日，Maverick模型在Chatbot Arena上拿下僅次於Gemini 2.5的高分。

然而，開發者下載後發現，Meta公開的與HF公開下載的模型大相徑庭，一時間大模型排行榜被全網罵慘。

今天，lmarena.ai團隊徹底坐不住了，直接下場開懟。

他們發文表示，為了確保完全透明，我們公開了2000+組模型對戰資料，包括使用者提示詞、模型回覆、使用者偏好供超看。

更勁爆的是，團隊直指Meta在提交模型時，並非用的是原版，而是Llama-4-Maverick-03-26-Experimental。

這是一個經過DPO最佳化的定製模型，然而Meta在提交時並未明確說明這一點。

為了平息爭議，團隊火速給出解決方案，公開對戰資料同時，並儘快上線Llama 4 Maverick公開版，並隨後更新榜單結果。

Llama 4弱爆？吐槽一大片，但也有力挺

雖然整件事只是一個抓馬，但Llama 4實力拉跨是真的。

在aider多語言程式設計基準測試中，Llama 4 Maverick僅拿下了16%成績，遠不及Qwen2.5-Coder、DeepSeek V3開源模型。

更不用提Gemini 2.5 Pro和Claude 3.7 Sonnet了。

網友Flavio Adamo使用相同的提示詞，分別讓Llama 4 Maveric和GPT-4o製作一個旋轉多邊形的動畫。

可以看出，Llama 4 Maveric生成的多邊形並不規則而且沒有開口。小球也不符合物理規律，直接穿過多邊形掉下去了。

相比之下GPT-4o製作的動畫雖然也不完美，但至少要好得多。

另外，Llama 4 Scout最大優勢便是支援10000 token上下文，甚至當時有網友直呼「RAG已死」。

可事實上，在最新上下文基準測試中，Llama 4的排名幾乎可以算上倒數的了。

報告中指出，Llama 4的表現令人失望。Maverick未能改進本就低於平均水平的Llama 3.3 70b，而Scout模型更是糟糕透頂。

谷歌的博士研究員Kaixuan Huang表示Llama 4的數學能力弱爆了。

他們在MATH-Perturb基準測試上測試了Llama4-Scout，其得分排名甚至不及引數更小、釋出更早的DeepSeek-R1-Distill-Qwen-14B。

實在難以想象這是一個新發布的模型。

地址：https://math-perturb.github.io/

不過，斯坦福計算機助理教授Percy Liang剛剛釋出一個新基準，Llama 4 Maverick竟拿下了最高分。

針對這次基準烏龍事件，他本人也做出了回應，每個人不要過度解讀排行榜。如果對一個模型進行多樣測試，一切就清晰了。

DS太強，小扎按下恐慌按鈕

Llama 4效果如此不盡人意，難道Meta不能等一切準備就緒再發嗎？

時間來不及了！

有傳言稱，4月第二週，Qwen-3即將出世，而且說不定哪天DeepSeek R2突然釋出了。

屆時，Llama 4可能更就拿不出手了，畢竟幾個月前，Meta前員工爆料稱，內部高層恐慌一片。

來自艾倫研究員Nathan Lambert髮長文稱，Llama 4可能是今年最奇怪的一次模型釋出。

曾經，Llama系列每一次迭代，都被視為AI領域年度大事件，如今Llama 4卻讓人感到迷失。

Llama 4包括三款模型，最大亮點採用了MoE架構，訓練計算量比Llama 3更少。

在LMArena排行榜上，Llama 4 Maverick取得了1417 ELO高分，表現搶眼。

但詭異的釋出時間，「輕浮」的對話風格，以及評估資料的缺乏，都讓Llama 4的亮相盡顯慌亂。

業界一直髮出質疑——Llama 4的設計更像是古早的模型，複雜MoE架構、超大引數規模、高記憶體需求，與開發者需求漸行漸遠。

相較之下，Qwen 2.5提供了多樣化模型選擇，更貼近開源標杆的設計。

從目前來看，Meta團隊似乎更專注於用AI賦能自家平臺，而非真正支撐開源的生態。

參考資料：

https://x.com/ylecun/status/1909313264460378114

https://x.com/emollick/status/1909306675174977637

– EOF –

推薦閱讀點選標題可跳轉

1、位元組凌晨 3 點突發宣告

2、華為年報：研發減員約 1 千

3、十年未更新系統，Oracle雲曝出前所未有的重大生產事故

相關文章

Llama4開源空降！1000萬超長上下文、單GPU可跑，還有近2萬億引數巨模型

Llama4開源空降！1000萬超長上下文、單GPU可跑，還有近2萬億引數巨模型

Meta深夜開源Llama4！首次採用MoE，驚人千萬token上下文，競技場超越DeepSeek

Meta深夜開源Llama4！首次採用MoE，驚人千萬token上下文，競技場超越DeepSeek

剛剛，Llama4深夜開源擊敗DeepSeekV3！2萬億多模態巨獸搶回王座

剛剛，Llama4深夜開源擊敗DeepSeekV3！2萬億多模態巨獸搶回王座

Llama4訓練作弊爆出驚天醜聞！AI大佬憤而辭職，程式碼實測崩盤全網炸鍋

Llama4訓練作弊爆出驚天醜聞！AI大佬憤而辭職，程式碼實測崩盤全網炸鍋

Meta員工爆出Llama4存在跑分作弊刷榜問題為了排名不惜作假

Meta員工爆出Llama4存在跑分作弊刷榜問題為了排名不惜作假

Llama4大戰DeepSeekV3，全錯翻車，我人都傻了

Llama4大戰DeepSeekV3，全錯翻車，我人都傻了

Meta釋出大模型Llama4，並禁止歐盟使用…

Meta釋出大模型Llama4，並禁止歐盟使用…

Llama4最全實測，股市還給我跌麻了….

Llama4最全實測，股市還給我跌麻了….

1000萬上下文+2880億引數的Llama4，卻讓DeepSeek們鬆了一口氣

1000萬上下文+2880億引數的Llama4，卻讓DeepSeek們鬆了一口氣

LIama4釋出重奪開源第一！DeepSeek同等程式碼能力但引數減一半，一張H100就能跑，還有兩萬億引數超大杯

LIama4釋出重奪開源第一！DeepSeek同等程式碼能力但引數減一半，一張H100就能跑，還有兩萬億引數超大杯

Copyright © 2025 | WordPress Theme by MH Themes