Llama4爆料大反轉,沒在測試集上訓練!華人員工實名闢謠,LeCun出面救火

轉自:新智元
【導讀】近日關於Meta Llama 4的「訓練作弊」爆料搞得沸沸揚揚。Meta迅速反擊,Licheng Yu、Di Jin及GenAI負責人Ahmad Al-Dahle接連闢謠,首席AI科學家Yann LeCun也親自下場力挺。與此同時,Llama 4的實際表現卻頻頻被吐槽。
Llama 4大瓜,又有了新的反轉。
緊接著,Meta研究科學家主管Licheng Yu實名闢謠,團隊根本沒有針對測試集過擬合訓練。
此前,他曾參與了Llama 3系列的研發,並這次負責Llama4 17B模型。
另一位Meta高階AI研究科學家Di Jin(此次負責Llama 4 288B)反懟道,「我參與了微調和強化學習的datamix,也沒有這種情況,樓主是否實名證實」?
而且,他還抓住了所謂爆料者的一大破綻——最近離職高階VP,並非是GenAI團隊的。但凡是內部的員工,不可能不瞭解這一點。
與此同時,領導Llama團隊的Meta GenAI副總裁兼負責人Ahmad Al-Dahle在X上發帖進行了澄清。
Ahmad表示,不同平臺間之所以會存在質量差異,是因為模型在完成開發後Meta便立即進行了開源。預計還需數日,各家才能完成最佳化適配。
至於那些「使用測試集訓練」的言論,可以說是毫無依據,因為這完全違背了Meta原則。
Ahmad堅信Llama 4模型標誌著重大的技術進步,並期待與開發者社群攜手挖掘其潛能。
作為Meta首席AI科學家的Yann LeCun,也在第一時間轉發了Ahmad的帖子表示力挺。
話雖如此,但並不能「洗白」Meta在背後偷偷動了手腳——刷榜LMSYS的Llama 4是一款「提供版」模型。
競技場開撕Meta,2000+對話公開真相
Llama 4開源首日,Maverick模型在Chatbot Arena上拿下僅次於Gemini 2.5的高分。
然而,開發者下載後發現,Meta公開的與HF公開下載的模型大相徑庭,一時間大模型排行榜被全網罵慘。
今天,lmarena.ai團隊徹底坐不住了,直接下場開懟。
他們發文表示,為了確保完全透明,我們公開了2000+組模型對戰資料,包括使用者提示詞、模型回覆、使用者偏好供超看。
更勁爆的是,團隊直指Meta在提交模型時,並非用的是原版,而是Llama-4-Maverick-03-26-Experimental。
這是一個經過DPO最佳化的定製模型,然而Meta在提交時並未明確說明這一點。
為了平息爭議,團隊火速給出解決方案,公開對戰資料同時,並儘快上線Llama 4 Maverick公開版,並隨後更新榜單結果。
Llama 4弱爆?吐槽一大片,但也有力挺
雖然整件事只是一個抓馬,但Llama 4實力拉跨是真的。
在aider多語言程式設計基準測試中,Llama 4 Maverick僅拿下了16%成績,遠不及Qwen2.5-Coder、DeepSeek V3開源模型。
更不用提Gemini 2.5 Pro和Claude 3.7 Sonnet了。
網友Flavio Adamo使用相同的提示詞,分別讓Llama 4 Maveric和GPT-4o製作一個旋轉多邊形的動畫。
可以看出,Llama 4 Maveric生成的多邊形並不規則而且沒有開口。小球也不符合物理規律,直接穿過多邊形掉下去了。
相比之下GPT-4o製作的動畫雖然也不完美,但至少要好得多。
另外,Llama 4 Scout最大優勢便是支援10000 token上下文,甚至當時有網友直呼「RAG已死」。
可事實上,在最新上下文基準測試中,Llama 4的排名幾乎可以算上倒數的了。
報告中指出,Llama 4的表現令人失望。Maverick未能改進本就低於平均水平的Llama 3.3 70b,而Scout模型更是糟糕透頂。
谷歌的博士研究員Kaixuan Huang表示Llama 4的數學能力弱爆了。
他們在MATH-Perturb基準測試上測試了Llama4-Scout,其得分排名甚至不及引數更小、釋出更早的DeepSeek-R1-Distill-Qwen-14B。
實在難以想象這是一個新發布的模型。
地址:https://math-perturb.github.io/
不過,斯坦福計算機助理教授Percy Liang剛剛釋出一個新基準,Llama 4 Maverick竟拿下了最高分。
針對這次基準烏龍事件,他本人也做出了回應,每個人不要過度解讀排行榜。如果對一個模型進行多樣測試,一切就清晰了。
DS太強,小扎按下恐慌按鈕
Llama 4效果如此不盡人意,難道Meta不能等一切準備就緒再發嗎?
時間來不及了!
有傳言稱,4月第二週,Qwen-3即將出世,而且說不定哪天DeepSeek R2突然釋出了。
屆時,Llama 4可能更就拿不出手了,畢竟幾個月前,Meta前員工爆料稱,內部高層恐慌一片。
來自艾倫研究員Nathan Lambert髮長文稱,Llama 4可能是今年最奇怪的一次模型釋出。
曾經,Llama系列每一次迭代,都被視為AI領域年度大事件,如今Llama 4卻讓人感到迷失。
Llama 4包括三款模型,最大亮點採用了MoE架構,訓練計算量比Llama 3更少。
在LMArena排行榜上,Llama 4 Maverick取得了1417 ELO高分,表現搶眼。
但詭異的釋出時間,「輕浮」的對話風格,以及評估資料的缺乏,都讓Llama 4的亮相盡顯慌亂。
業界一直髮出質疑——Llama 4的設計更像是古早的模型,複雜MoE架構、超大引數規模、高記憶體需求,與開發者需求漸行漸遠。
相較之下,Qwen 2.5提供了多樣化模型選擇,更貼近開源標杆的設計。
從目前來看,Meta團隊似乎更專注於用AI賦能自家平臺,而非真正支撐開源的生態。
參考資料:
https://x.com/ylecun/status/1909313264460378114
https://x.com/emollick/status/1909306675174977637
– EOF –

相關文章