Meta員工爆出Llama4存在跑分作弊刷榜問題為了排名不惜作假

#人工智慧網友爆出 Llama 4 模型存在跑分作弊問題，即混合測試集資料讓模型在進行 AI 基準測試時獲得更好的表現。該網友自稱是 Meta GenAI 員工，實在受不了這種行為已經提交離職申請。而針對客觀上存在模型表現殘次不齊的問題，Meta 高管也表示正在修復，但否認作弊。檢視全文：https://ourl.co/108684

早前社交媒體集團 Meta 推出新的人工智慧模型 Llama 4 系列，據 Meta 稱這些新模型在能力方面達到或超越競爭對手，例如谷歌 Gemini、Anthropic Claude、OpenAI GPT-4o 以及 DeepSeek-V3 等。

但在模型釋出後不少 AI 開發者下載進行測試後發現 Llama 4 模型並未達到預期的能力，同時網上也出現自稱是 Meta AI 團隊的員工爆出這些模型屬於緊急釋出，很多地方並未完成最佳化。

隨後就有網友爆出 Llama 4 的紙上資料是 Meta 精心調配而來，也就是針對 AI 基準測試進行針對性的最佳化從而獲得更好的成績進行刷榜，這與各種智慧手機測試效能時的跑分作弊完全相同。

對於這種說法 Meta 進行否認，Meta GenAI 副總裁 Ahmad AI-Dahle 發帖表示：

Meta 在測試集中訓練 Llama 4 Maverick 和 Llama 4 Scout 的說法根本不是事實。一些使用者發現託管在不同雲服務商的模型表現殘次不齊，由於我們在模型準備就緒後將將其刪除，因此我們預計所有的公開部署還需要幾天才能完成，同時我們將努力修復錯誤並吸引合作伙伴。

在 AI 基準測試中，測試集是用來評估模型訓練後效能的資料合計，在測試集上訓練可能會誤導性的誇大模型的基準測試分數，也就是針對測試集進行訓練很可能讓模型得分看起來非常強大。

這件事的起因來自中文論壇一畝三分地 (1Point3Acres)，該論壇主要使用者是位於北美的中國留學生和工作者，名為 @dliudliu 的使用者自稱是 Meta GenAI 團隊的員工。

這名網友表示 Llama 4 經過反覆訓練都沒能達到開源模型的水平，於是公司領導建議將測試集資料混合到訓練過程中，從而達到各項指標拿出一個看起來可以的結果，因為如果沒能在 4 月底前達成目標後果將不堪設想。

網友自稱也是學術界的人，實在無法接受這種做法所以提交了離職申請，還表示之後的 Llama 4 技術報告中不要署名，早前 Meta GenAI VP 辭職可能也是這個原因。

dignews.cc

Meta員工爆出Llama4存在跑分作弊刷榜問題為了排名不惜作假

相關文章

Llama4開源空降！1000萬超長上下文、單GPU可跑，還有近2萬億引數巨模型

Llama4爆料大反轉，沒在測試集上訓練！華人員工實名闢謠，LeCun出面救火

Meta深夜開源Llama4！首次採用MoE，驚人千萬token上下文，競技場超越DeepSeek

Llama4訓練作弊爆出驚天醜聞！AI大佬憤而辭職，程式碼實測崩盤全網炸鍋

Llama4大戰DeepSeekV3，全錯翻車，我人都傻了

Llama4釋出後差評如潮！匿名員工爆料：拒絕署名技術報告…

Llama4最全實測，股市還給我跌麻了….

剛剛，Llama4深夜開源擊敗DeepSeekV3！2萬億多模態巨獸搶回王座

免手術AI讀心術新突破！Meta腦機介面研究驚呆網友：能邊睡邊玩手機發帖了？？

圖靈獎得主楊立昆談DeepSeek及AGI：開源即一切