早前社交媒體集團 Meta 推出新的人工智慧模型 Llama 4 系列,據 Meta 稱這些新模型在能力方面達到或超越競爭對手,例如谷歌 Gemini、Anthropic Claude、OpenAI GPT-4o 以及 DeepSeek-V3 等。
但在模型釋出後不少 AI 開發者下載進行測試後發現 Llama 4 模型並未達到預期的能力,同時網上也出現自稱是 Meta AI 團隊的員工爆出這些模型屬於緊急釋出,很多地方並未完成最佳化。
隨後就有網友爆出 Llama 4 的紙上資料是 Meta 精心調配而來,也就是針對 AI 基準測試進行針對性的最佳化從而獲得更好的成績進行刷榜,這與各種智慧手機測試效能時的跑分作弊完全相同。

對於這種說法 Meta 進行否認,Meta GenAI 副總裁 Ahmad AI-Dahle 發帖表示:
Meta 在測試集中訓練 Llama 4 Maverick 和 Llama 4 Scout 的說法根本不是事實。一些使用者發現託管在不同雲服務商的模型表現殘次不齊,由於我們在模型準備就緒後將將其刪除,因此我們預計所有的公開部署還需要幾天才能完成,同時我們將努力修復錯誤並吸引合作伙伴。
在 AI 基準測試中,測試集是用來評估模型訓練後效能的資料合計,在測試集上訓練可能會誤導性的誇大模型的基準測試分數,也就是針對測試集進行訓練很可能讓模型得分看起來非常強大。
這件事的起因來自中文論壇一畝三分地 (1Point3Acres),該論壇主要使用者是位於北美的中國留學生和工作者,名為 @dliudliu 的使用者自稱是 Meta GenAI 團隊的員工。

這名網友表示 Llama 4 經過反覆訓練都沒能達到開源模型的水平,於是公司領導建議將測試集資料混合到訓練過程中,從而達到各項指標拿出一個看起來可以的結果,因為如果沒能在 4 月底前達成目標後果將不堪設想。
網友自稱也是學術界的人,實在無法接受這種做法所以提交了離職申請,還表示之後的 Llama 4 技術報告中不要署名,早前 Meta GenAI VP 辭職可能也是這個原因。