Llama4先後被DeepSeek、英偉達暴擊，Meta不再是大模型開源“霸主”了

整理 I 褚杏娟

當地時間 4 月 8 日，英偉達宣佈推出其最新大語言模型 Llama3.1 Nemotron Ultra 253B。該模型基於 Meta 的 Llama-3.1-405B-Instruct 構建，並利用創新的神經架構搜尋（NAS）技術進行了深度最佳化。其效能超越了最近釋出的 Llama4，如 Behemoth、Maverick，並在 Hugging Face 平臺上開源，引起 AI 社群廣泛關注的同時，也再次“暴擊”了 Meta。

可檢視：https://huggingface.co/nvidia/Llama-3_1-Nemotron-Ultra-253B-v1

Meta 在大模型開源領域一直是作為領頭羊的存在，但上週末釋出的 Llama 4 卻一度讓 Meta 陷入尷尬。

Abacus.AI 執行長 Bindu Reddy 表示，“如果沒有 DeepSeek 和 Qwen，開源就會落後很多。”還有網友評價道，“Meta 頹勢盡顯，從 Llama3.1 起，技術上 insight 就慢慢落後了。回顧往昔，Llama2 還真是最巔峰。”Llama 4 的翻車還引發了大家對 Qwen 3 的期待。

目前，大家對 Llama 4 的批評主要集中在以下三點：

突然釋出，沒有配套工具，哪怕是因為時間緊張，也還是太草率；
LM Arena“作弊”事件，最為嚴重，極大損害了公眾的信任；
使用者更加追逐“推理模型”，Llama 4 在推理上介紹較少，整體顯得沒那麼突出。

現在，是否可以真的說 Meta 4 已經“折戟”了？

“作弊”事件引發信任危機

上週末，Meta 釋出了兩個新的 Llama 4 模型：Scout （16 個專家，17B 啟用引數）和 Maverick（128 個專家，17B 啟用引數）。釋出不久後，AI 社群就開始流傳一個傳聞：Meta 有意讓 Llama 4 更擅長跑分測試，並掩蓋其真實限制。

YouTube 博主的實測結果

“作弊”事件的主角是是 Maverick。Meta 宣稱，Maverick 能在“廣泛被引用的基準測試中”擊敗 GPT-4o 和 Gemini 2.0 Flash。Maverick 很快就在 AI 基準測試平臺 LMArena 上奪得了第二名的位置。

LMArena 是一個由使用者對比多個系統輸出並投票評選最佳結果的平臺。Meta 稱 Maverick 的 ELO 分數為 1417，高於 OpenAI 的 4o，僅次於 Gemini 2.5 Pro。（ELO 分數越高，表示模型在對戰中獲勝的頻率越高。）

這一成績讓 Meta 的開源模型 Llama 4 看上去有實力挑戰 OpenAI、Anthropic 和 Google 等公司最先進的閉源模型。然而，多位 AI 研究人員在仔細查閱文件後發現了一些不尋常的地方。在文件的細節部分，Meta 承認：用於 LMArena 測試的 Maverick 並不是公開提供的版本。根據 Meta 自身的資料顯示，他們在 LMArena 上部署的是一個“對話效能最佳化”的實驗性聊天版本的 Maverick。

根據外媒 TechCrunch 的說法，LMArena 從來都不是評估 AI 模型效能最可靠的標準。但過去 AI 公司通常不會專門去定製或微調模型以在 LMArena 上獲得更高分，至少沒人承認這麼做過。

問題在於：如果你為一個基準測試定製了模型，但並不公佈這個定製版本，而是隻釋出一個“原味”版本（vanilla variant），這會讓開發者很難準確預測這個模型在具體應用場景中的真實表現。而且，這種做法也具有誤導性。

理想情況下，儘管現有基準測試本身也有很多缺陷，但它們起碼應該能提供一個關於單個模型在不同任務上的能力概覽。

事實上，已經有研究人員指出，公開發布的 Maverick 模型和 LM Arena 上託管的那個版本行為差異非常明顯。LM Arena 的那個版本經常使用大量表情符號，而且回答特別囉嗦。

LMArena 在 Llama 4 釋出兩天後在 X 發文表示：“Meta 對我們政策的理解與我們對模型提供方的期望不一致。Meta 應該更明確地說明 ‘Llama-4-Maverick-03-26-Experimental’ 是一個為迎合人類偏好而定製的模型。為此，我們正在更新排行榜政策，以加強對公平、可復現評測的承諾，避免未來再次出現類似混淆。”

雖然 Meta 的做法並未明確違反 LMArena 的規則，該平臺仍表達了對“操縱評測系統”的擔憂，並採取措施防止“過擬合”和“基準測試洩漏”。

當公司在排行榜上提交特別調優的模型版本，而向公眾釋出的是另一個版本時，像 LMArena 這樣的排行榜作為現實表現參考的意義就會被削弱。同時，公眾也會對公司後續大模型版本的測評結果保持懷疑。

Meta 發言人 Ashley Gabriel 回應：“我們會嘗試各種定製版本。”她表示，“‘Llama-4-Maverick-03-26-Experimental’ 是我們試驗的一種聊天最佳化版本，在 LMArena 上的表現也很不錯。我們現在已經發布了開源版本，接下來將看看開發者如何根據自身需求定製 Llama 4。”

對此，Meta 生成式 AI 副總裁 Ahmad Al-Dahle 在 X 上發文否認了這些質疑：“我們也聽到了有關我們使用測試集進行訓練的指控——這根本不是事實，我們絕不會這麼做。我們最合理的理解是，大家看到的質量差異是因為目前的實現版本仍需進一步穩定。”

這次事件揭示出，Meta 渴望被視為 AI 領頭羊——即使這意味著需要用“打榜技巧”操作規則，但其確實面臨著研發困境。

“DeepSeek 效應”的後續？

不少人注意到，Llama 4 的釋出時間很奇怪——週六通常不是釋出重大 AI 新聞的時間。有人在 Threads 上問為什麼要在週末釋出，Meta CEO 馬克·扎克伯格回應說：“因為那時它準備好了。”可見，選擇這個時間點發布是扎克伯格同意的。

Llama 是 Meta 最寄予厚望的一款模型，扎克伯格的目標是將其作為全球的行業標準，並在今年實現 10 億的使用者數量。此前，有人猜測 Meta 可能會在 4 月 29 日首次舉辦的 LlamaCon AI 會議推出 Llama 最新模型。

專注於追蹤 AI 模型的 Simon Willison 表示：“這次釋出總體上非常令人困惑。模型評分對我來說毫無價值，因為我甚至無法使用那個得分很高的模型版本。”

Meta 釋出 Llama 4 的過程並不順利。根據 The Information 的報道，由於模型未能達到內部預期，Meta 多次推遲釋出。內部對這個版本預期尤其高，因為 DeepSeek 開源模型對其帶來了很大沖擊。

1 月底時有訊息稱，Meta 的生成式 AI 團隊陷入了恐慌狀態。“一切始於 DeepSeek V3，它讓 Llama 4 在基準測試中落後。”“工程師們正瘋狂地剖析 DeepSeek，複製一切能複製的東西。”

這次釋出中，Meta 特意提到“Maverick 是同類最佳的多模態模型，在編碼、推理、多語言、長上下文和影像基準測試中超越了 GPT-4o 和 Gemini 2.0 等同類模型，並且在編碼和推理方面可與規模大得多的 DeepSeek v3.1 相媲美。”

“總體來說，對 Llama 4 來說是有點失望，唯一的驚喜是 Scout 的 10M 上下文視窗，可以處理巨長文字和大影片。但很可惜的是官方 Release Notes 沒提到支援中文。”有網友說道。

但在第三方的長上下文測評中，Llama 4 表現並不好。對此，CoreViewHQ 聯合創始人兼 CTO Ivan Fioravant 表示，“Llama-4 不可能在 120k 上下文長度下會退化得這麼嚴重。像 Meta 這樣的大型 AI 實驗室怎麼可能在釋出中宣稱支援 10M 上下文視窗，卻在實際使用中表現這麼差？我真心希望是某些地方出了 bug 才導致這種情況。”

網友實測，Llama 4 被低估了嗎？

“dionysio211”認為，在關於 Llama 4 的討論中，很多真正重要的內容都被忽視了。最近釋出的這些模型，其實在大模型設計方面帶來了許多新穎的突破，包括：多模態趨勢、新的推理與非推理邏輯設計、各種型別的 MoE（專家混合）結構等。

這些創新讓普通使用者在“第一印象”上產生了偏差，導致他們誤以為模型退步了，而實際上模型正在快速進化。

以 Gemma 3 為例，它的多模態功能在上線時表現非常糟糕，直到現在在很多本地 LLM 平臺（如 LMStudio、Ollama、KoboldCPP 等）上都還沒有完全最佳化好。這其實很容易理解。要在現有消費級硬體上擠出更多效能、同時儘快將模型推向公眾，涉及到大量變數——其中很重要的一點就是：依賴開源平臺去“預判”或“適配”模型釋出後的變化。

“如果每個新模型都沿用同樣的架構，那怎麼會有創新呢？”dionysio211 表示，“現在還沒有任何主流平臺對音訊輸入做出統一標準，那面對即將推出的“omni 模型”又要怎麼支援？我還沒看到有哪個平臺支援 Phi-4 的 omni 版本。”“再比如 Qwen 2.5 VL 已經發布很久了，可至今大部分本地推理平臺還不支援它。”

“從 Mixtral 開始，幾乎每一個有新架構的模型在落地時都會遇到各種卡頓和問題。我們應該習慣這種情況，而不是在模型還沒跑順的時候就輕下結論、否定模型本身的價值。”dionysio211 表示，這都是這個行業發展過程的一部分，我們要做的是等待平臺支援，而不是急著說模型研發團隊“不懂在幹什麼”。

在 dionysio211 看來，Llama 4 這種模型正是本地 LLM 的未來趨勢。它們透過構建高效能的 MoE 架構，繞過了“記憶體傳輸頻寬”這一大瓶頸，使得模型甚至能在 CPU 上執行，或者至少適配 AMD、Apple 等平臺。

如今資訊密度已經高到 3B 規模的模型就能完成一年前 24B 才能做到的事情，並且速度甚至比部分雲端模型還快。“這是目前少數已知方式中能在本地實現每秒 20+ tokens 且效能接近 Sonnet 3.5、GPT-4 的方案，也可能促使硬體廠商未來在架構上更注重記憶體通道最佳化，而不是試圖去比拼 VRAM。”

網友“randomfoo2 ”則在 vLLM 做了正式釋出並驗證了推理精度之後自己做了評測，得到的結論是“還算可以。”結果顯示，Scout（17A109B）的水平大致可以和 Mistral Small 3.1（24B）和 Gemma 3（27B）相當；Maverick（17A400B）的表現大致相當於 GPT-4o 的水平，略微落後於 DeepSeek-V3（37A671B），但啟用引數量只有後者的一半。

“Llama 4 的架構很複雜，有不少新特性，但如果你要用 40T token 來訓練一個模型，總得經過一系列 sanity check（合理性驗證）吧。所以，我認為底模本身其實是沒問題的（除非是推理實現上還有 bug）。”randomfoo2 還提到，Llama 3 最初的 IT 版本其實也不怎麼樣，直到 3.1 才真正打磨出色。

“我覺得 Llama 4 還是很有潛力的，但我會再等等，不著急去微調或深入研究，因為肯定還會有一堆 bug。說真的，我上週才剛在給 Phi 4 寫訓練器時發現了新 bug。”randomfoo2 說道。”randomfoo2 說道。

網友“dionysio211”則一直在定期檢視 vLLM 和 llama.cpp 的提交記錄，表示他們現在確實還在不斷修復和最佳化中。“我用 LM Studio 的 Scout 版本試了一下，表現還不錯。我在 6800XT 和 7900XT 上用 Vulkan 和 ROCm 大概能跑到 10 tokens/s，社群版本和 Unsloth 的版本表現也差不多。我確實覺得 Scout 應該排名高於 Mistral Small 和 Gemma 3 27B，希望後續釋出能進一步打磨這些版本。”

當地時間 4 月 8 日，獨立分析人工智慧模型和託管提供商 Artificial Analysis 復現了 Meta 聲稱的 MMLU Pro 和 GPQA Diamond 測試集得分，並聲稱，“我們依然認為 Scout 和 Maverick 是非常優秀的開源模型，對開放權重 AI 生態具有重要價值。”

這次所有測試均基於 Hugging Face 釋出的 Llama 4 權重版本，覆蓋多個第三方雲平臺。其評測結果並未使用提供給 LMArena 的實驗版 chat-tuned 模型（Llama-4-Maverick-03-26-Experimental）。做出的改變是接受了 Llama 4 所採用的回答格式 “The best answer is A” 作為有效答案。

AI 研究機構 Epoch 也表示親自評估了 Llama 4，結果顯示：在 GPQA Diamond 測試中，Maverick 和 Scout 的得分分別為 67% 和 52%，與 Meta 報告的 57% 和 69.8% 相近。在 MATH Level 5 測試中，Maverick 和 Scout 的得分分別為 73% 和 62%。結論是：Maverick 與領先的開放式或低成本型號相比具有競爭力，並且均優於 Llama 3。

參考連結：

https://www.theverge.com/meta/645012/meta-llama-4-maverick-benchmarks-gaming

https://x.com/ArtificialAnlys/status/1909624239747182989

https://www.reddit.com/r/LocalLLaMA/comments/1jtzue8/why_we_may_be_wrong_about_llama_4/

https://techstartups.com/2025/01/24/meta-ai-in-panic-mode-as-free-open-source-deepseek-outperforms-at-a-fraction-of-the-cost/

https://www.threads.net/@zuck/post/DIFAsupTS7Z

7500 萬竟滾成 2.5 億巨坑，違約還沒後果！這家“皮包”科技公司把美政府“忽悠”瘸了，延期 2 年還不斷甩鍋！

Meta開源Llama 4，正面迎戰 DeepSeek！經過重新設計，首次採用MoE

DeepSeek打擊面太廣！新論文疑是R2釋出前兆，奧特曼火速“應戰”：o3即將上線，GPT-5免費放送！