Llama4先後被DeepSeek、英偉達暴擊,Meta不再是大模型開源“霸主”了

整理 I 褚杏娟
當地時間 4 月 8 日,英偉達宣佈推出其最新大語言模型 Llama3.1 Nemotron Ultra 253B。該模型基於 Meta 的 Llama-3.1-405B-Instruct 構建,並利用創新的神經架構搜尋(NAS)技術進行了深度最佳化。其效能超越了最近釋出的 Llama4,如 Behemoth、Maverick,並在 Hugging Face 平臺上開源,引起 AI 社群廣泛關注的同時,也再次“暴擊”了 Meta。

可檢視:https://huggingface.co/nvidia/Llama-3_1-Nemotron-Ultra-253B-v1
Meta 在大模型開源領域一直是作為領頭羊的存在,但上週末釋出的 Llama 4 卻一度讓 Meta 陷入尷尬。
Abacus.AI 執行長 Bindu Reddy 表示,“如果沒有 DeepSeek 和 Qwen,開源就會落後很多。”還有網友評價道,“Meta 頹勢盡顯,從 Llama3.1 起,技術上 insight 就慢慢落後了。回顧往昔,Llama2 還真是最巔峰。”Llama 4 的翻車還引發了大家對 Qwen 3 的期待。
目前,大家對 Llama 4 的批評主要集中在以下三點:
  • 突然釋出,沒有配套工具,哪怕是因為時間緊張,也還是太草率;
  • LM Arena“作弊”事件,最為嚴重,極大損害了公眾的信任;
  • 使用者更加追逐“推理模型”,Llama 4 在推理上介紹較少,整體顯得沒那麼突出。
現在,是否可以真的說 Meta 4 已經“折戟”了?
“作弊”事件引發信任危機
上週末,Meta 釋出了兩個新的 Llama 4 模型:Scout (16 個專家,17B 啟用引數)和 Maverick(128 個專家,17B 啟用引數)。釋出不久後,AI 社群就開始流傳一個傳聞:Meta 有意讓 Llama 4 更擅長跑分測試,並掩蓋其真實限制。
YouTube 博主的實測結果
“作弊”事件的主角是是 Maverick。Meta 宣稱,Maverick 能在“廣泛被引用的基準測試中”擊敗 GPT-4o 和 Gemini 2.0 Flash。Maverick 很快就在 AI 基準測試平臺 LMArena 上奪得了第二名的位置。
LMArena 是一個由使用者對比多個系統輸出並投票評選最佳結果的平臺。Meta 稱 Maverick 的 ELO 分數為 1417,高於 OpenAI 的 4o,僅次於 Gemini 2.5 Pro。(ELO 分數越高,表示模型在對戰中獲勝的頻率越高。)
這一成績讓 Meta 的開源模型 Llama 4 看上去有實力挑戰 OpenAI、Anthropic 和 Google 等公司最先進的閉源模型。然而,多位 AI 研究人員在仔細查閱文件後發現了一些不尋常的地方。在文件的細節部分,Meta 承認:用於 LMArena 測試的 Maverick 並不是公開提供的版本。根據 Meta 自身的資料顯示,他們在 LMArena 上部署的是一個“對話效能最佳化”的實驗性聊天版本的 Maverick。
根據外媒 TechCrunch 的說法,LMArena 從來都不是評估 AI 模型效能最可靠的標準。但過去 AI 公司通常不會專門去定製或微調模型以在 LMArena 上獲得更高分,至少沒人承認這麼做過。
問題在於:如果你為一個基準測試定製了模型,但並不公佈這個定製版本,而是隻釋出一個“原味”版本(vanilla variant),這會讓開發者很難準確預測這個模型在具體應用場景中的真實表現。而且,這種做法也具有誤導性。
理想情況下,儘管現有基準測試本身也有很多缺陷,但它們起碼應該能提供一個關於單個模型在不同任務上的能力概覽。
事實上,已經有研究人員指出,公開發布的 Maverick 模型和 LM Arena 上託管的那個版本行為差異非常明顯。LM Arena 的那個版本經常使用大量表情符號,而且回答特別囉嗦。

LMArena 在 Llama 4 釋出兩天後在 X 發文表示:“Meta 對我們政策的理解與我們對模型提供方的期望不一致。Meta 應該更明確地說明 ‘Llama-4-Maverick-03-26-Experimental’ 是一個為迎合人類偏好而定製的模型。為此,我們正在更新排行榜政策,以加強對公平、可復現評測的承諾,避免未來再次出現類似混淆。”
雖然 Meta 的做法並未明確違反 LMArena 的規則,該平臺仍表達了對“操縱評測系統”的擔憂,並採取措施防止“過擬合”和“基準測試洩漏”。
當公司在排行榜上提交特別調優的模型版本,而向公眾釋出的是另一個版本時,像 LMArena 這樣的排行榜作為現實表現參考的意義就會被削弱。同時,公眾也會對公司後續大模型版本的測評結果保持懷疑。
Meta 發言人 Ashley Gabriel 回應:“我們會嘗試各種定製版本。”她表示,“‘Llama-4-Maverick-03-26-Experimental’ 是我們試驗的一種聊天最佳化版本,在 LMArena 上的表現也很不錯。我們現在已經發布了開源版本,接下來將看看開發者如何根據自身需求定製 Llama 4。”
對此,Meta 生成式 AI 副總裁 Ahmad Al-Dahle 在 X 上發文否認了這些質疑:“我們也聽到了有關我們使用測試集進行訓練的指控——這根本不是事實,我們絕不會這麼做。我們最合理的理解是,大家看到的質量差異是因為目前的實現版本仍需進一步穩定。”
這次事件揭示出,Meta 渴望被視為 AI 領頭羊——即使這意味著需要用“打榜技巧”操作規則,但其確實面臨著研發困境。
“DeepSeek 效應”的後續?

不少人注意到,Llama 4 的釋出時間很奇怪——週六通常不是釋出重大 AI 新聞的時間。有人在 Threads 上問為什麼要在週末釋出,Meta CEO 馬克·扎克伯格回應說:“因為那時它準備好了。”可見,選擇這個時間點發布是扎克伯格同意的。
Llama 是 Meta 最寄予厚望的一款模型,扎克伯格的目標是將其作為全球的行業標準,並在今年實現 10 億的使用者數量。此前,有人猜測 Meta 可能會在 4 月 29 日首次舉辦的 LlamaCon AI 會議推出 Llama 最新模型。
專注於追蹤 AI 模型的 Simon Willison 表示:“這次釋出總體上非常令人困惑。模型評分對我來說毫無價值,因為我甚至無法使用那個得分很高的模型版本。”
Meta 釋出 Llama 4 的過程並不順利。根據 The Information 的報道,由於模型未能達到內部預期,Meta 多次推遲釋出。內部對這個版本預期尤其高,因為 DeepSeek 開源模型對其帶來了很大沖擊。
1 月底時有訊息稱,Meta 的生成式 AI 團隊陷入了恐慌狀態。“一切始於 DeepSeek V3,它讓 Llama 4 在基準測試中落後。”“工程師們正瘋狂地剖析 DeepSeek,複製一切能複製的東西。”

這次釋出中,Meta 特意提到“Maverick 是同類最佳的多模態模型,在編碼、推理、多語言、長上下文和影像基準測試中超越了 GPT-4o 和 Gemini 2.0 等同類模型,並且在編碼和推理方面可與規模大得多的 DeepSeek v3.1 相媲美。”
“總體來說,對 Llama 4 來說是有點失望,唯一的驚喜是 Scout 的 10M 上下文視窗,可以處理巨長文字和大影片。但很可惜的是官方 Release Notes 沒提到支援中文。”有網友說道。
但在第三方的長上下文測評中,Llama 4 表現並不好。對此,CoreViewHQ 聯合創始人兼 CTO Ivan Fioravant 表示,“Llama-4 不可能在 120k 上下文長度下會退化得這麼嚴重。像 Meta 這樣的大型 AI 實驗室怎麼可能在釋出中宣稱支援 10M 上下文視窗,卻在實際使用中表現這麼差?我真心希望是某些地方出了 bug 才導致這種情況。”

網友實測,Llama 4 被低估了嗎?
“dionysio211”認為,在關於 Llama 4 的討論中,很多真正重要的內容都被忽視了。最近釋出的這些模型,其實在大模型設計方面帶來了許多新穎的突破,包括:多模態趨勢、新的推理與非推理邏輯設計、各種型別的 MoE(專家混合)結構等。

這些創新讓普通使用者在“第一印象”上產生了偏差,導致他們誤以為模型退步了,而實際上模型正在快速進化。
以 Gemma 3 為例,它的多模態功能在上線時表現非常糟糕,直到現在在很多本地 LLM 平臺(如 LMStudio、Ollama、KoboldCPP 等)上都還沒有完全最佳化好。這其實很容易理解。要在現有消費級硬體上擠出更多效能、同時儘快將模型推向公眾,涉及到大量變數——其中很重要的一點就是:依賴開源平臺去“預判”或“適配”模型釋出後的變化
“如果每個新模型都沿用同樣的架構,那怎麼會有創新呢?”dionysio211 表示,“現在還沒有任何主流平臺對音訊輸入做出統一標準,那面對即將推出的“omni 模型”又要怎麼支援?我還沒看到有哪個平臺支援 Phi-4 的 omni 版本。”“再比如 Qwen 2.5 VL 已經發布很久了,可至今大部分本地推理平臺還不支援它。”
“從 Mixtral 開始,幾乎每一個有新架構的模型在落地時都會遇到各種卡頓和問題。我們應該習慣這種情況,而不是在模型還沒跑順的時候就輕下結論、否定模型本身的價值。”dionysio211 表示,這都是這個行業發展過程的一部分,我們要做的是等待平臺支援,而不是急著說模型研發團隊“不懂在幹什麼”。
在 dionysio211 看來,Llama 4 這種模型正是本地 LLM 的未來趨勢。它們透過構建高效能的 MoE 架構,繞過了“記憶體傳輸頻寬”這一大瓶頸,使得模型甚至能在 CPU 上執行,或者至少適配 AMD、Apple 等平臺。
如今資訊密度已經高到 3B 規模的模型就能完成一年前 24B 才能做到的事情,並且速度甚至比部分雲端模型還快。“這是目前少數已知方式中能在本地實現每秒 20+ tokens 且效能接近 Sonnet 3.5、GPT-4 的方案,也可能促使硬體廠商未來在架構上更注重記憶體通道最佳化,而不是試圖去比拼 VRAM。”
網友“randomfoo2 ”則在 vLLM 做了正式釋出並驗證了推理精度之後自己做了評測,得到的結論是“還算可以。”結果顯示,Scout(17A109B) 的水平大致可以和 Mistral Small 3.1(24B) 和 Gemma 3(27B) 相當;Maverick(17A400B) 的表現大致相當於 GPT-4o 的水平,略微落後於 DeepSeek-V3(37A671B),但啟用引數量只有後者的一半。
“Llama 4 的架構很複雜,有不少新特性,但如果你要用 40T token 來訓練一個模型,總得經過一系列 sanity check(合理性驗證)吧。所以,我認為底模本身其實是沒問題的(除非是推理實現上還有 bug)。”randomfoo2 還提到,Llama 3 最初的 IT 版本其實也不怎麼樣,直到 3.1 才真正打磨出色。
“我覺得 Llama 4 還是很有潛力的,但我會再等等,不著急去微調或深入研究,因為肯定還會有一堆 bug。說真的,我上週才剛在給 Phi 4 寫訓練器時發現了新 bug。”randomfoo2 說道。”randomfoo2 說道。
網友“dionysio211”則一直在定期檢視 vLLM 和 llama.cpp 的提交記錄,表示他們現在確實還在不斷修復和最佳化中。“我用 LM Studio 的 Scout 版本試了一下,表現還不錯。我在 6800XT 和 7900XT 上用 Vulkan 和 ROCm 大概能跑到 10 tokens/s,社群版本和 Unsloth 的版本表現也差不多。我確實覺得 Scout 應該排名高於 Mistral Small 和 Gemma 3 27B,希望後續釋出能進一步打磨這些版本。”
當地時間 4 月 8 日,獨立分析人工智慧模型和託管提供商 Artificial Analysis 復現了 Meta 聲稱的 MMLU Pro 和 GPQA Diamond 測試集得分,並聲稱,“我們依然認為 Scout 和 Maverick 是非常優秀的開源模型,對開放權重 AI 生態具有重要價值。”
這次所有測試均基於 Hugging Face 釋出的 Llama 4 權重版本,覆蓋多個第三方雲平臺。其評測結果並未使用提供給 LMArena 的實驗版 chat-tuned 模型(Llama-4-Maverick-03-26-Experimental)。做出的改變是接受了 Llama 4 所採用的回答格式 “The best answer is A” 作為有效答案。
AI 研究機構 Epoch 也表示親自評估了 Llama 4,結果顯示:在 GPQA Diamond 測試中,Maverick 和 Scout 的得分分別為 67% 和 52%,與 Meta 報告的 57% 和 69.8% 相近。在 MATH Level 5 測試中,Maverick 和 Scout 的得分分別為 73% 和 62%。結論是:Maverick 與領先的開放式或低成本型號相比具有競爭力,並且均優於 Llama 3。
參考連結:
https://www.theverge.com/meta/645012/meta-llama-4-maverick-benchmarks-gaming
https://x.com/ArtificialAnlys/status/1909624239747182989
https://www.reddit.com/r/LocalLLaMA/comments/1jtzue8/why_we_may_be_wrong_about_llama_4/
https://techstartups.com/2025/01/24/meta-ai-in-panic-mode-as-free-open-source-deepseek-outperforms-at-a-fraction-of-the-cost/
https://www.threads.net/@zuck/post/DIFAsupTS7Z
今日好文推薦
GPU 程式設計“改朝換代”:英偉達終為 CUDA 新增原生 Python 支援,百萬使用者變千萬?
7500 萬竟滾成 2.5 億巨坑,違約還沒後果!這家“皮包”科技公司把美政府“忽悠”瘸了,延期 2 年還不斷甩鍋!
Meta開源Llama 4,正面迎戰 DeepSeek!經過重新設計,首次採用MoE
DeepSeek打擊面太廣!新論文疑是R2釋出前兆,奧特曼火速“應戰”:o3即將上線,GPT-5免費放送!

相關文章