Llama4大戰DeepSeekV3,全錯翻車,我人都傻了

大家假期休息了嗎, 反正小扎的 Meta 是沒有閒著。
週六(4 月 5 日)釋出了"羊駝"家族的全新版本 Llama 4 Scout 和 Llama 4 Maverick,以及兩款未來會發布的 Llama 4 Reasoning 和 Llama 4 Behemoth 模型。

這裡快速給大家介紹一下 Llama4 的特點。 按照 Meta 的官方新聞稿, Llama4 是其迄今為止最先進、功能最強大的多模態 AI 模型
Llama 4 Scout:
  • 規模與架構: 170 億活躍引數,16 個專家(MoE 架構),總引數 1090 億。可在單張 NVIDIA H100 GPU 上執行(Int4 量化)。
  • 效能: 同級別中最佳的多模態模型,優於所有前代 Llama 模型,以及 Gemma 3, Gemini 2.0 Flash-Lite, Mistral 3.1。
  • 特點: 擁有行業領先的 1000 萬 token 上下文視窗,擅長長文字處理、多文件摘要、影像定位(grounding)等。

Llama 4 Maverick:
  • 規模與架構: 170 億活躍引數,128 個專家(MoE 架構),總引數 4000 億。可在單臺 NVIDIA H100 主機上執行。
  • 效能: 同級別中最佳的多模態模型,在廣泛基準上擊敗 GPT-4o 和 Gemini 2.0 Flash。在推理和編碼方面與引數量大一倍多的 DeepSeek v3 相當。
  • 特點: 具有出色的效能成本比,特別適合作為通用助手和聊天應用,擅長精確影像理解和創意寫作。

Llama 4 Behemoth(尚未釋出)
  • 規模與架構: 2880 億活躍引數,16 個專家(MoE 架構),總引數近 2 萬億。
  • 定位: Meta 最強大的模型之一,目前仍在訓練中,暫不釋出。作為 Scout 和 Maverick 的 "教師模型" 進行知識蒸餾。
  • 效能: 在多個 STEM 基準(如 MATH-500, GPQA Diamond)上優於 GPT-4.5, Claude Sonnet 3.7, Gemini 2.0 Pro。

小扎對自己的新模型表現的很激動,專門錄製了影片進行介紹並分享了公司的人工智慧願景:
“我們的目標是打造全球領先的人工智慧,開源它,並使其普遍可用……我一直以來都說,開源人工智慧將引領未來,而隨著 Llama 4 的推出,我們正開始看到這一點的實現。”

在大模型領域,自吹自擂是沒用的,大家都說好,那才是真的好。這不,目前已經有熱心的第三方進行了測評,這個結果我不什麼也不說,大家看截圖:

Llama 4 Maverick 在 Aider 的變成測試中的得分要遠低於 DeepSeek V3-0324。

上面的兩個實際程式設計例子也是差的一塌糊塗。

在 Llama 4 這次引以為傲長上下文中也表現平平,接近於墊底。
小編我也是經歷過很多模型釋出後實測效果與官方公佈效果不符的情況。但說實話,這種一邊倒的情況還是第一次碰到,甚至讓我一度懷疑自己是不是進入到了資訊繭房之中。
你以為這就完了? 還有說法是 Llama4 針對測評“最佳化”了特殊版本。

這種針對測評進行最佳化,就相當於考試出原題,不能說是作弊吧,但也在一定程度上讓人對 Llama4 的技術指標產生懷疑。
本著實事求是的原則,模型效果咋樣,試試一切就清楚了,所以我們對 Llama 4 進行了史無前例的測試,可以說是鞭屍現場。(以下請慎看)
說明:   Llama 4 官方的使用渠道是 Meta.ai, 但不知道出於什麼原因,該網站我用任何技術手段都沒辦法訪問。
所以我們使用的是基於 Openrouter 的第三方平臺提供的模型,並用 Cherry Studio 作為前端。
為了最直觀的比較模型效果,我們這次測試題目直接複用上一期測評的題目。

Round 1:跑酷遊戲

提示詞:
Make me a captivating endless runner game. Key instructions on the screen. p5js scene, no HTML. I like pixelated dinosaurs and interesting backgrounds.
中文提示詞:
為我製作一個引人入勝的無限跑酷遊戲。螢幕上顯示關鍵操作說明。使用 p5js 場景,無需 HTML。我喜歡畫素化的恐龍和有趣的背景。
先看 Llama 4 Scout:
這是 Lllama 4 Maverick:
Scout 和 Maverick 的結果都不盡人意, 這倆兄弟做出來的都不是一個可以玩的遊戲,不知道是 bug 還是沒有理解我的意思,它們的問題都是障礙物沒有碰撞的判定。
作為對比,我們看下 DeepSeek V3-0324 的結果:
這個遊戲不但可玩,沒有碰到 bug,而且是還是一次就成功結果,高下立判!

Round 2: 小球彈跳

這個測試專案已經不是什麼新鮮專案了,看看 Llama4 能否秒殺。
提示詞如下:
Create an effect using p5.js (no HTML needed) where 10 colorful balls bounce inside a rotating hexagon, taking into account gravity, elasticity, friction, and collisions.
使用 p5.js(無需 HTML)建立 10 個彩色球在旋轉六邊形內彈跳的效果,考慮重力,彈性,摩擦和碰撞。
先看 Llama 4 Scout:
整了個大無語,我就不說什麼了!!
再看 Llama 4 Maverick:
看看 DeepSeek V3-0324:
DeepSeek V3-0324 也無法一次過,只能說它們在這個專案打了個平手。

Round  3: 飛行模擬遊戲

提示詞如下:
In pure three.js, without downloading any assets or textures, create a flight simulator game where i can fly an airplane. Make sure it runs in the browser
先看 Llama 4 Scout 的程式碼:
為什麼展示程式碼,不展示執行結果? 因為,這程式碼執行結果就是黑屏!

這是 Llama 4 Maverick 的:
還是無法執行!!!
這是 DeepSeek V3-0324:
DeepSeek V3 的結果不完美,但至少是一個能執行的版本,而且完成度還挺高,基本操作都沒有問題。
測到這裡,我有點心慌,怕你們說我是故意黑 Llama 4。 但真的,Meta.ai 的用不上,Openrouter 上的就是這個效果。

Round 4: 生成 Mandelbrot set 集

提示詞如下:
p5js to explore a Mandelbrot set.
用 p5js 生成 Mandelbrot set.
這一輪我已經放棄了 Scout, 直接看 Llama 4 Maverick 的:
DeepSeek V3-0324 的效果——
不出所料,Llama 4 又是被遠遠甩開。

Round 5:  長文字輸出能力

提示詞如下:
英文:Write a 10,000-word technological business war novel featuring Elon Musk and Sam Altman as the protagonists, focusing on their love, hatred, and complex relationship. The story should be delivered in full in one go.
中文:以馬斯克和山姆奧特曼為主人公,寫一篇有關他們愛恨情仇的科技商戰小說。 要求:10000 字, 一次性輸出完整內容。
Llama 4 Maverick 的輸出結果:

DeepSeek V3-0324 輸出——

Llama 4 Maverick 的輸出字數真的是差的有點遠,內容上看也不像是個小說。
同樣的題目用英文也測了,效果也是不行。
DeepSeek V3-0324 試了好幾次,雖然總是在 6K、7K 字附近徘徊,篇幅上無法遵循指令,但相比之下,也要遠遠好於 Llama 4。

Round 6:  智力推理題

提示詞:
一樓到十樓的每層電梯門口都放著一顆鑽石,鑽石大小不一。你乘坐電梯從一樓到十樓,每層樓電梯門都會開啟一次,只能拿一次鑽石。問怎麼才能拿到最大的一顆?
這是一個典型的“最優停止問題”(Optimal Stopping Problem),類似於“秘書問題”或“相親問題”。在這類問題中,我們需要在有限的選擇中,找到一個停止規則,以最大化選擇最優選項的機率。
正確答案:
  1. 前 3 層不拿:即在一樓、二樓、三樓時,只觀察鑽石的大小,記錄下這三層中最大的鑽石大小,但不拿取。
  2. 從第四層開始:在四樓到十樓,一旦遇到比前三層中最大的鑽石還要大的鑽石,就立即拿取。
  3. 如果在第四層到第十層都沒有遇到比前三層最大的還要大的鑽石,那麼必須在第十層拿取(但此時無法拿到最大的鑽石)。
    這種策略能夠使你拿到最大鑽石的機率最大,約為 39.87%。
先看 Llama 4 Maverick 的回答:

甚至在我明確要求給出計算過程的情況下,依舊出錯。

再看 DeepSeek V3-0324:

這個結果不用說了, Llama 4 Maverick 依舊失敗。

Round 7: 簡單推理題

到這裡,我已經不想用太難的題目去要求 Llama 4 了, 最後用最經典的草莓題目吧。
How many r's in the word "Strawberry"?
"Strawberry" 中有幾個字母'r'?
Llama 4 的表現如下:

這個情況過於離譜,嚇得我趕緊又重開對話試了幾次:
一共又問了 4 次,前兩次回答正確,後兩次又錯了。
這個模型的精神狀態也太不穩定了。
DeepSeek V3-0324 的結果:
為了防止偶然性,我也多測了幾次。 DeepSeek V3-0324 三次都答對了,而且每次都給出了特別詳細的計算步驟。

總結

這個測試下來,最大的感受就是:失望
這個“失望”主要來自於它與當前主流模型的差距過大,好多 DeepSeek V3-0324 能一遍過的題目,Llama 4 卻無法完成。 而偏偏 Llama 4 又出身“豪門”, 這種反差更加放大了失望感。
從我們的測評結果,以及網友們的測評結果來看,Llama 4 都表現出一種半成品的感覺。加上“特供版”模型參加測評的風波,這次 Llama 4 上線各方面都給人一種沒有準備好就強推的狀態。

甚至將模型的釋出時間,從週一(4 月 7 日)提到了週六(4 月 5 日)
Meta 到底在急什麼?
Meta 似乎正感受到前所未有的緊迫感。距離 Llama 3 釋出已有將近一年的時間,AI 江湖風雲變幻,DeepSeek、Qwen 等新秀嶄露頭角,Anthropic、Gemini 也在不斷精進。這讓 Meta 的 AI 地位受到挑戰,有滑落至“第二梯隊”的風險。
這種局面下,扎克伯格急需一款“爆款”模型來扭轉視線。考慮到 Qwen3、DeepSeek R2 等強敵可能即將登場,Meta 選擇此時(或許是提前)推出新版本,哪怕它並非最終的完美形態,也是一種搶佔先機、博取眼球的策略。
畢竟,Llama 4 的“大招”——傳聞中的兩萬億引數 Behemoth 和 Llama 4 Reasoning 模型仍在路上。時間緊迫,最終 Meta 能否拿出符合外界高期待的 Llama 4 完全體,我們將拭目以待。

相關文章