Llama4最全實測,股市還給我跌麻了….

這個週末發生了好多大事兒啊!
在 AI 圈,扎克伯格被 DeepSeek 深深影響後,也是借鑑了 DeepSeek-V3 混合專家架構(MOE)推出三個版本的 Llama4。

Meta 算是開源大模型界的鼻祖了,第一時間,我就對 Llama 4 的效果進行了實測,至於效果嘛……,emmmmm,見下文。
此外,老美的這波無差別 AOE 攻擊,太猛了,目前全球股市大崩盤:

兄弟們姐妹們,你準備好抄底了嗎?
此外,許多產業鏈也大大受損,蘋果手機可能也迎來大漲價:

一、Llama4

大家也沒有料到,Meta 在一個毫無預警的週末,直接掏出了 Llama 4 系列模型!很多人都在問:為啥選在週末放?
看來小扎也是等不及了。

相比於之前的模型,Llama 4 系列模型是混合專家架構 (MoE) 的多模態模型,能夠支援文字和多模態體驗(輸入支援文字和圖片,但是輸出結果尚未支援圖片)。
簡單看看引數:
  • Llama 4 Scout,啟用17B,16個專家,109B引數;
  • Llama 4 Maverick,啟用17B,128個專家,402B引數;
  • Llama 4 Behemoth,啟用288B,16個專家,2T引數。
其中Scout和Maverick已經在Meta官網和Hugging Face開源
Meta
https://ai.meta.com/blog/llama-4-multimodal-intelligence/
Hugging Face
https://huggingface.co/meta-llama
Behemoth 還在持續訓練中,尚未釋出。

小扎還親自透露,Reasoning模型也會即將上線。
從官網獲取到的資訊,我認為這次Llama4系列,比較重要的幾點包括:
Scout小而精:
  • Scout模型支援10M上下文文字框
  • 由於MOE架構,Scout模型(4bit量化)可以在單卡GPU上跑

也有網友說到,為什麼還用RAG呢?

Maverick卓越效能:
  • 在編碼、推理、多語言、長上下文和影像基準測試中,Llama 4 Maverick 優於 GPT-4o 和 Gemini 2.0 等同類模型,並且在推理和編碼方面與規模更大的 DeepSeek v3.1 相當。

Behemoth強大的教師模型:
  • 擁有 2880 億個啟用引數 和近 兩萬億總引數
  • 在數學、多語言和影像基準測試中表現出頂尖的效能。
  • Llama 4 Maverick 透過與 Llama 4 Behemoth 進行共同蒸餾 (codistillation)

說了這麼多,都是官方資訊
直接上結論。我用下來的實際體驗實在是一般…
Google Deepmind的Susan Zhang在推特上質疑,為啥Llama4在Imsys上得分這麼高。

也有網友爆料稱自己已向Meta GenAI部門提交提交辭職,並要求不要署名在Llama 4的技術報告上。

實測:官方很燃,實際嘛……

OpenRouter上已經有免費部署好的版本,我也會採用裡面的兩個Llama4模型進行實測。
除了中文通用知識測試,其他都採用英文。
1. 中文通用知識一般般
弱智吧
直接上強度
提示詞:被門夾過的核桃還能補腦嗎?
Llama4:

DeepSeek-V3:

Llama4:一本正經地講營養學……
DeepSeek-V3:邏輯清晰,還有點梗味
寫詩
提示詞:用李白的詩歌口吻,幫我寫一首讚頌Meta的詩歌
Llama4:

DeepSeek-v3

算命
提示詞:你現在是一位經驗豐富的算命師傅。我的生日是2000年一月一號,幫我算一下今年2025年的運勢怎麼樣?
Llama4:

DeepSeek-V3:

從上面的結果大家應該可以清晰的看出來,對於中文的通用知識理解和使用,還得是我們的國產DeepSeek-V3更勝一籌!
無論是算命還是寫詩,還是弱智吧,DeepSeek的回答都還是更有理有據一些,也比較的豐富。
2. 數學還可以
9.11和9.9誰大

數r測試

老生常談的數r問題怎麼都沒有解決。這個數學能力實在是一般啊,要不是9.11和9.9這個問題解決了,不然我真得給一個差評了。
3. 程式碼好像有點菜
程式碼能力,有點一塌糊塗。
Aider Leaderboard 的評測出來了,就,llama-4 打不過 qwen-coder-32B. 要知道 qwen2.5-coder-32B 是去年11月出的….

也有網友迅速做了一個小球測試,是根本沒眼看啊

建議:暫時別拿它寫程式碼。真的。
4. 多模態理解
稍微複雜一點的影像,好像處理起來有點費勁啊
圖片:

提示詞:How many tennis courts are there in the picture?
Llama4:

GPT-4o:

5. 長文字好像也無了
以為 llama-4 雖然寫程式碼不行,但是1M-10M的超長上下文還能幹點別的。
結果今天 Fiction.LiveBench 結果放出了。llama-4 在 1K 上下文召回(近似, 實際上這個分數是問題回答的正確率)就掉到60%以下了,甚至 llama-4-scout 超過16K只有22%。
稍微感受一下這是什麼概念——《哈利·波特與魔法石》正好也就 16K token 左右。你把整本書餵給 llama-4-scout,然後問一句“哈利小時候住哪來著,是臥室還是樓梯下面的小儲物間?”模型只有大約 22% 的機率能答對。不能說完全靠運氣,但多少有點擲骰子看命的味道了。
總之,這個分數遠低於頭部的平均水平….

總得看下來,Scout和Maverick好像實在是有點一般。小扎看到不知道會怎麼想。
也有網友做出梗圖,Llama4好像有點弱不經風啊。

二、關稅

這次老美無差別的 AOE 攻擊,真是引起了軒然大波,導致全球股市暴跌。

前段時間,庫克來中國,跟各大 up 主聯動,可謂是排期滿滿。

大家也很歡樂地玩起了梗,最出圈的應該是這個“偶遇”的握手:

不過這次的宣傳收益,可能要受關稅影響,打折扣了。
在全球貿易環境持續變化下,蘋果正面臨新一輪關稅壓力,可能影響 iPhone 定價。彭博社記者 Mark Gurman 指出,蘋果或透過多種方式延後漲價:
  • 與供應商協商降低成本,部分吸收關稅帶來的成本;
  • 加速將生產轉移至印度、越南等地,最佳化供應鏈以規避關稅;
  • 與各國政府談判,爭取關稅豁免或更優惠政策;
  • 面向消費者推出以舊換新、分期付款或硬體訂閱服務等方案。
自 2017 年起,蘋果旗艦機型起售價一直為 999 美元。儘管蘋果謹慎應對,但 Gurman 指出漲價或將在今年新款 iPhone 上體現。
有機構預測,若蘋果將關稅成本完全轉嫁,iPhone 16 起售價或達 1,142 美元,Pro Max 頂配版漲至 2,300 美元。受漲價預期影響,部分美國 Apple Store 已出現「恐慌性購買」現象。
今天上午A股也是重挫,1000多支股票跌停。
不過和 2018 年不一樣的是,這次咱們應該是“早有準備”。
好了,本期文章的內容就是這麼多,如果你覺得還不錯的話,記得點贊收藏嘍,我是 Jack,我們下期再見!

·················END·················


相關文章