Meta推出Llama4系列人工智慧模型擁有1,000萬上下文視窗能力超越GPT-4o

#人工智慧 社交媒體集團 Meta 推出 Llama 4 系列模型,擁有高達 1,000 萬個上下文視窗,能力超過 GPT-4o,程式設計和推理能力與 DeepSeek-V3 相當。此次 Meta 推出兩個權重 Scout 和 Maverick,而旗艦版 Behemoth 還在訓練中,旗艦版使用 288B 個活躍引數,總共則包含 2000B 個引數,值得注意的是 Llama 4 全面轉向 MoE 混合專家架構。檢視全文:https://ourl.co/108648
社交媒體集團 Meta 日前宣佈推出其最新的 Llama 4 系列開放人工智慧模型,這些模型可以透過 Meta 或 HuggingFace 下載,暫時提供的包括 Llama 4 Scout 和 Llama Maverick,Llama 4 Behemoth 還在訓練中。
Llama 4 Scout 號稱能夠在單個 Nvidia H100 GPU 上執行,該模型擁有 1000 萬個 token 上下文視窗,在多種基準測試中表現超過谷歌的 Gemma 3、Gemini 2.0 Flash-Lite 以及開源的 Mistral 3.1

Llama 4 Maverick 的表現則是超過 GPT-4o 和 Gemini 2.0 Flash,程式設計和推理任務的能力則與 DeepSeek-V3 相當,只需要使用不到一半的活動引數 — 是的,Meta 也轉向 MoE 混合專家模式。
Meta 表示 Llama 4 轉向 MoE 混合專家架構,透過這種架構僅使用模型中特定任務所需要的部分來節省資源,Meta 將在 4 月 29 日舉辦的 LlamaCon 會議上討論 AI 模型和產品的未來計劃。
對於旗艦模型 Llama 4 Behemoth 目前還在開發中,該模型擁有 288B 活躍引數,總共則包含 2T 引數(兩萬億),Meta 透露該模型在多個 STEM 基準測試中超越競爭對手的 GPT-4.5 和 Claude Sonnet 3.7。
儘管 Meta 將 Llama 系列模型稱之為開源模型,但需要注意的是 Meta 有自己的許可證,例如對於每月活躍使用者超過 7 億名的商業實體使用該模型前必須向 Meta 申請許可,所以該系列模型最多隻能說是開放模型,而非開源模型。

相關文章