開源首秀就放大招！MiniMax重磅更新兩款大模型，業內首次大規模實現線性注意力機制

作者 | 凌敏

最近一段時間，中國大模型頻頻“刷屏”。

前腳，DeepSeek V3 用 557.6 萬美元的訓練成本給海外大模型上了一課，後腳，MiniMax 就用兩個開源大模型拿下“鐵王座”。

就在 MiniMax 宣佈開源的前幾日，黃仁勳在 CES 2025 上構造了一個 Agent 藍圖。可以說，Agent 作為大模型落地最有價值的路徑，其潛力已經得到了全世界範圍的廣泛認可。

而中國大模型的頻頻“刷屏”，也將為 Agent 的落地和爆發提供更多可能性。

1 MiniMax：新晉的全球頂級開源模型

近日，MiniMax 宣佈開源兩款模型：基礎語言大模型 MiniMax-Text-01 和視覺多模態大模型 MiniMax-VL-01。

這是 MiniMax 的開源首秀，一齣手，就是兩個“王炸”：MiniMax-Text-01 在 4560 億引數的規模上實現了線性注意力創新架構，單次啟用引數 459 億；MiniMax-VL-01 在 MiniMax-Text-01 的基礎上，使用了 5120 億個視覺 – 語言 token 進行持續訓練。

在與 GPT-4o、Claude-3.5-Sonnet 等海外頂尖模型的基準效能測試對比中，MiniMax 的這兩款模型在多個核心任務中表現毫不遜色，甚至在某些任務上更勝一籌。

在 MMLU（一般知識測試）、IFEval（指令遵循）和 Arena-Hard（困難問題解答）任務型別中，MiniMax-Text-01 與其他頂尖模型不相上下；在 C-SimpleQA（簡單問答）測試中，MiniMax-Text-01 更是超越了所有模型實現領跑。

在綜合性能比肩海外頂尖模型的基礎上，MiniMax-Text-01 在長文字上帶來了更大的驚喜。

在長文任務的測試對比中，與包括長文最佳模型谷歌的 Gemini 在內的多款海外頂尖模型相比，隨著上下文長度的增加，MiniMax-Text-01 的效能下降幅度最小。（詳見上圖右側）

更“卷”的是，MiniMax-Text-01 支援最多 400 萬個 token 的上下文輸入。而谷歌的 Gemini 只提供處理 200 萬 token 上下文的能力，其他大多數模型的上下文處理能力通常在十幾萬個 token 左右。這也意味著，MiniMax-Text-01 的上下文處理能力至少是大多數模型的 20 倍。

對於大模型而言，上下文是其理解及輸出的關鍵。上下文越長，模型能夠處理和理解的任務越長，同時，長上下文也能幫助模型解決複雜的多步驟問題（比如數學證明等複雜的推理任務），並提高生成內容的連貫性。此外，更長的上下文視窗也能減少資訊丟失，提高生成資訊的準確率。

這也是為什麼 MiniMax 的 400 萬 token 上下文視窗，讓人十分驚喜——以 20 萬 token 的上下文視窗可以一次性處理大約 35 萬個漢字計算，400 萬 token 上下文視窗可以處理 700 萬個漢字。

700 萬字是什麼概念？7 部《哈利·波特》小說總字數是 108 萬字， 700 萬相當於 40 多部《哈利·波特》。

在追求卓越的效能的同時，大型模型的開發同樣需要兼顧成本和資源消耗，這也是實現模型廣泛應用和可持續發展的關鍵因素。

為了更好地平衡訓練資源、推理資源和最終模型效能，MiniMax-Text-01 透過架構設計和最佳化，僅需 8 個 GPU 單卡、640GB 記憶體，便能在 FP8（8 位浮點數）精度下輕鬆處理長達 100 萬個 token 的序列（將模型的總引數量限制在 5000 億以內，確保在 8×80G 的配置下，使用 8 位量化技術時，能夠對長達 100 萬個 token 的序列進行單節點推理）。

而面對同樣的推理任務，其他大模型可能需要配置 16 路 NVIDIA H100，視訊記憶體 80GB。

這也使得 MiniMax-Text-01 在保持高效能的同時，實現了對資源的高效利用，大幅降低部署與執行的成本。

如果說這些只是 MiniMax 本次更新所呈現的開胃小菜，那麼模型架構的革新無疑是這場盛宴中的主角 —— MiniMax 在模型中實現了新的線性注意力機制 Lightning Attention，這也是業內首次進行如此大規模的線性注意力模型開發。

2 要第一個吃螃蟹：Transformer Is Not Enough？

在架構層面，MiniMax 做出了一個大膽的創新：採用 MoE 方法，並儘可能使用新的線性注意力 Lightning Attention 代替標準 Transformer 中使用的傳統 Softmax Attention。

MiniMax-Text-01 模型架構

在注意力層設計上，MiniMax 在每 7 層 Lightning Attention 層後放置 1 層 Softmax Attention 層，總共 80 層。每個注意力模組由 64 個頭組成，每個頭的維度為 128。

這種設計巧妙地結合了兩種注意力機制的優勢，Lightning Attention 層可以減少計算複雜度，大大提高了模型處理長序列的能力，而 Softmax Attention 層則在關鍵節點上發揮作用，確保模型能夠準確捕捉到重要的資訊。兩種注意力機制互相配合，使得 MiniMax 在處理長序列資料時，既保持了高效的計算速度，又確保了結果的準確性與可靠性。

這些創新，源於解決經典 Transformer 架構的固有問題——二次計算複雜性，即隨著輸入序列長度的增加，計算需求的增長速度遠遠超過硬體能力所能匹配的速度。

這也意味著，在基於 Transformer 的架構中，大模型的上下文視窗難以進一步擴充套件。

為此，研究人員曾提出各種方法來降低注意力機制的計算複雜性：稀疏注意力、長卷積、狀態空間模型（Mamba 系列）以及線性 RNNs。儘管在理論上取得了突破，但這些創新在商業規模模型的實際應用中仍面臨諸多挑戰。

2019 年，Katharopoulos 等人提出線性注意力，隨後，谷歌的 Performer、Facebook 的 Linformer 等進一步推動了線性注意力的發展。基於線性注意力機制，並透過引入區域性敏感雜湊 (Locality Sensitive Hashing,LSH) 演算法，2023 年 7 月，OpenNLPLab 提出了新一代注意力機制 Lightning Attention，實現了對輸入序列的高效編碼和索引。在注意力計算過程中，能夠將相似度高的序列進行分組，從而避免了傳統注意力機制中對於每個序列都需要進行全域性計算的問題。這種區域性化的計算方式不僅降低了算力開銷，還提高了建模精度。

此外，Lightning Attention 還具有無限序列長度的特點，它可以處理任意長度的輸入序列，而不會受到傳統注意力機制中固定長度限制的影響。這也意味著，Lightning Attention 在處理長文字等複雜資料時具備明顯優勢。

但在此之前，還未有任何一家大模型公司像 MiniMax 一樣，進行過如此大規模的線性注意力模型開發。

背後的一個關鍵原因在於，當前的分散式訓練和推理框架大多針對 Softmax Attention 進行了最佳化。而引入線性注意力機制，則意味著訓練和推理系統需要重新設計。

為了將線性注意力機制擴充套件到商用模型級別，MiniMax 幾乎對訓練和推理系統進行了全面的重構。

一方面，MiniMax 使用專家並行（EP）和專家張量並行（ETP）實現了 MoE 中的 All-to-all 通訊，使框架能夠支援訓練和推理具有數千億引數的模型，並且能夠處理擴充套件至數百萬 token 的上下文視窗，同時儘可能降低 GPU 間通訊所帶來的開銷。

另一方面，為了促進上下文視窗的無限擴充套件，MiniMax 設計了變長環形注意力以減少計算中的冗餘，並改進了線性注意力序列並行性（LASP）的版本，以充分利用裝置的並行能力。此外，MiniMax 還為 Lightning Attention 推理實現了一套全面的 CUDA 核心，實現了在 Nvidia H20 上超過 75% 的模型浮點運算利用率（MFU）。

在架構設計和計算最佳化的基礎上，MiniMax-Text-01 的預訓練過程從策劃一個多樣化和高質量的語料庫開始，這個過程包括了嚴格的資料清洗、基於獎勵的質量提升以及更好的資料混合平衡，並透過系統的重複感知測試進行了驗證。為了充分利用架構的長上下文處理能力，MiniMax 對超引數進行了深入的分析，並提出了一個三階段的訓練過程，成功地將上下文視窗擴充套件到了一百萬個 token。在對齊階段，MiniMax 透過精確調整的獎勵維度和多階段訓練方法，特別是在處理長上下文和真實世界場景方面，有效地激勵了模型的各種能力。

隨後，MiniMax 透過整合一個輕量級的視覺 Transformer（ViT）模組，增強了語言模型的視覺能力，從而建立了視覺 – 語言模型 MiniMax-VL-01。

學術基準測試之外，為了進一步測試兩個模型在實際使用者體驗中的表現，MiniMax 構建了一個基於真實資料的助手場景應用測試集，兩個模型的表現依舊亮眼：

雖然 MiniMax-Text-01 和 MiniMax-VL-01 在絕大多數語言和視覺語言任務中表現出色，但在複雜程式設計任務方面，仍存在一定的侷限性。

這主要是由於，預訓練階段編碼的資料集數量並不多，MiniMax 未來會改進訓練資料的選擇，並完善繼續訓練程式，以提高下一個模型版本中的程式設計能力。

3 越來越卷的大模型上下文視窗，將加速 Agent 應用爆發

架構上的大膽創新讓 MiniMax 成功躋身大模型效能第一梯隊，也讓其在長上下文處理能力上傲視群雄。

有心的人或許已經注意到，過去一年，大模型都不約而同地捲起了上下文視窗。

但圍繞大模型上下文視窗的競賽，並不是為了爭奪“世界最長”，而是在追求更長上下文的同時，還能確保低延遲和高準確率，這對於模型在實際業務中的應用至關重要。 更進一步而言，將長度與效能同時捲起來的上下文視窗，也能加速 Agent 應用落地——能同時處理更多的資訊，也能提供更準確和連貫的輸出。

在長文字的效能測評中，MiniMax 優勢顯著。

在 64k 輸入級別的效能上，MiniMax-Text-01 與 GPT-4o、Claude-3.5-Sonnet 等頂尖模型對比不相上下，但從 128k 開始，MiniMax-Text-01 確立了明顯優勢，並且超越了所有基準模型。

此外，MiniMax-Text-01 在 LongBench-V2 的長上下文推理任務中也表現出色，且無論是否有 CoT（Chain of Thought，思維鏈）推理的支援，MiniMax-Text-01 都能在處理長上下文理解任務時表現出的卓越的魯棒性和穩定性。

這也歸功於 MiniMax 半 RoPE（Rotary Positional Embedding，旋轉位置嵌入）的混合架構以及為預訓練和對齊精心調整的訓練方案。這些創新的設計和訓練策略增強了模型有效處理長序列的能力，使其能夠在長上下文推理任務中保持高效和準確的效能。

在實際應用中，長上下文視窗能讓大模型應對更復雜的任務。

比如，MiniMax-Text-01 可以從長上下文中學習一種“新”語言。

也可以在讀完對話記錄之後，提取資訊安排日程表。

對於總結長篇論文這類任務更是不在話下。當用戶上傳一個 PDF 格式的長篇論文並指示新增論文中的圖表時，MiniMax 基於自研的多模態大語言模型打造的 AI 夥伴“海螺 AI”能夠總結或分析給定的長篇文字，並以引用的關鍵圖表作為回應。

而這，也是智慧客服、虛擬助手、內容創作、教育輔導等 Agent 所需要的。上下文視窗越長，Agent 越能充分理解使用者的需求，處理使用者的長對話歷史，從而提供更加準確、個性化和連貫的服務。

這次開源，或許可以啟發更多關於長上下文推理的研究，從而加速 Agent 時代的到來。

MiniMax 也計劃在更現實的設定中增強長上下文檢索，並在更廣泛的任務中擴充套件長上下文推理的評估。而在計算效率方面，MiniMax 也希望將線性架構推向極致，希望能夠完全棄用 Softmax Attention，實現無計算開銷的無限上下文視窗。

在 MiniMax 身上有種務實的氣質，他們所關注的效能指標都是為了實現大規模應用，而非追求表面的噱頭。此次開源，公司也向全世界展現出了中國 AI 企業的創新精神和技術實力。從一年前採用 MoE 架構，到此次實現業內首個大規模線性注意力架構，延續了其一貫的創新精神，從一定程度上甚至可以說是“意料之中”。

GitHub 連結：https://github.com/MiniMax-AI

技術論文：https://arxiv.org/abs/2501.08313

今日好文推薦

大模型經驗為零？他們卻在 12 個月內搞出了 AI 智慧體程式設計神器！

“要點臉吧！”大模型巨頭“吸血”網站資源無底線，開發者怒訴：“這簡直在摧毀整個網際網路”

大廠新年第一裁，微軟全部門危！內部員工：客戶寧願跳槽也不想與我們 IT 部門打交道

薪資天花板語言 Zig 出神作！HashiCorp 大神新作刷屏程式設計圈，Redis 之父直呼真香！

會議推薦

在 AI 大模型技術如洶湧浪潮席捲軟體開發領域的當下，變革與機遇交織，挑戰與突破共生。2025 年 4 月 10 – 12 日，QCon 全球軟體開發大會將在北京召開，以 “智慧融合，引領未來” 為年度主題，匯聚各領域的技術先行者以及創新實踐者，為行業發展撥雲見日。「更智慧的企業 AI 搜尋實踐」、「反捲 “大” 模型」、「多模態大模型及應用」等熱點專題，直擊行業痛點，解鎖可複製的經驗與模式。現在報名可以享受 8 折優惠，單張門票立省 1360 元，詳情可聯絡票務經理 18514549229 諮詢。