長文字“新王”誕生!400萬字輸入,MiniMax首次開源即王炸

萬萬沒想到,2025 開年驚喜是 MiniMax 給的,就是海螺 AI 背後的中國大模型 AI 創業公司。
昨天刷資訊流的時候,發現他們剛釋出了兩個新模型,一個是文字模型 MiniMax-Text-01,另一個是多模態模型 MiniMax-VL-01。統稱為“MiniMax-01”模型。
今早我刷了下 X,發現 MiniMax-01 也被海外網友刷屏了。
有網友提到這是繼 Deepseek 之後的另一家來自中國的「OpenAI 級」頂尖開源模型。
也有網友重點強調這是工業界首個基於 Lightning Attention 的基礎模型,4M Tokens 上下文令人難以置信。
我原以為大模型就快要卷不動了——GPT-5 難產,Claude-4 沒動靜,Gemini2.0 跑去卷即時多模態了。
結果沒想到,竟然蹲來了 MiniMax 釋出的 400 萬字上下文的新模型
而且要我說,MiniMax-01 絕對是長文字處理的新王
看這一張在 X 上被大家刷屏的圖就知道了——
新模型 MiniMax-Text-01 不僅在主流 benchmark 上追平了 GPT-4o 和 Claude-3.5,而且與前陣子大火的 Gemini-2.0 和 Deepseek-V3 相比都不相上下
但這還沒完——
注意看第一張右邊的圖,從 256K 開始往後更長的輸入,MiniMax-Text-01 的平均表現超越了國外商用旗艦模型 Gemini-1.5-Pro 和 Claude-3.5-Sonnet。
在 512k 長度的時候,谷歌最新的 Gemini-2.0-Flash 直接被 MiniMax-Text-01 給“按到地板”上了。
要知道,在長文字處理(上下文長度)問題上,Gemini 可是此前的絕對王者。
難道,Gemini 的不敗神話終於要被 MiniMax 打破了?
我準備拿昨天剛在 arXiv 上更新的 10 篇 AI 論文,丟給 MiniMax-01 測測其實際表現。
開啟 hailuoai.com,就能看到這個新模型已經上線了,可以直接用。
注意,昨天 arXiv 上剛更新的這 10 篇論文中,還包括了 MiniMax-01 這篇長達 68 頁的論文 hh。每篇論文的篇幅不一,但整體上加起來,少說也有好幾百 K 的 tokens 了。
我直接把它丟給 MiniMax-01——
總結論文這種問題就不問了,過於簡單。
我選擇直接問它“每篇論文都用了什麼資料集”。這個資訊不僅很細節,而且一般出現在論文的後半部分,甚至散落在不同的論文章節。
回答精簡有效,再追問它每一個數據集規模多大,可以說關鍵細節是很到位的,還給出了“108 名護理院人員(437 名女性,80 名男性)”的細節。
根據技術人的直覺,這背後一定有不小的技術突破。
翻了它的技術報告,我注意到了這麼一張圖——
此前的模型延遲,隨著上下文長度的增加,增長都是指數型的,包括 GPT-4o、Claude-3.5-Sonnet、Deepseek v3 等,但唯獨這次 MiniMax 釋出的新模型,竟然是近乎線性的增長曲線
而這個近乎線性的曲線形狀,其實就是這次 MiniMax 新王登基的背後黑科技——線性注意力!
這個是五年前就被學術界廣為研究的黑科技。這次終於實現了工業界落地,而且是業界首次落地到了 4560 億引數規模且坐擁大量 C 端使用者的大模型產品裡。

線性注意力(Linear Attention)

首先給不懂/忘掉 Transformer 技術原理的小夥伴科普一下,在 Transformer 前向計算中,計算量最大的環節之一便是“雙向注意力”的計算。
雙向注意力的計算複雜度是:
這就意味著,計算量隨輸入長度 N 的增長曲線是指數級。
而這次 MiniMax 則使用了線性注意力機制,線性注意力透過“右乘積核技巧”魔改後,計算複雜度便變成了
這就意味著,計算量隨輸入長度 N 的增長曲線變成了線性。
雖然看起來 d 維度成了指數級,但在模型推理階段,d 就是個常數(一般幾百到幾千),與 N 比起來小太多了,所以平方一下也不會帶來多大的計算量負擔。
看到這兒,你可能會想。
這麼簡單的道理,為啥過了五年才首次被 MiniMax 真正落地工業界產品呢?
這就不得不提另一個陷阱了——
在經典的線性注意力計算過程中,需要有一個計算累積和(cumsum)的操作,這個計算過程是遞迴的,無法藉助 GPU 的優勢進行平行計算,因此實際工程實現後,大家會發現,線性注意力機制並沒有給大模型計算速度帶來實質性的提升。
而 MiniMax 團隊牛逼的點,就在於提出了閃電注意力機制,終於把這個噁心的 cumsum 操作,成功幹掉了,引爆了線性注意力恐怖的計算效率。

閃電注意力(Lightning Attention)

為了解決 cumsum 操作帶來的並行化難題,MiniMax 團隊將注意力計算劃分為塊內(intra-block)和塊間(inter-block)計算,並巧妙地利用左乘積和右乘積的特性,避免了直接的 cumsum 操作。
具體來說,塊內計算可以使用左乘積,而塊間計算使用右乘積,這樣可以將 cumsum 操作的影響限制在較小的塊內,從而在一定程度上實現了平行計算,提高了計算效率。
而這些,也僅僅是理論層面的突破,線上性注意力實際落地的過程中,還會遭遇大量的細節挑戰。
根據筆者訊息,MiniMax 為了把這事兒落地,幾乎重構了他們的訓練和推理系統,包括做了更高效的 MoE All-to-all 的通訊最佳化,更長的序列最佳化,甚至線性注意力層的底層 Kernel 的高效實現等。
透過這一系列組合的演算法、架構、工程聯合最佳化,才煉成了 MiniMax-Text-01 這個 456B 引數,80 層深,啟用引數 45.9B,32 個 Experts 構成的長文字處理怪獸。
而且有個細節很重要。
MiniMax-text-01 模型的總引數量控制在了 500B 以內,這樣僅用 8x80GB 視訊記憶體的 GPU 單機,輔助 8-bit 量化,便能驅動起長達 1000k 的輸入序列推理了。
這使得具備優異長文字處理效能的模型,也能在單機上部署了,這對於把大模型在長輸入情況下的推理成本打下來有非常強的商業意義。
我想,這也是 MiniMax-text-01 敢直接定價“輸入 1 元/M Tokens”的原因之一。
這個價格,我只能說太香了。
價格僅為 DeepSeek v3 的一半,最大輸入長度卻是其 15.6 倍,模型表現還更強。
貼一下 API 傳送門:
https://www.minimaxi.com/platform
有實力的小夥伴,還可以選擇自己部署,附開源傳送門:
Github
https://github.com/MiniMax-AI/MiniMax-01
Hugging Face:
https://huggingface.co/MiniMaxAI
看到這兒,如果你恰好是個在構建 Agent 應用的開發者,我知道你一定迫不及待要去試試了。
因為,記憶能力是構建 Agent 系統的關鍵技術問題之一。
在 Agent 任務執行過程中,不僅要記憶任務節點的上下文內容,還常常要記憶任務相關的“全域性資訊”甚至跨任務的“長期記憶”。稍有不慎,Agent 遺忘了重要記憶細節,便會導致任務執行失敗或者執行質量大打折扣。
此前,Agent 開發者常常會遇到的困境便是——
便宜的 API 往往記憶能力不行,甚至輸入長度就不夠;而輸入長度和記憶能力夠的,往往貴的不行。
所以我常說,你們別喊 2025 年是 Agent 元年了,到底能不能成,一方面看能不能蹲到一個白菜價“思維模型”出現;另一方面看能不能蹲到一個超強記憶能力的白菜價“執行層模型”出現。
如今,在 MiniMax-text-01 的加持下,我覺得後半個問題可能有望解決了。
最後,很想感慨一下,沒想到兩年過去了,大模型的“過期速度”依然是以月為單位的。
不太一樣的是:
以前,我們常吐槽中國的大模型廠商只會追趕、不做創新;
如今,大模型技術創新的訊息似乎更多來自中國大模型廠商了。

相關文章