

全球開源前二,
來自中國大模型的Aha時刻。


如果一個技術用3年時間,從默默無聞到改變世界,我們稱其為第N次工業革命;
如果這個技術從論文到落地的過程中,頭部玩家如走馬燈更迭,百億流量砸下去只聽一聲響就陷入沉寂,我們稱其為資本絞肉機;
如果這個技術集齊了以上所有特質,還能以常規技術乘十的速度進化,讓網際網路時代的生態護城河、資金壁壘、規模效應全部失效,創業公司也能站在世界舞臺中心,那麼,它是大模型。
而這一趨勢,自今年年初DeepSeek“掀桌”以來,變得尤為明顯。時至今日,在大模型行業,能留在桌子上的企業唯一的生存法則就是——創新至上。
那麼,如何理解大模型行業的創新至上?為什麼傳統網際網路的玩法在大模型時代會徹底失效?為什麼大模型的淘汰,能以季度為單位發生?
剛剛結束的MiniMax Week,或許正是我們審視這些問題的最佳切入點。
以此為切口,你會看見一個創新行業的創業公司如何掙脫巨頭的射程;可以看到大模型從技術創新到改變世界之間的橋樑如何搭建;以及,一群“偏執”的人,如何在這個一切被按下加速鍵的行業中破浪前行。

一隻跳水貓咪,如何讓世界Aha
一開始,MiniMax Week的關注度,還侷限在大模型行業內的討論:這次MiniMax會拿到多少SOTA(State of the Art)成績。
直到全球社交網站上,橘貓、奶牛、三花,各式各樣的貓咪跳水影片開始像病毒一樣蔓延;緊隨其後,羊駝、熊貓、長頸鹿,也在影片中以空中3周半迴旋、後空翻等姿勢從十米高臺一躍而下。甚至,在影片中,你還會看到不同體重的動物起跳時,會對應不同的跳板的震動幅度與水花大小差異。
就像年初的DeepSeek R1釋出一樣,MiniMax迎來了自己的“Aha時刻”。
“Aha Moment”源自心理學與產品設計領域,指的是使用者在使用一個產品或工具時,突然意識到其價值和潛力的那個瞬間。它往往伴隨著一種頓悟、驚喜或認知飛躍的感覺。
在其背後,往往是技術發展從量變到質變的關鍵突破;緊隨其後,則往往是產品滲透率大突破,以及行業大規模爆發轉折節點的到來。
而貓咪跳水,之所以被稱為影片AI的Aha Moment,除了其在社媒上引發的轟動之外,更在於長久以來,跳水、體操、多人互動這樣的複雜動作,長期以來一直被視為影片AI的“圖靈測試”。
因為這些動作不僅要求AI精確控制每一幀畫面,同時,所有連續幀組成的運動時空軌跡如姿勢變化、跳躍旋轉角度、速度等細節必須符合現實的重力、慣性等物理規律;甚至,不同動物起跳對應的跳板振幅與不同入水姿勢帶來的水花角度等複雜環境互動,也必須精準還原現實。
而這一切的背後,正是因為MiniMax最新發布的影片模型——Hailuo 02。
縱向對比,Hailuo 02模型引數相較Hailuo 01增長3倍,影片解析度提升至原生1080P,能實現單次生成10秒的高畫質內容,涵蓋精細肢體動作、流體動力學模擬、鏡面效果與真實物理互動,甚至可還原雜技演出級別的複雜動態,並給出專業級的原生運鏡。
海螺AI超級創作者:胡生AIGC生成的demo
橫向對比,Hailuo 02在Artificial Analysis Video Arena的Image-to-Video榜單中,位列全球第二。與此同時,Hailuo 02在效能超過Google Veo3的情況下,其API成本卻只有Google Veo3的1/9。

排名資料始於上榜日,截至目前
那麼,為什麼Hailuo 02能在保持高逼真度的同時,還能保持低成本?
一方面是scaling law的助推:Hailuo 02模型的總引數量相較於Hailuo 01擴大了3倍,資料量擴大了4倍,使得模型能夠理解更加複雜的指令和物理場景。
與此同時,Hailuo 02還採用了創新的NCR(Noise-aware Compute Redistribution)架構。這一架構透過噪聲感知機制,將計算資源按照需求分配給不同的區域。高噪聲區域的資訊密度較低,進行壓縮處理;低噪聲區域則分配更多的計算資源,重點捕捉關鍵細節,進而有效減少HBM記憶體讀寫量逾70%,讓訓練與推理效率提升2.5倍。
當然,這種將精力放在對的事情上、不斷創新的邏輯,不只是NCR的底層技術思路,同時也是對MiniMax企業氣質,以及如今地位如何煉成的最好概括。

M1創新背後:大模型
如何掙脫巨頭的資本萬有引力
去年的同一時間,讓無數大模型創業者們最頭疼的問題之一,一定包括:
巨頭的每一次轉身,都是中小企業的生死考驗。那麼你如何逃脫巨頭的資本萬有引力?
不僅合作伙伴關心,但凡公開場合,媒體、投資人也一定會反覆追問。
形勢看起來的確嚴峻:國內外幾乎所有網際網路巨頭、科技巨頭全數下場大模型,百模大戰之激烈,一度讓人以為要復刻當年共享單車、外賣的老路。
質疑的原因似乎也講得通:大模型引數已經走到萬億關口,無論訓練還是推理都需要足夠的資本壁壘;大模型進化需要依賴海量資料,而巨頭恰好有足夠的資料資源;大模型研發需要高密度的人才,大廠的優渥資源,看似也足以支撐其挖來任何想要的人才。
但現實卻是:僅僅一年時間過去,百模大戰便進入偃旗息鼓階段;各種榜單的SOTA也被Open AI、Anthropic、MiniMax、DeepSeek這樣的創業公司佔據了大半。
邏輯很簡單,大量的資本投入,只是模型訓練的條件之一。但做大模型如投資,一個技術路線越是共識程度高,就越說明這已經是個滯後變數,企業必須不斷挖掘新的有效的Alpha,才能帶來超額的回報。而在這一方面,更加靈活的創業公司,相比傳統巨頭,往往有著更加敏銳的嗅覺與更高效的決策鏈條。
具體到MiniMax,市場層面,僅去年前8個月,其海外產品Talkie的全球下載量就快速突破千萬次,超過Character AI,成為美國市場下載量第4的人工智慧應用。英國《金融時報》報道稱,MiniMax2024年的營收,在7000萬美元左右。
技術層面,剛剛在專業大模型基準測試 Artificial Analysis 榜單中拿下全球前二成績的MiniMax M1模型同樣是很好的例證。這是一個擁有4560億引數的大模型,除了在業內主流的 17 個評測集位列前茅之外,M1還是全球上下文最長的推理模型,原生支援100萬token輸入長度,是DeepSeek R1的8倍;並且支援8萬個輸出token,打破了Gemini 2.5 Pro的6.4萬個限制,成為世界最長輸出的模型。

對大模型而言,更長的上下文,往往意味著更強的智慧體驗。尤其是在深度搜索、科研等高複雜度場景中,長上下文更是深度推理(數學題、程式碼場景)、深度內容綜合(論文創作、行業研究)的核心能力來源。尤其在agent場景中,隨著多agent混合成為新的行業趨勢,各個子agent的輸出結果,會變成輸入給到主agent,如果上下文長度不夠,那麼整個系統都會隨之變得毫無意義。
與此同時,在工具使用場景(TAU-bench)中,MiniMax-M1-40k更是領跑所有開源權重模型,甚至超過閉源模型Gemini-2.5 Pro。資料顯示,即使在30多輪長鏈路思考與工具呼叫任務中,MiniMax-M1-40k依然有極高的穩定性。

那麼問題來了,既然創新是大模型時代通往終點的路徑,支撐起M1如此成績的核心創新究竟是什麼?
答案一是M1在架構上的創新。
與業內常規做法一樣,M1也是在預訓練的基座模型(MiniMax-Text-01)上進行強化學習後構建而成,同樣採用了混合專家結構(MoE)。但鮮少有人知道,早在2023年前後,MoE尚未成為行業共識的時候,MiniMax就已經推出了國內首個MoE大模型。
也是在同一時期,在同行還普遍採用傳統Transformer的自注意力計算機制時,MiniMax就已經開啟了對混合注意力機制的探索,並在其後將這一技術用於M1模型。所謂混合注意力機制,就是1/8使用自注意力機制,另外7/8使用了自創的Lightning Attention(線性注意力),透過先做“分塊計算”(tiling),塊內用傳統注意力計算,塊間採用線性注意力進行資訊傳遞,最終完成全域性語義捕捉的方式,避免了累積求和操作(cumsum)拖慢速度。這也是更長上下文視窗的底層技術支撐。
除了架構的創新,在訓練方法上,MiniMax M1還採用CISPO(Clipped IS-weight Policy Optimization)替代傳統的PPO(近端策略最佳化)/GRPO(deepseek開發的近端策略最佳化),極大壓縮成本,提升訓練效率。
傳統的PPO/GRPO演算法在處理混合架構時會直接忽略However、Wait、Aha之類的重要性很高但是頻率較低的token,或者只給他們很低的權重。導致模型的複雜推理出現邏輯混亂等問題。而MiniMax的CISPO演算法,會根據token的重要性對其進行取樣、裁剪,賦予權重,讓長響應除了長度之外,更有質量。

技術報告顯示,基於CISPO,訓練側,MiniMax團隊只用了3周時間、512塊H800 GPU就完成強化學習訓練階段,算力租用成本僅53萬美元。即使相比最新的DAPO,也能僅用一半的訓練步數達到相同的效能。
推理側,生成10萬token時,M1的推理算力也只需要DeepSeek R1的25%,而且M1模型在數學和程式設計等任務上比DeepSeek-R1模型還要高效。
也就是說,對MiniMax而言,大模型的確是個燒錢的事業,但只要一腳邁過門檻,產業真正比拼的還是誰更能透過技術創新省錢,讓技術更加普惠,且帶來更高的上限。

Agent,
技術到商業的橋樑如何打造?
事實上,如果將目光拉長到最近十年,會發現,這已經是第二次AI浪潮,上一波以AlexNet+Alpha Go點燃的AI大爆發中,AI的落地始終沒有逃出視覺識別、NLP的範疇,最終陷入短暫低谷。
但大模型不同,其通用能力帶來了更高的商業化天花板,也讓技術的生命週期,被無限拉長。
最近兩年,行業的Aha時刻,大致可以分為兩種型別。一種是底層大模型的能力技術創新:比如一開始的ChatGPT,比如年初的DeepSeek。
而在大模型創新基礎之上,是另一種橫向的Agent應用創新,其典型代表比如cursor、lovart、manus。
因為Agent的優勢之一,就是可以透過多步操作整合達成更直觀可用的結果。而一個驚豔的成果展示,往往就是一個技術從實驗室到產業加速的重要轉折點,這次出圈的Hailuo Video Agent也如此。
比起一般的影片生成,Hailuo Agent操作更簡單,同時效果更可控,可以一鍵生成全片。不只是小貓跳水,羊駝跳水,甚至複雜體操動作,Hailuo Video Agent都能搞定。目前階段Hailuo Video Agent已經支援超百種影片模板,涵蓋藝術片、廣告片、MV、社媒爆款等多種體裁。這也意味著AI徹底打通了創意構思、分鏡設計、圖片素材生成、剪輯完整影片的生產鏈路。

使用者只需要一句自然語言輸入,系統就會自動排程各種工具,並且提供當初如DeepSeek R1一樣的清晰思維鏈路,讓創作優質的同時變得更可控。
根據AI產品榜資料,自上線以來,海螺AI連續6個月在全球榜單中位居影片生成AI產品的第一,力壓Sora、Runway等國內外AI影片產品。
當然,Agent的另一個優勢是透過整合多種工具、能力,帶著目的(使用者發出的需求)自主規劃路徑並執行,從而自主幫人類解決複雜專業問題,更通用的MiniMax Agent就是代表。
相比影片生成效果驚豔的Hailuo Video Agent,MiniMax Agent的定位更像是一個具備長期任務規劃與執行閉環任務能力的AI專家,可以幫助AI完成從“Chatbot”向“專業生產力引擎”的質變升級。具體來說,MiniMax Agent是個能完成長程(Long Horizon)複雜任務的通用智慧體。能多步規劃出專家級解決方案、靈活拆解任務需求、執行多個子任務從而交付最終結果。
據官方資料,MiniMax Agent 在MiniMax 內部已經使用了近60天,併成為超過50%的員工日常PPT製作、網頁搭建、程式碼輔助使用的產品。
相比普通功能單一的Agent,MiniMax Agent能在程式設計上生成包含複雜跳轉邏輯、透過全面測試且沒有bug的網頁;在多模態方面除了支援長文字檔案,也支援影片、音訊、圖片等理解能力,同時支援生成圖文音並茂的作品;還能透過MCP擴充套件、來完成做動畫、廣告片、PPT等任務……
MiniMax Agent生成的盧浮宮博物館網頁
可以說,MiniMax的通用Agent,是MiniMax大模型基礎智慧,與跨模態能力結合起來的最強工程化能力落地。而MiniMax幾乎也是唯一一家能夠提供完整全模態能力的廠商。
當然,可能也有人會質疑,大模型公司做Agent的意義是什麼?
擁有基座模型研發能力的大模型公司在開發通用Agent上有著天然的優勢:憑藉對底層架構的深入把控,其Agent能在效能最佳化、成本控制、生態構建形成閉環優勢,從而主導開發出更強大、適應性更強的通用Agent。
一句話概括就是:大模型的創新,打開了Agent的能力天花板;Agent的快速增長,讓大模型的演進方向更加清晰明確。兩者就像下坡路上的滾雪球,互相借力,就能事半功倍,將生態越做越大。

如果說大模型行業是一個時間、資本、創新、知識密度一切被極度壓縮的全新物種,那麼身處其中,MiniMax仍然可以算得上是一家“特立獨行”的存在。
MiniMax早在2022年初就成立了——比2022年底ChatGPT引爆全球還要早上一年。這也導致當年ChatGPT突然爆火之後,所有人都在四處打聽這個MiniMax到底是何方神聖。
在技術路徑上,MiniMax也同樣敢為人先。
2023年,彼時國內市場還是Dense(稠密)模型的天下,MiniMax卻將80%以上的算力和資源全部投入MoE(混合專家)模型的開發中,於2024年初推出了國內第一個MoE大模型,成為共識引領者。
今年1月,MiniMax又開源了籌謀已久的Lightning Attention閃電注意力技術,對著Transformer架構進行了一頓大刀闊斧的“爆改”,挖掘大模型突破天花板的新Alpha因子。
到了6月,MiniMax拿出的M1已經憑藉100萬上下文視窗、算力成本暴降70%,以及架構、演算法的一系列創新,閃電拿下開源模型全球第二寶座(資料來源Artificial Analysis Intelligence Index榜單,排名截至目前)。
而與M1同期釋出的MiniMax通用Agent,也已經能夠解決當下無數Agent應用備受困擾的跨模態、長距離(多決策)、任務拆解、工具呼叫難題,完成了從工具到全能助理的進化。
這似乎是一家永遠不知疲倦,永遠在顛覆自我,永遠在探索更高上限、更高智慧水平的AI公司。
而這種近乎偏執的創新驅動,本質上是對AI大模型競賽終局的預判,偉大商業模式往往是直白甚至淺顯的——all in技術創新,然後堅定不移地執行。



