

“我們跑的是下半場,賭的就是未來的長文字需求。”

嘉賓丨鍾怡然
整理丨劉倩 程曼祺
上期播客中,我們與清華的兩位博士生,肖朝軍和傅天予,聊了稀疏注意力機制的改進,也以注意力為線索,串起了大模型的最佳化史。
這篇聊關於注意力機制的另一大改進方向:線性注意力。
MiniMax 在今年 1 月釋出了引數為 4560 億的開源大模型 MiniMax-01,該模型就用到了他們開發的線性注意力機制 “Lightning Attention”。
我們邀請了這個專案的負責人,MiniMax 高階研究總監鍾怡然,來與我們一起聊線性注意力的研發過程。鍾怡然在 MiniMax 負責大模型網路架構設計,目前正開發多模態深度推理模型。
鍾怡然曾擔任上海人工智慧實驗室青年科學家,是新架構探索組的 PI(專案負責人);他在澳洲國立大學獲得博士學位,師從李宏東教授和 Richard Hartley 院士。他和他的團隊已在一些國際頂級學術會議和期刊上發表了 20 餘篇關於模型新架構的論文,覆蓋了當前多類非 Transformer 架構,如線性注意力機制(線性注意力)、長卷積(Long Convolution)和線性迴圈網路(Linear RNN)。
在 2021 年,線性注意力還是一個 “看起來很美好的泡泡”,怡然和團隊就開始探索線性架構的實現。
當 2024 年年中,MiniMax 開始用大量算力資源訓練線性架構的 4560 億引數的新一代模型 01 時,線性架構能在大規模模型上 work 是非共識。但 MiniMax 創始人閆俊傑最後拍板,投了公司超過 80% 的研發資源。
訓練模型不是戲劇性的豪賭。在訓 MiniMax-01 前,MiniMax 團隊透過 3700 次預訓練測試,去預測這種新架構在更大引數的模型是否也有好的表現(這其中不少都是小規模實驗)。
在效率上,從計算方法推導,當序列非常長,線性注意力在計算效率上的優勢會越來越大於稀疏注意力。
但從效果上,也就是線性注意力架構的模型能否和 Transformer 模型一樣聰明,甚至更聰明。現在還沒有誰能給出有絕對說服力的答案。
這也是之後 MiniMax 的技術進展,可能會揭曉的懸念。
* 以下是本期播客實錄,有文字精簡。正文中的(注:……)為編者注。
“線性注意力在越大的模型上,優勢越明顯”
晚點:怡然,可以先和我們的聽友簡單介紹一下自己?
鍾怡然:我目前是 MiniMax 的高階研究總監,主要負責模型結構設計和多模態理解大模型。我主導設計了 MiniMax-01 新一代的網路架構,此前曾擔任上海人工智慧實驗室青年科學家,是新架構探索組的 PI(專案負責人),負責新一代非 Transformer 架構的研發及視聽多模態融合。
我們同時也在新架構的工程上進行研究,相當於新架構的一些並行策略。針對國產叢集通訊系統效率不足的現狀推出了非同步最佳化器,在計算機視覺和自然語言處理上都驗證了它的有效性。
晚點:其實不止你們,各公司都在最佳化注意力機制,這個大背景是什麼?
鍾怡然:因為 Transformer 有個大 bug:視訊記憶體開銷和計算是二次複雜度(注:二次複雜度就是平方增長——隨著模型要處理的序列的增長,計算複雜度是平方增長)。FlashAttention 主要解決了視訊記憶體佔用的問題, 但計算複雜度問題依然存在。
學術界最早嘗試用 “稀疏注意力” 減少計算量,但它不能完全解決二次複雜度的問題。不過有一段時間,算力的增加掩蓋了二次複雜度的緊迫性:從 V100 到 A100 再到 H100(英偉達的三代高效能 GPU),算力提升非常大。所以現在很多的大模型仍然採用 Transformer 架構,它的序列長度也可以做到一定的擴增,比如說到 128K、256K。
我們就一直想解決計算的二次複雜度的問題,於是,在 2021 年,當線性注意力還處於研究初期時,我們開始嘗試這個方向。線性注意力的機制其實十分簡單,注意力的計算是 Q、K、V 相乘。
如果直接左乘,也就是先乘 Q、K 再乘 V 的話,它就是二次複雜度;如果先乘 K、V,再乘 Q 的話,它就是線性複雜度(即一次方複雜度)不會增長特別多。那線性注意力就是把左乘變成右乘的形式。

Transformer 原始注意力機制(Vanilla self attention)計算方式(左)和線性注意力(Linearized self attention)(右)的對比。
原始注意力是先 Q、K 相乘,再乘 V,而線性注意力是從左乘(先乘左邊)轉為右乘,最後計算複雜度從二次變為一次(從 N² 變為 N)。
圖中符號的意義:
N:序列長度,在自然語言處理任務中,指句子中 Token 或詞的數量。
d:特徵維度,即每個元素(如單詞的詞向量)的維度。
O(N²d)、O(Nd²) :計算複雜度。大 O 描述了計算量隨輸入序列變長的增長速度,如 O(N²d) 表示計算量與 N² 和 d 成正比 。
Q(Query):“查詢” 矩陣,用於在自注意力機制中向其他元素詢問相關資訊。
K(Key):“鍵” 矩陣,與查詢向量配合,用於計算相關性。
V(Value):“值” 矩陣,是 Q 和 K 計算出的注意力權重,對 V 進行加權求和,會得到自注意力機制的最終輸出。
Kᵀ:K 的轉置矩陣,在矩陣運算中,為使矩陣維度匹配進行乘法運算,常需對矩陣進行轉換操作。
Q′、K′:線上性化自注意力機制中,對 Q 和 K 進行某種變換後的矩陣。
晚點:你們當時有試過稀疏注意力的方向嗎?
鍾怡然:我們在 2021 年的時候試過,但它當時的效果和執行效率都不太行。其實跟線性注意力是同樣的問題:那時稀疏的效果比不上 Softmax Attention,速度頂多快一丟丟。
而且我注意到稀疏注意力是有損逼近。因為 Attention Metrics(注意力值組成的矩陣)是一個完整的 N×N 的矩陣,而稀疏注意力僅在其中計算有限個 Attention Score(注意力值,即兩個詞之間的相關性)。所需算力自然會降低,但這是一個有損的逼近。我們認為這得不償失。
晚點:那 NSA 和 MoBA,包括最近微軟亞研院 SeerAttention 這些新的成果——它們都是屬於稀疏注意力的大方向,你怎麼看待它們的效果和效率表現?帶來了什麼新認知?
鍾怡然:具體我們還在做進一步的實驗。從我們現在的實驗上來說的話,Lightning Attention(MiniMax-01 中使用的混合注意力機制)是我們當前測試的方案中,隨著模型引數越大,增益越明顯的一個最佳化的方向。
我們測試過 MLA(DeepSeek 提出的一種減少視訊記憶體開銷的注意力改進),也測試過 TPA(注:清華提出的一種減少視訊記憶體開銷的注意力改進)。我們發現那些方法隨著模型的增大,優勢就會變得比較小,也就是說,它的壓縮方式對模型大小是有要求的。
而 Lightning Attention ,它是模型越大時,展現的優勢越明顯。現在放出來的 NSA、MoBA、SeerAttention,我們認為他還沒有真正做工業級的 Scale Up(規模擴大)。
晚點:MoBA 不是也放了工程程式碼嗎?在線上跑了一年了。
鍾怡然:那需要開源讓其他開發者能真正看一下,在幾百 B 引數的模型上,它與 Transformer 比是否具備優勢。目前,它們的效能對比最多在 7B 規模上得到了驗證。而在 2023 年中期左右,我們對 Lightning Attention 的驗證就差不多到了 7B。
晚點:稀疏注意力和線性注意力在不同大小模型上的效果差異,在幾 B 引數的模型之後會有明顯區別?
鍾怡然:7B 以上基本就可以看到。而 MiniMax-01 是一個總引數 4560 億,啟用 459 億的 MoE 模型。(注:MoE 是混合專家系統,其核心機制是透過動態路由在推理時僅啟用部分子模型,即 “專家”,顯著降低計算資源消耗。)
晚點:總體來說,現在學界或者工業界是稀疏注意力做的人多,還是線性注意力做的人多?
鍾怡然:這兩個方向其實嘗試的人都比較多。2023 年以後,線性注意力是比較火的,因為 Mamba 那時候大火,帶火了這個方向。
晚點:從對 Transformer 的 Full Attention 改動程度上說,是不是稀疏改得相對少一些,線性會改動多一些?
鍾怡然:對,稀疏本質上還是一個 Transformer,它只是對 Attention Score 的計算方式做了一些改進。而線性注意力是改變了 QxKxV 相乘的計算方式。學術界對它的叫法很多,你可以把它叫作線性注意力,也可以把它叫作線性 Transformer。
晚點:線性注意力和 Transformer 以前的 RNN(迴圈神經網路) 有什麼區別?
鍾怡然:它本質上也是一種迴圈,不過以前的 RNN 最大的問題是它沒法並行化,Linear RNN (線性迴圈網路)讓它能夠做大規模的並行化。
50% 的把握,投 80% 的資源
晚點:接下來我們可以從頭聊一聊,你們從 2021 年開始做線性注意力,到今天,這樣一步步,是個什麼過程。
鍾怡然:2021 年 7 月,我們啟動了 cosFormer 專案,這也是我們首次接觸線性注意力領域,相關研究成果發表在了 ICLR 上。cosFormer 如今線上性注意力上的知名度還可以。從那時起,我們發現這個方向大有可為。
當時想法很簡單:一方面,做 Transform 的人已經很多了,即便在這個領域做到極致,也不過是跟在別人後面。但是,線性注意力作為一個新興方向,關注者較少,與其追隨他人,不如另闢蹊徑。
其實線性注意力領域的一些論文出來得也很早,幾乎與 Transformer 同時。但它的效果不好、速度又慢,所以導致大家覺得它是一個 “美好的泡泡”,看起來很好,但是實際用起來不行。
2021 年- 2022 年,我們密集產出,探索了很多方法,包括線性注意力機制、長卷積(Long Convolution)和線性迴圈網路(Linear RNN),我們探索了現有的幾乎所有線性方案。到了 2022 年底,我們所研發的方法在語言建模方面,已經能夠達到與 Transformer 近乎相同的效果 。
晚點:當時你們是去測哪些 benchmark,就是你們怎麼去判斷說當時的線性架構已經和 Transformer 差不多了?
鍾怡然:當時測的都是學術上的資料集。例如會關注困惑度、建模精度等,同時也會在一些常見的大模型資料榜單上,基於相同資料對比線性和 Transformer 的結果,也測過 Long Range Arena(注:由 Yi Tay 等研究者在 2020 年提出的針對長序列場景的測試基準)這類長文字 benchmark。
在實驗室階段,我們第一步是解決線性注意力的建模精度問題,第二步是處理速度問題。線性注意力存在一個棘手的問題,它雖然理論複雜度是線性,但實際上跑起來很慢,這是因為右乘操作涉及一系列迴圈操作,而這對於 GPU 極不友好,這就導致實際執行效率遠低於理論複雜度。為解決這一難題,我們在 2020 年推出了 TNL 和 Lightning Attention。Lightning Attention 就是讓它的實際效率更接近它的理論計算複雜度。
所以這一段,在上海人工智慧實驗室期間,我們認為它已經達到了 Scale Up ready 的狀態。我們自認為已經解決了精度問題,也解決了推理效率問題。
晚點:當時做到這個 Scale Up ready 狀態,最大是在多大模型上做了測試?
鍾怡然:最大是訓到了 15B 的模型。
晚點:你們當時沒有繼續往下做更大規模的 Scaling Up 的測試,是因為在實驗室裡會有一些資源的限制嗎?
鍾怡然:當時對我來說,需要把它真正做到 Scale Up,我就面臨一個找金主的過程。
那時我是比較著急的,因為我判斷,最遲在 2024 年底,基於線性注意力的大模型必然會誕生,不是我們做出來,就是 Google、OpenAI 等其他機構。既然要誕生,為什麼不在我們自己手裡了?我們是當時最懂線性注意力的人。
晚點:最懂指中國,還是指全球?
鍾怡然:基本上是全球。包括現在比較活躍的松林(楊松林)之前也是我們組員。所以當時其實就是有個想法,想找到人願意投資這個方法,支援我們把它(線性架構) Scale Up。
晚點:你最後找到的 “金主” 就是 MiniMax?
鍾怡然:這實際上是一個雙向的過程。之前我在商湯工作時,就在俊傑手下。我記得在 2023 年底,俊傑恰好約我一起吃飯,正好聊到了線性注意力的問題。
晚點:你是不是也想過自己創業?
鍾怡然:我考慮過,但這很難。基礎架構創新需要的投資金額非常高,而我們僅在演算法上具備優勢。
大模型很複雜——首先架構要好,再者訓練資料要好,最後訓練方式也要對,三環是缺一不可;任何一個地方掉了鏈子,都會沒法證明你想要證明的東西。首先我得保證這家公司能做一流的預訓練,在這一點上已經砍掉很多公司了。
晚點:你當時見一些投資人,他們的反饋是什麼?
鍾怡然:他們比較喜歡聊,你的應用方向是什麼?變現渠道是什麼?將來怎麼樣去盈利?
晚點:公司方面,你當時看到的,能做一流預訓練的公司都有哪些?
鍾怡然:大小公司算上,我覺得第一個是字節跳動,第二個是 MiniMax。
晚點:Kimi (月之暗面)不是嗎?
鍾怡然:關於 Kimi,我得到的訊息比較少,所以當時在我眼裡,只有兩個選擇,要不然就是海外了。
晚點:你和位元組聊,得到了什麼反饋?
鍾怡然:我感覺位元組的興致不是很高。作為一家大公司,雖然有資料也有人,但要讓他們真正轉型,去花那麼大精力去做一個未知的方向,比較難。
晚點:回到 2023 年下半年,你和閆俊傑聊,他的反饋是什麼?
鍾怡然:早在 2021 年,我和俊傑已非常熟悉。經過交流,我們發現他是很願意去嘗試的,並且願意調配公司絕大部分精力投入其中。
因為這個模型是一個主模,研發要耗費公司 80% – 90% 的資源,牽扯到資料團隊、工程團隊、演算法團隊等眾多部門,需要大量人員齊心協力才能完成 。
晚點:閆俊傑比較認可你,是因為他們之前線上性注意力機制上也有一些探索?
鍾怡然:之前他們在這塊的工作不太多,當時正處於下一代模型技術選型階段。俊傑或許認為我的工作比較紮實,他對這個工作比較信任。
當然,俊傑看這件事的視角與我不同,我認為有 99% 的成功率。而對他而言,可能覺得成功與失敗的機率各 50%。對我們這些一直深入鑽研的人來說,我們熟知其中關鍵要點,所以我們是很相信能夠 Scale Up 的。
晚點:閆俊傑有 50% 把握,就敢上 80% 的資源,這個賭性是不是有點大?
鍾怡然:這確實是要賭的。但我們有 Scaling Laws 的測試去一步一步驗證,他不是一開始就 all in 全部弄起來。我們是先在成本可控的範圍裡做小的模型,再做大的模型。
晚點:在你們一步步去驗證這個想法的過程中,你們又看到了什麼?
鍾怡然:2023 年底,我們用的還是一個純線性的方案,訓練出了一版 15B 規模的模型,從效果來看與 Transformer 相差無幾。
但是,後續當我們擴大模型規模後卻發現,無論是 Lightning Attention,還是其他線性方法,都存在一個最大的問題——在 Retrieval(召回)上存在缺陷。
所以我們不得不選擇了一個比較折中的方案,透過混合架構——每 7 層線性注意力加入 1 層 Softmax 注意力進行最佳化。
晚點:可以給我們的聽友也解釋一下,Retrieval 是個什麼樣的能力?以及注意力機制改進都會去測的、檢驗 Retrieval 能力的 “大海撈針” 的任務是個什麼任務?
鍾怡然:Retrieval 指的是召回或檢索能力。以 “大海撈針” 任務為例,給定一篇長文,其中存在一段話或一句話與其他內容格格不入,此時就需要用定點召回能力找出來。“大海撈針” 是測試,在很長的長文中,模型能不能找到這根格格不入的針,這是一項基礎能力 。
線性注意力在執行這項任務時先天不足,這也很正常。因為線性注意力的 KV 快取是一個固定值,無論輸入文字多長,都會被壓縮至一個固定大小的儲存中。這個過程會導致它檢索能力較差。
晚點:你當時會壓力山大嗎?因為已經要上規模了,出現這種情況。
鍾怡然:我們是有保底方案的,就是混合。但我們當時覺得這個方案確實不好看、不夠優雅。
晚點:所以你們最後去改善純線性注意力召回 能力比較差的方式,就是你們現在在技術報告裡寫的—— 7 層線性注意力混合 1 層 Softmax 注意力?
鍾怡然:對,我們也試了每隔十四層、十六層混合一個 Softmax Attention ——測試了不同的混合比例。從最終結果來看,受影響最大的是檢索能力,而在語言建模方面,不同混合比例下的能力差異不是很大。
晚點:在做的過程中間,具體以什麼比例混合?有任何理論指引或解釋嗎?能幫助提前判斷一下效果的?
鍾怡然:這個沒有,我們是自己試出來的。我們甚至試過最極端的情況——僅採用一層 Softmax Attention(注:指大幾十層的模型中,只有一層是 Softmax,其他都是線性注意力),效果也還算不錯。
我們最終選了現在這個方案,主要是因為已經比較激進地改了架構,我們擔心最終效果會受損,所以選了一個相對保守的 1:7 的比例。比如之前 Jamba 的混合層數,也是 1:8 、1:7 這種。
(注:Jamba 是由 AI21 Labs 於 2024 年推出的首個 SSM(狀態空間模型)-Transformer 混合架構大模型,支援 256K 上下文視窗。)
晚點:那最開始,是怎麼想到要用混合這種方式的?
鍾怡然:這其實是非常符合直覺的一種嘗試。
晚點:在有了這個混合的方案後,你們的 Scaling Laws 實驗的過程是怎樣的?
鍾怡然:做 Scaling Laws 實驗的首要目的,是驗證這個技術方向是否存在問題,混合方案的實驗和做 Scaling Law 測試是同時展開的。
我們對多種線性方案進行了測試。除了 Lightning Attention,還涵蓋了 HGRN2、Mamba。
晚點:這麼多實驗,要花多少資源?
鍾怡然:我們大概訓了 3700 個模型才跑出來一篇文章。因為決定 Scaling Up 是一項重大決策,畢竟,沒人願意投幾千萬資金去訓練一個大模型,最後卻以失敗告終。
尤其是這種開拓性工作,必須把基礎工作做得極紮實。我們要仔細斟酌引數和注意力結構的選擇,不同方案都需要對它們測一系列 benchmark,最終在速度和效果間找到平衡。所以一套完整且嚴格的對比實驗是必須的。如果拍腦袋,確實可以省下這部分實驗成本,但無疑會增加後續專案失敗的機率 。
晚點:訓了 3700 個模型,是全部從頭訓練,3700 次預訓練的意思嗎?
鍾怡然:全部都是從頭訓的,不同的大小、不同的引數。所以跑 Scaling Law 是一個成本很高的一個實驗。
晚點:你們一開始預估的就是要訓這麼多次嗎?總共花了多少資源?
鍾怡然:我們最早就有預估,就是 3700 次。我們把需要的卡數、資源數和要訓的模型數做了個 excel 表,我們根據這些表去訓出來就行了。
晚點:最後你們這個混合的線性注意力結構,帶來的實際效率提升是怎樣的?
鍾怡然:就是你的序列長度是 1M(100 萬) 的情況下,它比 Full Attention 的整體處理速度要快 2700 倍。
“探索新架構讓我們跟進深度推理沒這麼快,但我們跑的是下半場”
晚點:這是速度上,效果上,線性注意力怎麼保障效果?比如,在 MiniMax-01、Kimi-k1.5 以及 DeepSeek-R1 釋出之後,我在朋友的電腦上看了實際測試情況,場景是我們輸入了一篇約 2 萬字的英文文章,詳細講述了海外社交媒體的使用方式,其中涉及很多功能,我們希望模型回答一個具體問題——人們如何使用社交媒體上的短影片功能。結果 MiniMax-01、DeepSeek-R1 表現都不及 Kimi-k1.5,會回答一些別的東西,這是什麼原因導致了差異呢?
鍾怡然:其實你所提及的這種能力,與訓練資料嚴格相關。我們只能確保模型具備展現該能力的潛力,但要讓模型切實擁有這種能力,訓練資料起著至關重要的作用。你提出的這個問題,正是我們下一代模型需要解決的問題。
晚點:目前 MiniMax-01 不是一個推理模型,像 R1 還有 1.5 它是推理模型。那你們現在這個架構去做推理,就是去結合強化學習,它的潛力、方法是怎樣的?
鍾怡然:我 “盜用” 一下另一家國內大模型公司的結論,他們認為 Linear 架構在推理上會更強一點,他們也線上性架構模型上開展過深度推理的相關實驗,結果顯示線性模型表現更為出色。
晚點:那你們自己看到的是什麼?
鍾怡然:我們正在做,現在還不能說得更詳細。因為最開始我們並沒有選擇去馬上跟 o1(這個方向),當時國內有一大批追隨者,但我們的想法是先紮實提升自身技術能力。我們認為單純強調推理能力,可能僅會在某些特定方面增強模型效能。然而,R1 釋出後,我們發現融入這些推理能力,模型的外推能力顯著提升 ,泛化能力更好。
晚點:你們當時研判要把技術基礎先做紮實,這些指的是什麼?
鍾怡然:我們希望這個模型能在內部榜單上跟 4o 差不多,或者跟世界頂尖模型差不多。當時的話 4o 是最先進的模型。
晚點:你們會比較去追求多模態嗎?4o 就是一個混合模態的模型。
鍾怡然:後來我也接手了多模態理解大模型相關工作。當時在構建多模態模型方面,存在兩條可行路徑:一是原生多模態,二是基於 adapter(介面卡)形式的多模態。經過考量,我判斷我們當時應採用 adapter 形式。因為在那時,原生多模態的實現路徑尚未完全打通,比如 Gemini-2.0 還未釋出。
這個方案優勢明顯。其一,我們能夠快速驗證資料是否存在問題;其二,效果能夠迅速顯現。只需投入較小成本,就能獲得性能較好的模型。從我們釋出的 VL01 來看,benchmark 結果還是不錯的。
晚點:所以可以這麼理解,MiniMax-01 在 MiniMax 主線模型中算得上是一次重大轉型或升級,此前 MiniMax 的 ABAB 系列,採用的是 Transformer 架構,現在的 MiniMax-01 是線性架構 ——你們語言的、多模態的和未來的模型進展都會在這個新架構上。
鍾怡然:對,其實這段的模型更迭很快。
晚點:為什麼 MiniMax 願意去投入做這個改動比較大的、比較激進的方案?
鍾怡然:首先,我們想展現自身的技術實力,我們是一家勇於創新的公司,敢押注新技術。並且我們已經將序列長度提升到了 4M(400 萬),如果我們願意的話,我們把它提升到 10M (1000 萬)也是能夠承受的序列長度。
不過(如果要做 10 M)當下需要考慮的是如何構建 10M 的資料,以及在實現 10M 序列長度後,到底能幹什麼。目前我們還是打算先將 1M 以內的相關工作做到極致,然後再把它往外推。
晚點:推理之後你們想探索什麼?我指從 o1 之後,強化學習被全面引入 Transformer 的整個流程當中,下一個變化可能是什麼?
鍾怡然:現在行業還是在做深度推理,這波其實剛剛起來,我們也還處於跟進階段。但我們認為長文字處理在未來仍是一個趨勢。我們比較高興看到像 kimi、DeepSeek,都推出了各自針對長文字最佳化的模型架構,這意味著大家都踏入了長文字這條賽道。
在我看來,俊傑其實也比較清楚:我們打的是一個長線,短期在效果上一定會落後,因為我們做了新架構,相同的算力和資源的情況下,我們是沒有太多人力去做深度推理的,這會導致我們跟隨深度推理的腳步慢一點。
但好處就是,當我們去做深度推理時——我們趕上的步伐會很快。所以在這場跑步當中,我們跑的是下半場。我們賭的就是未來長文字的需求。當線性注意力 Scale Up 到一定程度時,在長文賽道上很難碰到對手。
做技術的 “道心” 之爭
晚點:你怎麼看 DeepSeek、Kimi 等公司對稀疏注意力的改進,效率、效果上取得了不錯的效果?
鍾怡然:他們的主要創新之處在於,透過極致工程最佳化,改善了稀疏注意力以前速度過慢的問題。但它(稀疏注意力)的上限是低的,我並不認為 DeepSeek 會繼續走這條道路。因為當模型變得更大,線性注意力相比稀疏注意力的優勢會更明顯,他們想要 Scale Up,在做實驗的過程中也會看到這一點。
晚點:線性注意力上限高,而且實際上它可以 work,你覺得這在行業裡是一個共識,還是非共識?
鍾怡然:這是非共識,包括現在大家還是對線性注意力有擔憂,哪怕 MiniMax-01 這樣的成果已經發布了,一些人還是覺得線性注意力可能規模上去後會不太行。
晚點:為什麼有這種擔憂?
鍾怡然:可能是 MiniMax-01 的宣傳力度不夠,導致許多人沒關注到。目前很多人的共識是,認為線性注意力屬於有損的最佳化。畢竟從原理上看,用一次計算去逼近二次計算,好像是有損的。但有沒有可能這種二次計算複雜度本身就是冗餘的呢?而我們認為,它就是一個無損架構、一個無損最佳化,特別是變成混合架構以後,它的效果甚至還有增強。
這個就屬於學術方面的 “道心之爭”——技術判斷和你的相信是什麼。
晚點:據你所知,OpenAI、Anthropic 等國外 AI 公司,他們有在嘗試線性架構嗎?
鍾怡然:他們的架構很可能是基於 Sliding Window Attention(滑動視窗),這也是一種稀疏注意力。他們(Google 等)採用的方法大機率是滑動視窗 +Full Attention。
晚點:所以你們對線性的相信,也並不來自全球頂尖公司做了什麼或沒做什麼?
鍾怡然:對,並且我們是真正把論文轉化成產品的,現在 MiniMax 的產品就在用這套架構,這證明我們的技術是比較先進的。論文是在 24 年初,產品(用上這個架構)是在 24 年底。
晚點:你剛才講到,認可線性注意力上限大且能 work,在業界是一個非共識。你現在介意講這個非共識嗎?
鍾怡然:不介意,我們希望能傳播,希望更多人也來做線性注意力,也希望更多人一起開發長文字應用。其實我們開源 MiniMax-01,就是選擇知名度。
晚點:那麼你們對 MiniMax-01 這次開源的反饋和影響力滿意嗎?
鍾怡然:有朋友說這個報告寫得很好,工作比較 Solid,但是不知道為什麼沒有很多人知道?我覺得這個現狀其實就是要加強傳播。同時我們下一代模型也會做得更好。
晚點:為什麼在開源 MiniMax-01 時,你們只放了最大引數的版本,沒有放不同尺寸?因為一些小尺寸的模型,可能對學界、個人開發者、小機構是更友好的,這才讓更多人能參與進來。
鍾怡然:我們是有小尺寸的,但俊傑覺得要更重視效果,希望開源的是效果很好的,然後再考慮小模型開源。另外開源不同模型,就要維護不同的模型,其實需要的人力也更多。
晚點:DeepSeek 春節大出圈之後,你們的內部氛圍有什麼變化嗎?
鍾怡然:DeepSeek 沒讓我們過年(笑)。我們在加快推理模型的節奏。而且我們要做出比 R1 更好、甚至要達到 o1 或 o3 相近水準的推理模型。
我們又選了一個比較激進的方案:它會是一個深度推理的原生多模態模型,這裡面最難的點就在於,怎麼去平衡文字能力和視覺理解能力,讓兩個能力都很強。目前實驗結論還可以。
晚點:這次你有多大把握可以 work?
鍾怡然:大概七八成。
晚點:什麼時候會推出這個模型?
鍾怡然:4 月到 5 月。現在所有的精力都是在提高模型上限上面,我們現在認為模型上限,比去維護產品更加重要。
晚點:你如何看待 DeepSeek 其實沒有一個好用的產品,但它的影響力特別爆炸?
鍾怡然:我個人認為,當然模型效果確實出色,這是它能出圈的基礎。但另一方面,它的火爆也與許多其他因素相關。
我們無法去想這類偶發事件,而是想,如果我們有一項新技術,希望讓更多人瞭解,該怎麼做呢?最好的方法就是將其轉化為產品。
晚點:所以你仍然認為,一個正常的技術公司,只靠技術本身,沒有辦法長時間有正向反饋和壁壘。
鍾怡然:對。我們 2023 年時想做線性注意力,確實也用了一些 Lab(上海人工智慧實驗室)的資源去宣傳。但我發現當時我跟所有人聊,都很難說服他們。他們會認為這個新架構模型只在小規模上驗證過。
當時我就想,我怎麼辦?我只能去找一個願意相信這個架構的人,把它放到產品裡——證明一個新技術有說服力的最好方式就是把它放到產品裡。
晚點:你自己在 AI 上的追求是什麼?
鍾怡然:我希望構建一種能真正自我學習、自我進化的模型。把人類看到、聽到的所有資訊作為輸入後,它能自主學習不同模態之間的關係以及像文字處理這類技能,其實文字處理能力也是透過自監督學出來的。
如果要實現我的設想,首先需要構建文字模型,其次是多模態模型,第三步是探索如何讓模型自主學習不同模態之間的關係。這個過程和人類學習的方式類似,人類從嬰兒時期起也是這麼學習的。
附:文中提到的主要工作的 GitHub 或 arxiv 連結:
MiniMax-01:
https://github.com/MiniMax-AI/MiniMax-01
Lightning Attention:
https://github.com/OpenNLPLab/lightning-attention
cosFormer:
https://github.com/OpenNLPLab/cosFormer
Mamba:
https://github.com/state-spaces/mamba
Jamba:
https://github.com/kyegomez/Jamba

題圖來源:《電影美麗心靈》
– FIN –





