3700次預訓練尋找“線性注意力”非共識，MiniMax-01開發者講述4年探索

“我們跑的是下半場，賭的就是未來的長文字需求。”

嘉賓丨鍾怡然

整理丨劉倩程曼祺

上期播客中，我們與清華的兩位博士生，肖朝軍和傅天予，聊了稀疏注意力機制的改進，也以注意力為線索，串起了大模型的最佳化史。

這篇聊關於注意力機制的另一大改進方向：線性注意力。

MiniMax 在今年 1 月釋出了引數為 4560 億的開源大模型 MiniMax-01，該模型就用到了他們開發的線性注意力機制 “Lightning Attention”。

我們邀請了這個專案的負責人，MiniMax 高階研究總監鍾怡然，來與我們一起聊線性注意力的研發過程。鍾怡然在 MiniMax 負責大模型網路架構設計，目前正開發多模態深度推理模型。

鍾怡然曾擔任上海人工智慧實驗室青年科學家，是新架構探索組的 PI（專案負責人）；他在澳洲國立大學獲得博士學位，師從李宏東教授和 Richard Hartley 院士。他和他的團隊已在一些國際頂級學術會議和期刊上發表了 20 餘篇關於模型新架構的論文，覆蓋了當前多類非 Transformer 架構，如線性注意力機制（線性注意力）、長卷積（Long Convolution）和線性迴圈網路（Linear RNN）。

在 2021 年，線性注意力還是一個 “看起來很美好的泡泡”，怡然和團隊就開始探索線性架構的實現。

當 2024 年年中，MiniMax 開始用大量算力資源訓練線性架構的 4560 億引數的新一代模型 01 時，線性架構能在大規模模型上 work 是非共識。但 MiniMax 創始人閆俊傑最後拍板，投了公司超過 80% 的研發資源。

訓練模型不是戲劇性的豪賭。在訓 MiniMax-01 前，MiniMax 團隊透過 3700 次預訓練測試，去預測這種新架構在更大引數的模型是否也有好的表現（這其中不少都是小規模實驗）。

在效率上，從計算方法推導，當序列非常長，線性注意力在計算效率上的優勢會越來越大於稀疏注意力。

但從效果上，也就是線性注意力架構的模型能否和 Transformer 模型一樣聰明，甚至更聰明。現在還沒有誰能給出有絕對說服力的答案。

這也是之後 MiniMax 的技術進展，可能會揭曉的懸念。

* 以下是本期播客實錄，有文字精簡。正文中的（注：……）為編者注。

“線性注意力在越大的模型上，優勢越明顯”

晚點：怡然，可以先和我們的聽友簡單介紹一下自己？

鍾怡然：我目前是 MiniMax 的高階研究總監，主要負責模型結構設計和多模態理解大模型。我主導設計了 MiniMax-01 新一代的網路架構，此前曾擔任上海人工智慧實驗室青年科學家，是新架構探索組的 PI（專案負責人），負責新一代非 Transformer 架構的研發及視聽多模態融合。

我們同時也在新架構的工程上進行研究，相當於新架構的一些並行策略。針對國產叢集通訊系統效率不足的現狀推出了非同步最佳化器，在計算機視覺和自然語言處理上都驗證了它的有效性。

晚點：其實不止你們，各公司都在最佳化注意力機制，這個大背景是什麼？

鍾怡然：因為 Transformer 有個大 bug：視訊記憶體開銷和計算是二次複雜度（注：二次複雜度就是平方增長——隨著模型要處理的序列的增長，計算複雜度是平方增長）。FlashAttention 主要解決了視訊記憶體佔用的問題，但計算複雜度問題依然存在。

學術界最早嘗試用 “稀疏注意力” 減少計算量，但它不能完全解決二次複雜度的問題。不過有一段時間，算力的增加掩蓋了二次複雜度的緊迫性：從 V100 到 A100 再到 H100（英偉達的三代高效能 GPU），算力提升非常大。所以現在很多的大模型仍然採用 Transformer 架構，它的序列長度也可以做到一定的擴增，比如說到 128K、256K。

我們就一直想解決計算的二次複雜度的問題，於是，在 2021 年，當線性注意力還處於研究初期時，我們開始嘗試這個方向。線性注意力的機制其實十分簡單，注意力的計算是 Q、K、V 相乘。

如果直接左乘，也就是先乘 Q、K 再乘 V 的話，它就是二次複雜度；如果先乘 K、V，再乘 Q 的話，它就是線性複雜度（即一次方複雜度）不會增長特別多。那線性注意力就是把左乘變成右乘的形式。

Transformer 原始注意力機制（Vanilla self attention）計算方式（左）和線性注意力（Linearized self attention）（右）的對比。

原始注意力是先 Q、K 相乘，再乘 V，而線性注意力是從左乘（先乘左邊）轉為右乘，最後計算複雜度從二次變為一次（從 N² 變為 N）。

圖中符號的意義：

N：序列長度，在自然語言處理任務中，指句子中 Token 或詞的數量。

d：特徵維度，即每個元素（如單詞的詞向量）的維度。

O(N²d)、O(Nd²) ：計算複雜度。大 O 描述了計算量隨輸入序列變長的增長速度，如 O(N²d) 表示計算量與 N² 和 d 成正比。

Q（Query）：“查詢” 矩陣，用於在自注意力機制中向其他元素詢問相關資訊。

K（Key）：“鍵” 矩陣，與查詢向量配合，用於計算相關性。

V（Value）：“值” 矩陣，是 Q 和 K 計算出的注意力權重，對 V 進行加權求和，會得到自注意力機制的最終輸出。

Kᵀ：K 的轉置矩陣，在矩陣運算中，為使矩陣維度匹配進行乘法運算，常需對矩陣進行轉換操作。

Q′、K′：線上性化自注意力機制中，對 Q 和 K 進行某種變換後的矩陣。

晚點：你們當時有試過稀疏注意力的方向嗎？

鍾怡然：我們在 2021 年的時候試過，但它當時的效果和執行效率都不太行。其實跟線性注意力是同樣的問題：那時稀疏的效果比不上 Softmax Attention，速度頂多快一丟丟。

而且我注意到稀疏注意力是有損逼近。因為 Attention Metrics（注意力值組成的矩陣）是一個完整的 N×N 的矩陣，而稀疏注意力僅在其中計算有限個 Attention Score（注意力值，即兩個詞之間的相關性）。所需算力自然會降低，但這是一個有損的逼近。我們認為這得不償失。

晚點：那 NSA 和 MoBA，包括最近微軟亞研院 SeerAttention 這些新的成果——它們都是屬於稀疏注意力的大方向，你怎麼看待它們的效果和效率表現？帶來了什麼新認知？

鍾怡然：具體我們還在做進一步的實驗。從我們現在的實驗上來說的話，Lightning Attention（MiniMax-01 中使用的混合注意力機制）是我們當前測試的方案中，隨著模型引數越大，增益越明顯的一個最佳化的方向。

我們測試過 MLA（DeepSeek 提出的一種減少視訊記憶體開銷的注意力改進），也測試過 TPA（注：清華提出的一種減少視訊記憶體開銷的注意力改進）。我們發現那些方法隨著模型的增大，優勢就會變得比較小，也就是說，它的壓縮方式對模型大小是有要求的。

而 Lightning Attention ，它是模型越大時，展現的優勢越明顯。現在放出來的 NSA、MoBA、SeerAttention，我們認為他還沒有真正做工業級的 Scale Up（規模擴大）。

晚點：MoBA 不是也放了工程程式碼嗎？在線上跑了一年了。

鍾怡然：那需要開源讓其他開發者能真正看一下，在幾百 B 引數的模型上，它與 Transformer 比是否具備優勢。目前，它們的效能對比最多在 7B 規模上得到了驗證。而在 2023 年中期左右，我們對 Lightning Attention 的驗證就差不多到了 7B。

晚點：稀疏注意力和線性注意力在不同大小模型上的效果差異，在幾 B 引數的模型之後會有明顯區別？

鍾怡然：7B 以上基本就可以看到。而 MiniMax-01 是一個總引數 4560 億，啟用 459 億的 MoE 模型。（注：MoE 是混合專家系統，其核心機制是透過動態路由在推理時僅啟用部分子模型，即 “專家”，顯著降低計算資源消耗。）

晚點：總體來說，現在學界或者工業界是稀疏注意力做的人多，還是線性注意力做的人多？

鍾怡然：這兩個方向其實嘗試的人都比較多。2023 年以後，線性注意力是比較火的，因為 Mamba 那時候大火，帶火了這個方向。

晚點：從對 Transformer 的 Full Attention 改動程度上說，是不是稀疏改得相對少一些，線性會改動多一些？

鍾怡然：對，稀疏本質上還是一個 Transformer，它只是對 Attention Score 的計算方式做了一些改進。而線性注意力是改變了 QxKxV 相乘的計算方式。學術界對它的叫法很多，你可以把它叫作線性注意力，也可以把它叫作線性 Transformer。

晚點：線性注意力和 Transformer 以前的 RNN（迴圈神經網路）有什麼區別？

鍾怡然：它本質上也是一種迴圈，不過以前的 RNN 最大的問題是它沒法並行化，Linear RNN （線性迴圈網路）讓它能夠做大規模的並行化。

50% 的把握，投 80% 的資源

晚點：接下來我們可以從頭聊一聊，你們從 2021 年開始做線性注意力，到今天，這樣一步步，是個什麼過程。

鍾怡然：2021 年 7 月，我們啟動了 cosFormer 專案，這也是我們首次接觸線性注意力領域，相關研究成果發表在了 ICLR 上。cosFormer 如今線上性注意力上的知名度還可以。從那時起，我們發現這個方向大有可為。

當時想法很簡單：一方面，做 Transform 的人已經很多了，即便在這個領域做到極致，也不過是跟在別人後面。但是，線性注意力作為一個新興方向，關注者較少，與其追隨他人，不如另闢蹊徑。

其實線性注意力領域的一些論文出來得也很早，幾乎與 Transformer 同時。但它的效果不好、速度又慢，所以導致大家覺得它是一個 “美好的泡泡”，看起來很好，但是實際用起來不行。

2021 年- 2022 年，我們密集產出，探索了很多方法，包括線性注意力機制、長卷積（Long Convolution）和線性迴圈網路（Linear RNN），我們探索了現有的幾乎所有線性方案。到了 2022 年底，我們所研發的方法在語言建模方面，已經能夠達到與 Transformer 近乎相同的效果。

晚點：當時你們是去測哪些 benchmark，就是你們怎麼去判斷說當時的線性架構已經和 Transformer 差不多了？

鍾怡然：當時測的都是學術上的資料集。例如會關注困惑度、建模精度等，同時也會在一些常見的大模型資料榜單上，基於相同資料對比線性和 Transformer 的結果，也測過 Long Range Arena（注：由 Yi Tay 等研究者在 2020 年提出的針對長序列場景的測試基準）這類長文字 benchmark。

在實驗室階段，我們第一步是解決線性注意力的建模精度問題，第二步是處理速度問題。線性注意力存在一個棘手的問題，它雖然理論複雜度是線性，但實際上跑起來很慢，這是因為右乘操作涉及一系列迴圈操作，而這對於 GPU 極不友好，這就導致實際執行效率遠低於理論複雜度。為解決這一難題，我們在 2020 年推出了 TNL 和 Lightning Attention。Lightning Attention 就是讓它的實際效率更接近它的理論計算複雜度。

所以這一段，在上海人工智慧實驗室期間，我們認為它已經達到了 Scale Up ready 的狀態。我們自認為已經解決了精度問題，也解決了推理效率問題。

晚點：當時做到這個 Scale Up ready 狀態，最大是在多大模型上做了測試？

鍾怡然：最大是訓到了 15B 的模型。

晚點：你們當時沒有繼續往下做更大規模的 Scaling Up 的測試，是因為在實驗室裡會有一些資源的限制嗎？

鍾怡然：當時對我來說，需要把它真正做到 Scale Up，我就面臨一個找金主的過程。

那時我是比較著急的，因為我判斷，最遲在 2024 年底，基於線性注意力的大模型必然會誕生，不是我們做出來，就是 Google、OpenAI 等其他機構。既然要誕生，為什麼不在我們自己手裡了？我們是當時最懂線性注意力的人。

晚點：最懂指中國，還是指全球？

鍾怡然：基本上是全球。包括現在比較活躍的松林（楊松林）之前也是我們組員。所以當時其實就是有個想法，想找到人願意投資這個方法，支援我們把它（線性架構） Scale Up。

晚點：你最後找到的 “金主” 就是 MiniMax？

鍾怡然：這實際上是一個雙向的過程。之前我在商湯工作時，就在俊傑手下。我記得在 2023 年底，俊傑恰好約我一起吃飯，正好聊到了線性注意力的問題。

晚點：你是不是也想過自己創業？

鍾怡然：我考慮過，但這很難。基礎架構創新需要的投資金額非常高，而我們僅在演算法上具備優勢。

大模型很複雜——首先架構要好，再者訓練資料要好，最後訓練方式也要對，三環是缺一不可；任何一個地方掉了鏈子，都會沒法證明你想要證明的東西。首先我得保證這家公司能做一流的預訓練，在這一點上已經砍掉很多公司了。

晚點：你當時見一些投資人，他們的反饋是什麼？

鍾怡然：他們比較喜歡聊，你的應用方向是什麼？變現渠道是什麼？將來怎麼樣去盈利？

晚點：公司方面，你當時看到的，能做一流預訓練的公司都有哪些？

鍾怡然：大小公司算上，我覺得第一個是字節跳動，第二個是 MiniMax。

晚點：Kimi （月之暗面）不是嗎？

鍾怡然：關於 Kimi，我得到的訊息比較少，所以當時在我眼裡，只有兩個選擇，要不然就是海外了。

晚點：你和位元組聊，得到了什麼反饋？

鍾怡然：我感覺位元組的興致不是很高。作為一家大公司，雖然有資料也有人，但要讓他們真正轉型，去花那麼大精力去做一個未知的方向，比較難。

晚點：回到 2023 年下半年，你和閆俊傑聊，他的反饋是什麼？

鍾怡然：早在 2021 年，我和俊傑已非常熟悉。經過交流，我們發現他是很願意去嘗試的，並且願意調配公司絕大部分精力投入其中。

因為這個模型是一個主模，研發要耗費公司 80% – 90% 的資源，牽扯到資料團隊、工程團隊、演算法團隊等眾多部門，需要大量人員齊心協力才能完成。

晚點：閆俊傑比較認可你，是因為他們之前線上性注意力機制上也有一些探索？

鍾怡然：之前他們在這塊的工作不太多，當時正處於下一代模型技術選型階段。俊傑或許認為我的工作比較紮實，他對這個工作比較信任。

當然，俊傑看這件事的視角與我不同，我認為有 99% 的成功率。而對他而言，可能覺得成功與失敗的機率各 50%。對我們這些一直深入鑽研的人來說，我們熟知其中關鍵要點，所以我們是很相信能夠 Scale Up 的。

晚點：閆俊傑有 50% 把握，就敢上 80% 的資源，這個賭性是不是有點大？

鍾怡然：這確實是要賭的。但我們有 Scaling Laws 的測試去一步一步驗證，他不是一開始就 all in 全部弄起來。我們是先在成本可控的範圍裡做小的模型，再做大的模型。

3700 次預訓練驗證非共識：從 “美好的泡泡” 到 4560 億引數的 MiniMax-01

晚點：在你們一步步去驗證這個想法的過程中，你們又看到了什麼？

鍾怡然：2023 年底，我們用的還是一個純線性的方案，訓練出了一版 15B 規模的模型，從效果來看與 Transformer 相差無幾。

但是，後續當我們擴大模型規模後卻發現，無論是 Lightning Attention，還是其他線性方法，都存在一個最大的問題——在 Retrieval（召回）上存在缺陷。

所以我們不得不選擇了一個比較折中的方案，透過混合架構——每 7 層線性注意力加入 1 層 Softmax 注意力進行最佳化。

晚點：可以給我們的聽友也解釋一下，Retrieval 是個什麼樣的能力？以及注意力機制改進都會去測的、檢驗 Retrieval 能力的 “大海撈針” 的任務是個什麼任務？

鍾怡然：Retrieval 指的是召回或檢索能力。以 “大海撈針” 任務為例，給定一篇長文，其中存在一段話或一句話與其他內容格格不入，此時就需要用定點召回能力找出來。“大海撈針” 是測試，在很長的長文中，模型能不能找到這根格格不入的針，這是一項基礎能力。

線性注意力在執行這項任務時先天不足，這也很正常。因為線性注意力的 KV 快取是一個固定值，無論輸入文字多長，都會被壓縮至一個固定大小的儲存中。這個過程會導致它檢索能力較差。

晚點：你當時會壓力山大嗎？因為已經要上規模了，出現這種情況。

鍾怡然：我們是有保底方案的，就是混合。但我們當時覺得這個方案確實不好看、不夠優雅。

晚點：所以你們最後去改善純線性注意力召回能力比較差的方式，就是你們現在在技術報告裡寫的—— 7 層線性注意力混合 1 層 Softmax 注意力？

鍾怡然：對，我們也試了每隔十四層、十六層混合一個 Softmax Attention ——測試了不同的混合比例。從最終結果來看，受影響最大的是檢索能力，而在語言建模方面，不同混合比例下的能力差異不是很大。

晚點：在做的過程中間，具體以什麼比例混合？有任何理論指引或解釋嗎？能幫助提前判斷一下效果的？

鍾怡然：這個沒有，我們是自己試出來的。我們甚至試過最極端的情況——僅採用一層 Softmax Attention（注：指大幾十層的模型中，只有一層是 Softmax，其他都是線性注意力），效果也還算不錯。

我們最終選了現在這個方案，主要是因為已經比較激進地改了架構，我們擔心最終效果會受損，所以選了一個相對保守的 1:7 的比例。比如之前 Jamba 的混合層數，也是 1:8 、1:7 這種。

（注：Jamba 是由 AI21 Labs 於 2024 年推出的首個 SSM（狀態空間模型）-Transformer 混合架構大模型，支援 256K 上下文視窗。）

晚點：那最開始，是怎麼想到要用混合這種方式的？

鍾怡然：這其實是非常符合直覺的一種嘗試。

晚點：在有了這個混合的方案後，你們的 Scaling Laws 實驗的過程是怎樣的？

鍾怡然：做 Scaling Laws 實驗的首要目的，是驗證這個技術方向是否存在問題，混合方案的實驗和做 Scaling Law 測試是同時展開的。

我們對多種線性方案進行了測試。除了 Lightning Attention，還涵蓋了 HGRN2、Mamba。

晚點：這麼多實驗，要花多少資源？

鍾怡然：我們大概訓了 3700 個模型才跑出來一篇文章。因為決定 Scaling Up 是一項重大決策，畢竟，沒人願意投幾千萬資金去訓練一個大模型，最後卻以失敗告終。

尤其是這種開拓性工作，必須把基礎工作做得極紮實。我們要仔細斟酌引數和注意力結構的選擇，不同方案都需要對它們測一系列 benchmark，最終在速度和效果間找到平衡。所以一套完整且嚴格的對比實驗是必須的。如果拍腦袋，確實可以省下這部分實驗成本，但無疑會增加後續專案失敗的機率。

晚點：訓了 3700 個模型，是全部從頭訓練，3700 次預訓練的意思嗎？

鍾怡然：全部都是從頭訓的，不同的大小、不同的引數。所以跑 Scaling Law 是一個成本很高的一個實驗。

晚點：你們一開始預估的就是要訓這麼多次嗎？總共花了多少資源？

鍾怡然：我們最早就有預估，就是 3700 次。我們把需要的卡數、資源數和要訓的模型數做了個 excel 表，我們根據這些表去訓出來就行了。

晚點：最後你們這個混合的線性注意力結構，帶來的實際效率提升是怎樣的？

鍾怡然：就是你的序列長度是 1M（100 萬）的情況下，它比 Full Attention 的整體處理速度要快 2700 倍。

“探索新架構讓我們跟進深度推理沒這麼快，但我們跑的是下半場”

晚點：這是速度上，效果上，線性注意力怎麼保障效果？比如，在 MiniMax-01、Kimi-k1.5 以及 DeepSeek-R1 釋出之後，我在朋友的電腦上看了實際測試情況，場景是我們輸入了一篇約 2 萬字的英文文章，詳細講述了海外社交媒體的使用方式，其中涉及很多功能，我們希望模型回答一個具體問題——人們如何使用社交媒體上的短影片功能。結果 MiniMax-01、DeepSeek-R1 表現都不及 Kimi-k1.5，會回答一些別的東西，這是什麼原因導致了差異呢？

鍾怡然：其實你所提及的這種能力，與訓練資料嚴格相關。我們只能確保模型具備展現該能力的潛力，但要讓模型切實擁有這種能力，訓練資料起著至關重要的作用。你提出的這個問題，正是我們下一代模型需要解決的問題。

晚點：目前 MiniMax-01 不是一個推理模型，像 R1 還有 1.5 它是推理模型。那你們現在這個架構去做推理，就是去結合強化學習，它的潛力、方法是怎樣的？

鍾怡然：我 “盜用” 一下另一家國內大模型公司的結論，他們認為 Linear 架構在推理上會更強一點，他們也線上性架構模型上開展過深度推理的相關實驗，結果顯示線性模型表現更為出色。

晚點：那你們自己看到的是什麼？

鍾怡然：我們正在做，現在還不能說得更詳細。因為最開始我們並沒有選擇去馬上跟 o1（這個方向），當時國內有一大批追隨者，但我們的想法是先紮實提升自身技術能力。我們認為單純強調推理能力，可能僅會在某些特定方面增強模型效能。然而，R1 釋出後，我們發現融入這些推理能力，模型的外推能力顯著提升，泛化能力更好。

晚點：你們當時研判要把技術基礎先做紮實，這些指的是什麼？

鍾怡然：我們希望這個模型能在內部榜單上跟 4o 差不多，或者跟世界頂尖模型差不多。當時的話 4o 是最先進的模型。

晚點：你們會比較去追求多模態嗎？4o 就是一個混合模態的模型。

鍾怡然：後來我也接手了多模態理解大模型相關工作。當時在構建多模態模型方面，存在兩條可行路徑：一是原生多模態，二是基於 adapter（介面卡）形式的多模態。經過考量，我判斷我們當時應採用 adapter 形式。因為在那時，原生多模態的實現路徑尚未完全打通，比如 Gemini-2.0 還未釋出。

這個方案優勢明顯。其一，我們能夠快速驗證資料是否存在問題；其二，效果能夠迅速顯現。只需投入較小成本，就能獲得性能較好的模型。從我們釋出的 VL01 來看，benchmark 結果還是不錯的。

晚點：所以可以這麼理解，MiniMax-01 在 MiniMax 主線模型中算得上是一次重大轉型或升級，此前 MiniMax 的 ABAB 系列，採用的是 Transformer 架構，現在的 MiniMax-01 是線性架構 ——你們語言的、多模態的和未來的模型進展都會在這個新架構上。

鍾怡然：對，其實這段的模型更迭很快。

晚點：為什麼 MiniMax 願意去投入做這個改動比較大的、比較激進的方案？

鍾怡然：首先，我們想展現自身的技術實力，我們是一家勇於創新的公司，敢押注新技術。並且我們已經將序列長度提升到了 4M（400 萬），如果我們願意的話，我們把它提升到 10M （1000 萬）也是能夠承受的序列長度。

不過（如果要做 10 M）當下需要考慮的是如何構建 10M 的資料，以及在實現 10M 序列長度後，到底能幹什麼。目前我們還是打算先將 1M 以內的相關工作做到極致，然後再把它往外推。

晚點：推理之後你們想探索什麼？我指從 o1 之後，強化學習被全面引入 Transformer 的整個流程當中，下一個變化可能是什麼？

鍾怡然：現在行業還是在做深度推理，這波其實剛剛起來，我們也還處於跟進階段。但我們認為長文字處理在未來仍是一個趨勢。我們比較高興看到像 kimi、DeepSeek，都推出了各自針對長文字最佳化的模型架構，這意味著大家都踏入了長文字這條賽道。

在我看來，俊傑其實也比較清楚：我們打的是一個長線，短期在效果上一定會落後，因為我們做了新架構，相同的算力和資源的情況下，我們是沒有太多人力去做深度推理的，這會導致我們跟隨深度推理的腳步慢一點。

但好處就是，當我們去做深度推理時——我們趕上的步伐會很快。所以在這場跑步當中，我們跑的是下半場。我們賭的就是未來長文字的需求。當線性注意力 Scale Up 到一定程度時，在長文賽道上很難碰到對手。

做技術的 “道心” 之爭

晚點：你怎麼看 DeepSeek、Kimi 等公司對稀疏注意力的改進，效率、效果上取得了不錯的效果？

鍾怡然：他們的主要創新之處在於，透過極致工程最佳化，改善了稀疏注意力以前速度過慢的問題。但它（稀疏注意力）的上限是低的，我並不認為 DeepSeek 會繼續走這條道路。因為當模型變得更大，線性注意力相比稀疏注意力的優勢會更明顯，他們想要 Scale Up，在做實驗的過程中也會看到這一點。

晚點：線性注意力上限高，而且實際上它可以 work，你覺得這在行業裡是一個共識，還是非共識？

鍾怡然：這是非共識，包括現在大家還是對線性注意力有擔憂，哪怕 MiniMax-01 這樣的成果已經發布了，一些人還是覺得線性注意力可能規模上去後會不太行。

晚點：為什麼有這種擔憂？

鍾怡然：可能是 MiniMax-01 的宣傳力度不夠，導致許多人沒關注到。目前很多人的共識是，認為線性注意力屬於有損的最佳化。畢竟從原理上看，用一次計算去逼近二次計算，好像是有損的。但有沒有可能這種二次計算複雜度本身就是冗餘的呢？而我們認為，它就是一個無損架構、一個無損最佳化，特別是變成混合架構以後，它的效果甚至還有增強。

這個就屬於學術方面的 “道心之爭”——技術判斷和你的相信是什麼。

晚點：據你所知，OpenAI、Anthropic 等國外 AI 公司，他們有在嘗試線性架構嗎？

鍾怡然：他們的架構很可能是基於 Sliding Window Attention（滑動視窗），這也是一種稀疏注意力。他們（Google 等）採用的方法大機率是滑動視窗 +Full Attention。

晚點：所以你們對線性的相信，也並不來自全球頂尖公司做了什麼或沒做什麼？

鍾怡然：對，並且我們是真正把論文轉化成產品的，現在 MiniMax 的產品就在用這套架構，這證明我們的技術是比較先進的。論文是在 24 年初，產品（用上這個架構）是在 24 年底。

晚點：你剛才講到，認可線性注意力上限大且能 work，在業界是一個非共識。你現在介意講這個非共識嗎？

鍾怡然：不介意，我們希望能傳播，希望更多人也來做線性注意力，也希望更多人一起開發長文字應用。其實我們開源 MiniMax-01，就是選擇知名度。

晚點：那麼你們對 MiniMax-01 這次開源的反饋和影響力滿意嗎？

鍾怡然：有朋友說這個報告寫得很好，工作比較 Solid，但是不知道為什麼沒有很多人知道？我覺得這個現狀其實就是要加強傳播。同時我們下一代模型也會做得更好。

晚點：為什麼在開源 MiniMax-01 時，你們只放了最大引數的版本，沒有放不同尺寸？因為一些小尺寸的模型，可能對學界、個人開發者、小機構是更友好的，這才讓更多人能參與進來。

鍾怡然：我們是有小尺寸的，但俊傑覺得要更重視效果，希望開源的是效果很好的，然後再考慮小模型開源。另外開源不同模型，就要維護不同的模型，其實需要的人力也更多。

晚點：DeepSeek 春節大出圈之後，你們的內部氛圍有什麼變化嗎？