線性注意力簡史：從模仿、創新到反哺

©PaperWeekly 原創 · 作者 | 蘇劍林

單位 | 科學空間

研究方向 | NLP、神經網路

在中文圈，筆者應該算是比較早關注線性 Attention 的了，在 2020 年寫首篇相關文章線性Attention的探索：Attention必須有個Softmax嗎？時，大家主要討論的還是 BERT 相關的 Softmax Attention。

事後來看，在 BERT 時代考慮線性 Attention 並不是太明智，因為當時訓練長度比較短，且模型主要還是 Encoder，用線性 Attention 來做基本沒有優勢。對此，筆者也曾撰文線性Transformer應該不是你要等的那個模型表達這一觀點。

直到 ChatGPT 的出世，倒逼大家都去做 Decoder-only 的生成式模型，這跟線性 Attention 的 RNN 形式高度契合。同時，追求更長的訓練長度也使得 Softmax Attention 的二次複雜度瓶頸愈發明顯。

在這樣的新背景下，線性 Attention 越來越體現出競爭力，甚至出現了“反哺”Softmax Attention 的跡象。

平方複雜度

首先引入一些記號：

一個 Attention 模型，本質上是一個的對映。本文主要關心 Causal 場景，這意味著至多跟相關。

原則上，的 d 與的 d 可以不一致，比如 GAU 和 MLA 便是如此，但將它們簡化成同一個並不改變問題本質。

標準的 Softmax Attention，通常是指 Attention is All You Need 所提的 Attention 機制：

這裡省略了縮放因子，因為它總可以吸收到裡邊，是對第二個維度進行指數歸一化，而是一個下三角陣，稱為掩碼矩陣，定義為：

是指對的分量逐一取，其中。Softmax Attention 用分量形式寫出來則是：

其中分母的作用主要是保持數值穩定性，另外就是如果我們給加上 RMSNorm，那麼分母也會自動消去，所以 Softmax Attention 的核心是分子部分，即：

其中是Hadamard積，是逐分量取指數。不難看出，分母其實就是將換成一個的全1矩陣，如果有需要，我們再補上即可。

Softmax Attention 的標準實現需要把的矩陣算出來，所以空間和時間複雜度都正比於。Flash Attention [1] 的出現降低了空間需求，但平方的時間複雜度依然無法避免。

最初的模樣

線性 Attention 最早的思路主要是模仿和近似 Softmax Attention，其中最簡單的方案是直接去掉，得到：

簡單起見，我們約定矩陣乘法的優先順序高於 Hadamard 積，這樣可以省掉一組括號。為什麼這個形式是“線性”Attention 的呢？

為了快速理解這一點，我們不妨先考慮去掉的非 Causal 版，此時成立，注意計算的複雜度是，結果是矩陣，然後跟相乘複雜度也是，所以它複雜度是線性依賴於 n。

至於 Causal 版（6），我們可以從分量形式理解，寫出：

如果我們記括號部分為，那麼有：

由此可見，Causal 形式的 Attention 可以寫成一個以為 State 的線性 RNN，因此每一步的複雜度是常數，總的複雜度正比於序列長度 n。

注意這裡出現了“線性 RNN”，它是更廣義的概念，線性 Attention 屬於線性 RNN 的一種，線性 RNN 也單獨發展過一段時間，比如之前介紹過的 LRU、SSM 等，但最近比較有競爭力的線性架構都具有線性 Attention 的形式。

早年的線性 Attention 還有一些非常明顯的模仿 Softmax Attention 的特點，比如會給式（6）加入分母來歸一化，而為了歸一化，那麼就必須非負，於是又給加上了非負的啟用函式，以 Performer、RFA [2] 為代表的一系列工作，更是以近似為出發點來構建模型。

然而，後來的研究如《The Devil in Linear Transformer》[3] 發現，在序列長度維度歸一化並不能完全避免數值不穩定性，倒不如直接事後歸一化，如：

而既然不用歸一化，那麼給加非負的啟用函式來保證非負就非必須了。那給加（不一定非負的）啟用函式還有意義嗎？

筆者的觀點是，加啟用函式是大家的自由，不排除加某個啟用函式能夠調出更好的效果，但加啟用函式並不改變線性 Attention 的形式，所以不影響我們的描述，另外就是現有的結果表明，其實不加已經足夠好。

花式遺忘門

從式（8）我們可以看出，目前的線性 Attention 本質上就是個，即將所有歷史資訊都等權地疊加，不難想象當疊加的 token 足夠多時，每個 token 的資訊佔比都會變得極小，於是單靠固定大小的矩陣甚至無法準確重建任意一個 token，直觀類比就是每個 token 的記憶都變得模糊不清。

為了緩解這個問題，RetNet [4] 給線性 Attention 引入了遺忘效應：

其中衰減因子，在 RetNet 中被設為常數，也有設為可訓練引數的，以及將γ改為對角矩陣的，等等，MiniMax-01 [5] 所用的線性 Attention 也是這種。

注意，衰減因子在 RetNet 前也有，不過它們多以線性RNN的形式出現，如上一節提到的LRU、SSM 等，RetNet 應該是首次將它跟線性 Attention 結合起來。

加入衰減因子後，模型會傾向於遺忘掉更為久遠的歷史資訊，從而至少保證最近 token 的解析度，說白了就是跟語言模型特性相符的“就近原則（Recency Bias）”的體現，從而往往能工作得更好。

此外，一個值得關注的細節是 RetNet 還給加上了 RoPE，這相當於將衰減因子推廣到複數，從 LRU 的角度看則是考慮了複數的特徵值。

儘管給 RNN 加位置編碼的操作看上去似乎有點違和，但有些實驗比如最近的 TransXSSM [6] 表明，給線性 Attention 加 RoPE 也有一定的正面作用。當然，這可能取決於具體的模型變體和實驗設定。

式（10）的一個簡單推廣是將更換為位置 t 的函式，這在 SSM 中已經有所體現。

後來，DFW [7]、Mamba [8]、Mamba2 [9] 等工作，將它推廣成跟輸入相關，形成了“data-dependent decay”相關的一系列工作，這跟以往 GRU、LSTM 等非線性 RNN 的“遺忘門（forget gate）”其實已經非常相似了，只不過為了保持模型的線性性，去掉了遺忘門對 State（如）的依賴。

為什麼我們偏愛線性 RNN 呢？因為線性 RNN 基本都能找到某種方式來並行訓練，這使得它相比 Softmax Attention 更具競爭力——在訓練效率和推理效率上都不遜色。

其中，並行化的“通解”是轉化為 Prefix Sum [10] 問題然後 Associative Scan，大體思路我們在Google新作試圖“復活”RNN：RNN能否再次輝煌？的“並行化”一節也簡單介紹過。

然而，“通解”並不是 GPU 高效的，GPU 最高效的是矩陣乘法，所以找到大量使用矩陣乘法的並行演算法是最理想的，甚至都不用並行，只要找到充分使用矩陣乘法的 Chunk by Chunk 遞迴格式，都能明顯提高訓練效率。

這反過來對模型提出了要求，如只有外積形式的遺忘門才能實現這個目的，典型反例就是 Mamba，它是非外積的遺忘門，無法充分發揮 GPU 的效能，所以才有了後續 Mamba2 和 GLA [11] 等變化。

測試時訓練

至此，線性 Attention 從最初的簡單模仿 Softmax Attention，到引入靜態衰減因子乃至“data-dependent decay”，已經形成了自身的特色並在不少任務上發揮價值。

然而，這些進展多數是靠人工憑經驗設計出來的，我們不禁要問：有沒有更上層的原則來指導線性 Attention 甚至是一般的序列模型（Token-Mixer）的設計？

對於這個問題，TTT（Test Time Training）[12] 給出了自己的答案，它將序列模型的構建視為一個“線上學習（Online Learning）”問題，並提出用最佳化器來構建（不一定是線性的）RNN 的做法。

具體來說，它將視作語料對，根據這些語料訓練得到一個模型，最後輸出，其中是模型引數，至於模型結構很大程度上是任意的。

這跟 RNN 有什麼關係呢？很簡單，最佳化器如 SGD、Adam 等，它們本質上就是一個關於模型引數的 RNN！

其實這個觀點並不新鮮，早在 2017 年 Meta Learning 盛行那會就已經有研究人員提出並利用了這點，只不過當時的想法是嘗試用 RNN（LSTM）去模擬一個更好的最佳化器，詳情可以參考《Optimization as a Model for Few-Shot Learning》[13]。

正所謂“風水輪流轉”，時隔多年 TTT 反過來提出透過最佳化器來構建 RNN。它的流程是這樣的：首先，當前模型引數為，最佳化器（SGD）接收到新數據，根據該資料將模型引數更新為，最後返回的預測結果，依此類推。

所以，TTT 所實現的 RNN 可以統一地寫成：

其中是當前資料在當前引數下的損失函式，則是學習率引數，參考上一節的“data-dependent decay”，它也可以做成 data-dependent 的。

這個形式可以覆蓋非常多的 RNN 模型，比如式（8）和（10）都是它的一個特例：

TTT 原文則致力於探索 mini-batch 下的非線性 RNN，後來的 Titans [14] 則給 TTT 的 SGD 加上了動量，再後面《Test-Time Training Done Right》[15] 則探索了 large-batch 的 TTT 用法，還探索了“TTT + Muon”的組合。

注意，TTT 只是利用最佳化器來構建 RNN，RNN 以外的引數如的可訓練引數，還是將整個模型構建起來後用整體的最佳化器訓練的。

一個更值得思考的問題是：為什麼 TTT 可以成為構建 RNN 的“指導原則”呢？

RNN 的核心目標，是將歷史資料有效地壓縮到一個固定大小的 State 中，而模型引數正好是固定大小的，訓練模型某種程度上就相當於把訓練資料壓縮到模型權重中，TTT 正是利用了它跟 RNN 目標的高度契合性。

說直白一點，如果將 RNN 視為一個壓縮任務，TTT 將模型視為“解壓器”，它的權重則是“壓縮包”，而壓縮演算法則是 SGD，壓縮率則是損失。

這樣一來，我們就不用花心思構建遞迴格式了，轉而構建模型和損失，一個 RNN 強不強、靠不靠譜，我們也只需看對應的和就可以心中有數。

除此之外，TTT 用 Online Learning 構建 RNN，意味著所得 RNN 必然非常契合 ICL（In Context Learning）任務，這也是 TTT 作為“指導原則”的優勢。

此前《Why Can GPT Learn In-Context? Language Models Implicitly Perform Gradient Descent as Meta-Optimizers》[16] 甚至反過來，將 Softmax Attention 去掉 Softmax 成線性 Attention 來解釋它的 ICL 能力，用現在的視角看它就是構造了對應的 TTT 出來。

除舊而迎新

例如，最早的線性 Attention 對應的損失函式是，這一看就是個不大靠譜的目標，因為它是無下界的，這可能會導致趨於無窮。

相比之下，RetNet 往損失函式加入了 L2 正則項，避免了這種風險，從最佳化角度看也緩解了過擬合的風險，從而得到一個更好的 RNN。

然而，用內積作為損失函式雖然簡潔且有一定道理，但它不是直接鼓勵，所以並非一個理想的迴歸損失。更好的目標函式應該是平方損失，即，將它代入到 TTT 的公式（11）得到：

這便是 DeltaNet，這個名字出自《Parallelizing Linear Transformers with the Delta Rule over Sequence Length》[17]，更早則是由《Linear Transformers Are Secretly Fast Weight Programmers》[18] 提出。

留意到，這意味著總可以吸收到的定義中去，所以我們接下來的分析都只考慮的情況：

如果有需要，我們再把換成，就可以將恢復出來。對比線性 Attention 最早的形式（8），DeltaNet 的區別是在加前多減了個，其中可以理解為新輸入在舊模型下的預測結果。

直觀來想，“先減後加”就是先移除模型對的舊認知，然後根據補充新認知，達到“除舊迎新”的效果。這個規則稱為“Delta Rule” [19]，正是 DeltaNet 一詞中“Delta”的來源。

Delta Rule並不新鮮，它又稱為 Least Mean Square [20]、Widrow-Hoff Algorithm 等，已經是上個世紀 60 年代的產物了。事實上，這個領域完全新的東西很少，很多改動都可以追溯到某個“上古時期”的工作，目前的努力主要集中在挖掘其中能 Scalable 的部分。

另外需要指出的是，按照時間的順序，是 DeltaNet 在前，TTT 在後，從 Online Learning 角度理解 RNN，其實在 TTT 之前已經零星地體現在一些工作中，但 TTT 系統地提出了這個“指導原則”，並且將它用於構建新 RNN 模型，所以我們把 TTT 放在前面，使得整個介紹更加流暢自然一些。

有些讀者可能疑問：DeltaNet 還算線性 RNN 嗎？

答案是肯定的。我們所說的線性 RNN，是指遞迴公式對 State 變數的依賴關係是線性的，但對輸入或的依賴可以是非線性的（當然不同依賴形式的並行效率會有所不同），從式（13）可以看出，等號右端始終只是出現了的一次方，所以它滿足線性的定義。

求逆與推廣

前面我們說了，線性 RNN 最理想的（即 GPU 高效的）並行演算法是充分使用矩陣乘法的形式。為了完成這一目標，我們先將 DeltaNet 寫成：

記，那麼，也就是說它只是在最早的線性 Attention 基礎上把換成了，將它迭代 t-1 次，我們有：

最後的等式寫成矩陣形式是，其中，這是一個線性方程組，它的解可以直接表示為：

這裡出現了，一個矩陣的逆，標準複雜度是，比 Softmax Attention 還高！不過好在我們不需要顯式的逆而是隻要，這可以轉化為解方程組，複雜度降到。

進一步地，利用是下三角陣以及的低秩結構，可以將複雜度降到線性，寫成分塊矩陣乘法後就可以充分利用 GPU。這些細節只能請大家閱讀原論文了，本文先把主要數學原理介紹清楚。

DeltaNet 之後，Gated DeltaNet（GDN）[21] 進一步地將遺忘門引入到 DeltaNet 之中，這倒是可以預料的變化。Gated DeltaNet 的原始引入方式是：

但個人認為，這個提法其實顯式打破了 Delta Rule，更好的提法應該是像 Comba [22] 一樣，只乘到第一個上：

它相當於將損失函式取。當然，從數學上來說，這兩個提法都是等價的：

即然後把吸收到就可以轉化為後者了。所以說，這兩個形式在數學上並沒有區別，由於多數會接近於 1，所以能力上估計也沒啥區別（Comba 說（18）會好一點），只不過後者更直觀地保留了 Delta Rule 的樣子。

從理論上來說，Gated DeltaNet 也可以寫成 DeltaNet 的形式，因為只需要定義，那麼式（17）兩邊同時除以，就得到：

然後結合，可以發現只需要分別將設置為新的，那麼就能簡化成 DeltaNet 的形式。

不過，這個結果只有在某些情況下具有理論推導的價值（比如推導下一節的 Attention 矩陣），因為實際計算中，不管怎麼引數化，對於足夠大的 t，和之一必有溢位的風險。

DeltaNet 之後還有另一個推廣 DeltaProduct [23]，它是將擴充套件若干倍後再做 DeltaNet 或者 Gated DeltaNet，試圖增強模型的狀態追蹤能力。

不過，就筆者的審美而言，與其像DeltaProduct那樣擴充套件常數倍，還不如像時空之章：將Attention視為平方複雜度的RNN一樣嘗試平方複雜度的 RNN，看有沒有機會超越 Softmax Attention。

反哺進行時

說到超越 Softmax Attention，開頭提到，如今的線性 Attention 不僅能與 Softmax Attention 一較高低，甚至開始“反哺”它。這看似不可思議，但細思之下並不難理解。

某種意義上，這些年 Softmax Attention 一直在退步，從 MHA、GQA 到 MQA 都是為了壓縮 KV Cache 而做減法。而線性 Attention 沒有 KV Cache 問題，所以一直往更好的方向前進。

為了更好看出這一點，我們不妨將前面提到的 Attention 機制都以矩陣形式寫出來：

其中：

以及。這樣看來，Softmax Attention 的形式還僅停留在最早的線性 Attention 那會（當然這也證明了它的強大）。那“反哺”怎麼實現呢？

首先我們需要一種方法把 Softmax Attention 轉化為線性 Attention，這個並不難，早在 Transformer升級之路：作為無限維的線性Attention [24] 我們就總結了三種將 Softmax Attention 轉化為無限維線性 Attention 的方案。

總之，就是存在一個對映，將從對映到，滿足，這稱為“核技巧”。

那接下來的事情就簡單了，我們只需將上述表格中的線性 Attention 的換成，最後再設法恢復並歸一化，就得到新的 Softmax Attention 變體了。例如，代入到遺忘門的公式，我們有：

如果取常數，那麼其實就是《Train Short, Test Long: Attention with Linear Biases Enables Input Length Extrapolation》[25] 所提的 ALIBI，而如果是依賴於輸入的，那麼就是《Forgetting Transformer: Softmax Attention with a Forget Gate》[26] 所提的 FoX。

一個更有意思的結果是《Understanding Transformer from the Perspective of Associative Memory》[27] 所提的 DeltaFormer，顧名思義它是 Softmax Attention 的 DeltaNet 版本。將 DeltaNet 的換成，我們有：

如果要歸一化，我們將換成即可。相比 Softmax Attention，DeltaFormer 將原本的改成了，注意到：

所以 DeltaFormer 相當於先用算多次 Attention，將結果疊加起來後作為新的，再跟算一次 Attention，這個特性讓它對 Multi-Hop 的任務有奇效（比如 Code）。

此外，DeltaFormer 的這個特點還意味著它跟 MQA 特別搭配，因為這部分只有參與，而對於 MQA 來說只有 Single-Head，計算量相比 MHA 會明顯降低。

不過，在筆者看來，這種固定係數的疊加可能是“沒有免費午餐”，比如筆者的實驗結果顯示，DeltaFormer 的語言模型損失並無太大變化，這意味著如果某些任務的損失明顯降低，必然有另一些任務的損失上升了。

硬核編碼術

還有一個值得關注的反哺工作是 PaTH Attention，出自《PaTH Attention: Position Encoding via Accumulating Householder Transformations》[28]，它從位置編碼的角度將 DeltaNet 反哺到 Softmax Attention。

我們在Transformer升級之路：旋轉位置編碼的完備性分析指出，對於任何正交矩陣，都是廣義的 RoPE。

除了旋轉矩陣，還有哪些容易構建的正交矩陣呢？

PaTH 用的是 Householder 矩陣 [29]：設是任意模長為的列向量，那麼是一個正交矩陣，這我們在《從一個單位向量變換到另一個單位向量的正交矩陣》[30] 也推導過，幾何意義是鏡面反射。

容易看出，這跟 DeltaNet 中所乘的是一樣的，所以 PaTH 乾脆把這部分照搬過來，即放棄這個形式，也放棄模長為的約束，直接用一系列連乘來表達位置資訊：

將寫成遞迴形式是。對比 DeltaNet 的式（13），上式相當於恆等於零，但初值不再是零。使用“求逆來相助”一節同樣的過程，我們可以得到：

其中，切片按Numpy來理解，如，切片優先順序高於轉置。

注意求逆的是下三角陣，三角陣有一個重要特性，逆矩陣的對角線元素等於原矩陣對角線元素的倒數，如果是分塊三角陣則對角塊也滿足這個特性，於是我們可以寫出：

接下來的變換，寫成分量形式可能好理解一些：

這裡有幾個關鍵點：比較巧妙的是第4個等號，它利用了是下三角矩陣這一點，所以時自動為零；第5個等號，為示性函式，滿足下標的條件時為1，否則為0。

第 6 個等號，當我們分別處理 p,s 兩部分求和時，結果是和，而乘剛好表示保留的下三角部分（連同對角線），而乘則表示保留的下三角部分（不包括對角線）。

至此，我們可以把整個（Softmax 之前的）注意力矩陣寫出來：

有沒有被震驚到？這還沒完。直接求逆複雜度是，這肯定無法接受，還要想辦法利用的低秩特點將複雜度降低到，然後還要推反向傳播，最後寫成類似 Flash Attention 的高效實現，這些細節大家只能看原論文挖掘了，總之全程都非常硬核。

從位置編碼的角度看，PaTH 是 CoPE（Contextual Position Encoding）[31] 的一種，它的位置並不是編號，而是根據上下文內容自動生成的位置訊號。

類似地，FoX 也可以看成是 Contextual 版的 ALIBI。上下文相關的位置資訊是當前線性 Attention 的主要特徵，也可能是反哺 Softmax Attention 的主要方向。

化簡樂無窮

我們不妨再深入點探討一下 PaTH，這不僅有助於我們瞭解 PaTH，也能幫助我們更熟悉 DeltaNet，兩者本身就是高度相關的。這一節我們從 PaTH 的兩個特例入手，它可以幫助我們更好地理解 PaTH 與 DeltaNet 的關聯。

第一個特例是，代入到（29）得到：

有沒有覺得有點熟悉？這剛好就是 DeltaNet 的 Attention 矩陣！從這個特例看來，PaTH 和 DeltaFormer 的區別就在於，DeltaFormer 基於核技巧，給 DeltaNet 的和分別加上，而 PaTH 直接給 DeltaNet 的 Attention 矩陣加上。

第二個特例是重新引入這個約束，此時是正交矩陣，我們引入：

那麼。這個等式意味著我們可以像 RoPE 一樣，用絕對位置的方式實現相對位置的 PaTH，即只需要給每個都乘上，然後套用 Softmax Attention 的實現就行。那麼乘是什麼運算呢？重複上一節的展開過程，我們有：

寫成矩陣形式就是：

是不是又覺得有點熟悉？其實第二部分就是！所以這種情況下 PaTH 實現的效果等價於是：

也就是用 DeltaNet 給加位置編碼。這樣看 PaTH（在這個約束下）就相當於 Softmax Attention 與 DeltaNet 的某種層內混合。

當然我們也可以考慮放棄前面的推導，即便時也按照上式來實現，這就類似於透過 Canon Layers [32] 的方案，用卷積給加位置資訊了，只不過這裡的卷積不再是短卷積，而是 DeltaNet 這種長卷積。

劍走偏鋒法

最後，我們再看最近的一個同樣值得關注的線性 Attention 模型——MesaNet（還有一個大同小異的同期工作 Atlas[33]）。

TTT 的 Online Learning 視角告訴我們，DeltaNet 其實就是在用 SGD 最佳化目標函數，而我們仔細觀察就會發現，只是的線性函式，所以這實際上只是一個線性迴歸問題，線性迴歸是有解析解的！

MesaNet 就是利用這個解析解來構建序列模型的，其想法起源於《Uncovering mesa-optimization algorithms in Transformers》[34]，高效訓練則是由《MesaNet: Sequence Modeling by Locally Optimal Test-Time Training》[35] 實現。

MesaNet 在上述公式基礎上給加入遺忘門，然後求時加上對角陣避免不可逆，總的模型是：

很明顯，關於序列長度的複雜度是線性的，所以的計算複雜度也是線性的，因此 MesaNet 仍然屬於線性 Attention 的範疇，並且由於解析解的緣故，基本上可以保證大多數情況下它優於 DeltaNet 甚至 Gated DeltaNet。

從訊號處理的角度看，MesaNet 與 DeltaNet 是 Recursive Least Square [36] 和 Least Mean Square [37] 的區別。

看上去都是優點，為啥筆者會將它歸入“劍走偏鋒”呢？在筆者看來，MesaNet“成也解析解，敗也解析解”，解析解使得它通常優於 DeltaNet，但也給人一種“到此為止”的感覺，因為只要稍變一下就幾乎沒有機會求得解析解了。

縱觀整個數學史，所有依賴於解析解的分支在今天幾乎已經都沒落了，因為解析解實在太稀罕、太沒有代表性了。

從實現上來看，MesaNet 需要求逆的矩陣並不是三角陣，盡管仍然可以轉化為解方程而不需要顯式逆，但非三角陣仍使得它求解複雜度會增加不少。

如何儘可能低成本地平行計算全體將會是 MesaNet 長期的難點，目前論文用到的是“共軛梯度法”求近似解，能用但並不完美。

再就是從理論能力上看，MesaNet 也並非嚴格優於 DeltaNet。這是因為 MesaNet 的更新規則還是簡單的滑動平均形式，它的求逆也不涉及到 Token 之間的互動，所以它的能力極限大概不如擁有 Delta Rule 的 DeltaNet。

直觀理解就是，MesaNet 會盡力記住全體，這在多數情況下是好事，但某些情況下會導致比較模糊的記憶，而 DeltaNet 的原則是“除舊迎新”，因為“除舊”的緣故，它可以實現長期、精準地記憶某些內容。

總的來說，MesaNet 是一個讓人賞心悅目的模型，但解析解也增加了它的複雜性和限制了它的靈活性，留下了不少亟待探索的空間。如果讀者想要了解更多基於線性迴歸來構建序列模型的內容，還可以閱讀 TTR [38]，它對各種線性迴歸目標下的序列模型做了詳細討論。

方興未艾路

本文簡要梳理了線性 Attention 的發展脈絡，並介紹了部分模型的數學原理。線性 Attention 從模仿 Softmax Attention 起步，逐漸發展出自身特色，如今已成為極具競爭力的序列建模方案，甚至反過來為 Softmax Attention 的發展提供了新思路，這一過程本身充滿了趣味性和啟發性。

參考文獻

[1] https://papers.cool/arxiv/2205.14135

[2] https://papers.cool/arxiv/2103.02143

[3] https://papers.cool/arxiv/2210.10340

[4] https://papers.cool/arxiv/2307.08621

[5] https://papers.cool/arxiv/2501.08313

[6] https://papers.cool/arxiv/2506.09507

[7] https://papers.cool/arxiv/2210.04243

[8] https://papers.cool/arxiv/2312.00752

[9] https://papers.cool/arxiv/2405.21060

[10] https://en.wikipedia.org/wiki/Prefix_sum

[11] https://papers.cool/arxiv/2312.06635

[12] https://papers.cool/arxiv/2407.04620

[13] https://openreview.net/forum?id=rJY0-Kcll

[14] https://papers.cool/arxiv/2501.00663

[15] https://papers.cool/arxiv/2505.23884

[16] https://papers.cool/arxiv/2212.10559

[17] https://papers.cool/arxiv/2406.06484

[18] https://papers.cool/arxiv/2102.11174

[19] https://en.wikipedia.org/wiki/Delta_rule

[20] https://en.wikipedia.org/wiki/Least_mean_squares_filter

[21] https://papers.cool/arxiv/2412.06464

[22] https://papers.cool/arxiv/2506.02475

[23] https://papers.cool/arxiv/2502.10297

[24] https://kexue.fm/archives/8601

[25] https://papers.cool/arxiv/2108.12409

[26] https://papers.cool/arxiv/2503.02130

[27] https://papers.cool/arxiv/2505.19488

[28] https://papers.cool/arxiv/2505.16381

[29] https://en.wikipedia.org/wiki/Householder_transformation

[30] https://kexue.fm/archives/8453

[31] https://papers.cool/arxiv/2405.18719

[32] https://papers.ssrn.com/sol3/papers.cfm?abstract_id=5240330

[33] https://papers.cool/arxiv/2505.23735

[34] https://papers.cool/arxiv/2309.05858

[35] https://papers.cool/arxiv/2506.05233

[36] https://en.wikipedia.org/wiki/Recursive_least_squares_filter

[37] https://en.wikipedia.org/wiki/Least_mean_squares_filter

[38]https://papers.cool/arxiv/2501.12352

更多閱讀

#投稿通道#

讓你的文字被更多人看到

如何才能讓更多的優質內容以更短路徑到達讀者群體，縮短讀者尋找優質內容的成本呢？答案就是：你不認識的人。

總有一些你不認識的人，知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑，促使不同背景、不同方向的學者和學術靈感相互碰撞，迸發出更多的可能性。

PaperWeekly 鼓勵高校實驗室或個人，在我們的平臺上分享各類優質內容，可以是最新論文解讀，也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個，讓知識真正流動起來。

📝 稿件基本要求：

• 文章確係個人原創作品，未曾在公開渠道發表，如為其他平臺已發表或待發表的文章，請明確標註

• 稿件建議以 markdown 格式撰寫，文中配圖以附件形式傳送，要求圖片清晰，無版權問題

• PaperWeekly 尊重原作者署名權，並將為每篇被採納的原創首發稿件，提供業內具有競爭力稿酬，具體依據文章閱讀量和文章質量階梯制結算

📬 投稿通道：

• 投稿郵箱：[email protected]

• 來稿請備註即時聯絡方式（微信），以便我們在稿件選用的第一時間聯絡作者

• 您也可以直接新增小編微信（pwbot02）快速投稿，備註：姓名-投稿

△長按新增PaperWeekly小編

🔍

現在，在「知乎」也能找到我們了

進入知乎首頁搜尋「PaperWeekly」

點選「關注」訂閱我們的專欄吧

dignews.cc

線性注意力簡史：從模仿、創新到反哺

相關文章

AI封神了！無剪輯出片60秒《貓和老鼠》，外網瘋傳！

Transformer到底解決什麼問題？

AI封神了！無剪輯一次直出60秒《貓和老鼠》片段，全網百萬人圍觀

大模型“注意力簡史”：與兩位AI研究者從DeepSeek、Kimi最新改進聊起

3700次預訓練尋找“線性注意力”非共識，MiniMax-01開發者講述4年探索

一文徹底講透GPT架構及推理原理

【由淺到深】從神經網路原理、Transformer模型演進、到程式碼工程實現

AI怎樣模仿人類大腦的注意力機制？

通向機率分佈之路：盤點Softmax及其替代品

CVPR2025｜MambaOut：在視覺任務中，我們真的需要Mamba嗎？