線性注意力簡史:從模仿、創新到反哺

©PaperWeekly 原創 · 作者 | 蘇劍林
單位 | 科學空間
研究方向 | NLP、神經網路
在中文圈,筆者應該算是比較早關注線性 Attention 的了,在 2020 年寫首篇相關文章線性Attention的探索:Attention必須有個Softmax嗎?時,大家主要討論的還是 BERT 相關的 Softmax Attention。
事後來看,在 BERT 時代考慮線性 Attention 並不是太明智,因為當時訓練長度比較短,且模型主要還是 Encoder,用線性 Attention 來做基本沒有優勢。對此,筆者也曾撰文線性Transformer應該不是你要等的那個模型表達這一觀點。
直到 ChatGPT 的出世,倒逼大家都去做 Decoder-only 的生成式模型,這跟線性 Attention 的 RNN 形式高度契合。同時,追求更長的訓練長度也使得 Softmax Attention 的二次複雜度瓶頸愈發明顯。
在這樣的新背景下,線性 Attention 越來越體現出競爭力,甚至出現了“反哺”Softmax Attention 的跡象。

平方複雜度
首先引入一些記號:
一個 Attention 模型,本質上是一對映。本文主要關心 Causal 場景,這意味著  至多關。
原則上的 d 與 d 可以不一致,比如 GAU 和 MLA 便是如此,但將它們簡化成同一個並不改變問題本質。
標準的 Softmax Attention,通常是指 Attention is All You Need 所提的 Attention 機制:
這裡省略了縮放因因為它總可以吸收邊, 是對第二個維度進行指數歸一化,一個下三角陣,稱為掩碼矩陣,定義為:
 是指對  的分量逐一取 ,其Softmax Attention 用分量形式寫出來則是:
其中分母的作用主要是保持數值穩定性,另外就是如果我們給  加上 RMSNorm,那麼分母也會自動消去,所以 Softmax Attention 的核心是分子部分,即:
其中  是Hadamard積, 是逐分量取指數。不難看出,分母其實就是將  換成一個  的全1矩陣,如果有需要,我們再補上即可。
Softmax Attention 的標準實現需要把  的矩出來,所以空間和時間複雜度都正比於 。Flash Attention [1] 的出現降低了空間需求,但平方的時間複雜度依然無法避免。

最初的模樣
線性 Attention 最早的思路主要是模仿和近似 Softmax Attention,其中最簡單的方案是直接去掉 ,得到:
簡單起見,我們約定矩陣乘法的優先順序高於 Hadamard 積,這樣可以省掉一組括號。為什麼這個形式是“線性”Attention 的呢?
為了快速理解這一點,我們不妨先考慮去非 Causal 版,此時成注意計的複雜度是結果是  矩陣,然後相乘複雜度也是所以它複雜度是線性依賴於 n。
至於 Causal 版(6),我們可以從分量形式理解,寫出:
如果我們記括號部分為 ,那麼有:
由此可見,Causal 形式的 Attention 可以寫成一個以  為 State 的線性 RNN,因此每一步的複雜度是常數,總的複雜度正比於序列長度 n。
注意這裡出現了“線性 RNN”,它是更廣義的概念,線性 Attention 屬於線性 RNN 的一種,線性 RNN 也單獨發展過一段時間,比如之前介紹過的 LRUSSM 等,但最近比較有競爭力的線性架構都具有線性 Attention 的形式。
早年的線性 Attention 還有一些非常明顯的模仿 Softmax Attention 的特點,比如會給式(6)加入分母來歸一化,而為了歸一化,那必須非負,於是又上了非負的啟用函式,以 Performer、RFA [2] 為代表的一系列工作,更是以近出發點來構建模型。
然而,後來的研究如《The Devil in Linear Transformer》[3] 發現,在序列長度維度歸一化並不能完全避免數值不穩定性,倒不如直接事後歸一化,如:
而既然不用歸一化,那麼非負的啟用函式來保負就非必須了。那(不一定非負的)啟用函式還有意義嗎?
筆者的觀點是,加啟用函式是大家的自由,不排除加某個啟用函式能夠調出更好的效果,但加啟用函式並不改變線性 Attention 的形式,所以不影響我們的描述,另外就是現有的結果表明,其實不加已經足夠好。

花式遺忘門
從式(8)我們可以看出,目前的線性 Attention 本質上就是個 ,即將所有歷史資訊都等權地疊加,不難想象當疊加的 token 足夠多時,每個 token 的資訊佔比都會變得極小,於是單靠固定大小的  矩陣甚至無法準確重建任意一個 token,直觀類比就是每個 token 的記憶都變得模糊不清。
為了緩解這個問題,RetNet [4] 給線性 Attention 引入了遺忘效應:
其中衰減因子 ,在 RetNet 中被設為常數,也有設為可訓練引數的,以及將γ改為對角矩陣的,等等,MiniMax-01 [5] 所用的線性 Attention 也是這種。
注意,衰減因子在 RetNet 前也有,不過它們多以線性RNN的形式出現,如上一節提到的LRUSSM 等,RetNet 應該是首次將它跟線性 Attention 結合起來。
加入衰減因子後,模型會傾向於遺忘掉更為久遠的歷史資訊,從而至少保證最近 token 的解析度,說白了就是跟語言模型特性相符的“就近原則(Recency Bias)”的體現,從而往往能工作得更好。
此外,一個值得關注的細節是 RetNet 還上了 RoPE,這相當於將衰減因子推廣到複數 ,從 LRU 的角度看則是考慮了複數的特徵值。
儘管給 RNN 加位置編碼的操作看上去似乎有點違和,但有些實驗比如最近的 TransXSSM [6] 表明,給線性 Attention 加 RoPE 也有一定的正面作用。當然,這可能取決於具體的模型變體和實驗設定。
式(10)的一個簡單推廣是將  更換為位置 t 的函式 ,這在 SSM 中已經有所體現。
後來,DFW [7]、Mamba [8]、Mamba2 [9] 等工作,將它推廣成跟輸入相關,形成了“data-dependent decay”相關的一系列工作,這跟以往 GRU、LSTM 等非線性 RNN 的“遺忘門(forget gate)”其實已經非常相似了,只不過為了保持模型的線性性,去掉了遺忘門對 State(如 )的依賴。
為什麼我們偏愛線性 RNN 呢?因為線性 RNN 基本都能找到某種方式來並行訓練,這使得它相比 Softmax Attention 更具競爭力——在訓練效率和推理效率上都不遜色。
其中,並行化的“通解”是轉化為 Prefix Sum [10] 問題然後 Associative Scan,大體思路我們在Google新作試圖“復活”RNN:RNN能否再次輝煌?的“並行化”一節也簡單介紹過。
然而,“通解”並不是 GPU 高效的,GPU 最高效的是矩陣乘法,所以找到大量使用矩陣乘法的並行演算法是最理想的,甚至都不用並行,只要找到充分使用矩陣乘法的 Chunk by Chunk 遞迴格式,都能明顯提高訓練效率。
這反過來對模型提出了要求,如只有外積形式的遺忘門才能實現這個目的,典型反例就是 Mamba,它是非外積的遺忘門,無法充分發揮 GPU 的效能,所以才有了後續 Mamba2 和 GLA [11] 等變化。

測試時訓練
至此,線性 Attention 從最初的簡單模仿 Softmax Attention,到引入靜態衰減因子乃至“data-dependent decay”,已經形成了自身的特色並在不少任務上發揮價值。
然而,這些進展多數是靠人工憑經驗設計出來的,我們不禁要問:有沒有更上層的原則來指導線性 Attention 甚至是一般的序列模型(Token-Mixer)的設計?
對於這個問題,TTT(Test Time Training)[12] 給出了自己的答案,它將序列模型的構建視為一個“線上學習(Online Learning)”問題,並提出用最佳化器來構建(不一定是線性的)RNN 的做法。
具體來說,它作語料根據這些語料訓練得到一個模,最後輸出,其中模型引數,至於模型結構很大程度上是任意的。
這跟 RNN 有什麼關係呢?很簡單,最佳化器如 SGD、Adam 等,它們本質上就是一個關於模型引數的 RNN!
其實這個觀點並不新鮮,早在 2017 年 Meta Learning 盛行那會就已經有研究人員提出並利用了這點,只不過當時的想法是嘗試用 RNN(LSTM)去模擬一個更好的最佳化器,詳情可以參考《Optimization as a Model for Few-Shot Learning》[13]
正所謂“風水輪流轉”,時隔多年 TTT 反過來提出透過最佳化器來構建 RNN。它的流程是這樣的:首先,當前模型引數最佳化器(SGD)接收到新數根據該資料將模型引數更新最後返回  的預測結依此類推。
所以,TTT 所實現的 RNN 可以統一地寫成:
是當前資料在當前引數損失函式, 則是學習率引數,參考上一節的“data-dependent decay”,它也可以做成 data-dependent 的。
這個形式可以覆蓋非常多的 RNN 模型,比如式(8)和(10)都是它的一個特例:
TTT 原文則致力於探索 mini-batch 下的非線性 RNN,後來的 Titans [14] 則給 TTT 的 SGD 加上了動量,再後面《Test-Time Training Done Right》[15] 則探索了 large-batch 的 TTT 用法,還探索了“TTT + Muon”的組合。
注意,TTT 只是利用最佳化器來構建 RNN,RNN 以外的引數訓練引數,還是將整個模型構建起來後用整體的最佳化器訓練的。
一個更值得思考的問題是:為什麼 TTT 可以成為構建 RNN 的“指導原則”呢?
RNN 的核心目標,是將歷史資料有效地壓縮到一個固定大小的 State 中,而模型引數正好是固定大小的,訓練模型某種程度上就相當於把訓練資料壓縮到模型權重中,TTT 正是利用了它跟 RNN 目標的高度契合性。
說直白一點,如果將 RNN 視為一個壓縮任務,TTT 將模型  視為“解壓器”,它的權重則是“壓縮包”,而壓縮演算法則是 SGD,壓縮率則是損失 
這樣一來,我們就不用花心思構建遞迴格式了,轉而構建模型  和損失 ,一個 RNN 強不強、靠不靠譜,我們也只需看對應的  和  就可以心中有數。
除此之外,TTT 用 Online Learning 構建 RNN,意味著所得 RNN 必然非常契合 ICL(In Context Learning)任務,這也是 TTT 作為“指導原則”的優勢。
此前《Why Can GPT Learn In-Context? Language Models Implicitly Perform Gradient Descent as Meta-Optimizers》[16] 甚至反過來,將 Softmax Attention 去掉 Softmax 成線性 Attention 來解釋它的 ICL 能力,用現在的視角看它就是構造了對應的 TTT 出來。

除舊而迎新
例如,最早的線性 Attention 對應的損失函式這一看就是個不大靠譜的目標,因為它是無下界的,這可能會導致  趨於無窮。
相比之下,RetNet 往損失函式加入了 L2 正則項,避免了這種風險,從最佳化角度看也緩解了過擬合的風險,從而得到一個更好的 RNN。
然而,用內積作為損失函式雖然簡潔且有一定道理,但它不是直接鼓所以並非一個理想的迴歸損失。更好的目標函式應該是平方損失,將它代入到 TTT 的公式(11)得到:
這便是 DeltaNet,這個名字出自《Parallelizing Linear Transformers with the Delta Rule over Sequence Length》[17],更早則是由《Linear Transformers Are Secretly Fast Weight Programmers》[18] 提出。
留意這意味著  總可以吸收到  的定義中去,所以我們接下來的分析都只考慮  的情況:
如果有需要,我們再換成就可以將  恢復出來。對比線性 Attention 最早的形式(8),DeltaNet 的區別是在多減了,其中以理解為新輸舊模的預測結果。
直觀來想,“先減後加”就是先移除模型舊認知,然後根充新認知,達到“除舊迎新”的效果。這個規則稱為“Delta Rule” [19],正是 DeltaNet 一詞中“Delta”的來源。
Delta Rule並不新鮮,它又稱為 Least Mean Square [20]、Widrow-Hoff Algorithm 等,已經是上個世紀 60 年代的產物了。事實上,這個領域完全新的東西很少,很多改動都可以追溯到某個“上古時期”的工作,目前的努力主要集中在挖掘其中能 Scalable 的部分。
另外需要指出的是,按照時間的順序,是 DeltaNet 在前,TTT 在後,從 Online Learning 角度理解 RNN,其實在 TTT 之前已經零星地體現在一些工作中,但 TTT 系統地提出了這個“指導原則”,並且將它用於構建新 RNN 模型,所以我們把 TTT 放在前面,使得整個介紹更加流暢自然一些。
有些讀者可能疑問:DeltaNet 還算線性 RNN 嗎?
答案是肯定的。我們所說的線性 RNN,是指遞迴公式對 State 變數的依賴關係是線性的,但對輸入或  的依賴可以是非線性的(當然不同依賴形式的並行效率會有所不同),從式(13)可以看出,等號右端始終只是出現了  的一次方,所以它滿足線性的定義。
求逆與推廣
前面我們說了,線性 RNN 最理想的(即 GPU 高效的)並行演算法是充分使用矩陣乘法的形式。為了完成這一目標,我們先將 DeltaNet 寫成:
,那麼也就是說它只是在最早的線性 Attention 基礎上換成了將它迭代 t-1 次,我們有:
最後的等式寫成矩陣形式,其中這是一個線性方程組,它的解可以直接表示為:
這裡出現了一個  矩陣的逆,標準複雜度比 Softmax Attention 還高!不過好在我們不需要顯式的逆而是隻要 ,這可以轉化為解方程複雜度降
進一步地,利是下三角陣以及低秩結構,可以將複雜度降到線性,寫成分塊矩陣乘法後就可以充分利用 GPU。這些細節只能請大家閱讀原論文了,本文先把主要數學原理介紹清楚。
DeltaNet 之後,Gated DeltaNet(GDN)[21] 進一步地將遺忘門引入到 DeltaNet 之中,這倒是可以預料的變化。Gated DeltaNet 的原始引入方式是:
但個人認為,這個提法其實顯式打破了 Delta Rule,更好的提法應該是像 Comba [22] 一樣,只乘到第一
它相當於將損失函式當然,從數學上來說,這兩個提法都是等價的:
後把  吸收到  就可以轉化為後者了。所以說,這兩個形式在數學上並沒有區別,由於多數  會接近於 1,所以能力上估計也沒啥區別(Comba 說(18)會好一點),只不過後者更直觀地保留了 Delta Rule 的樣子。
從理論上來說,Gated DeltaNet 也可以寫成 DeltaNet 的形式,因為只需要定那麼式(17)兩邊同時除以 ,就得到:
然後結可以發現只需要分別置為新的 ,那麼就能簡化成 DeltaNet 的形式。
不過,這個結果只有在某些情況下具有理論推導的價值(比如推導下一節的 Attention 矩陣),因為實際計算中,不管怎麼引數化,對於足夠大的 t, 和  之一必有溢位的風險。
DeltaNet 之後還有另一個推廣 DeltaProduct [23],它是將  擴充套件若干倍後再做 DeltaNet 或者 Gated DeltaNet,試圖增強模型的狀態追蹤能力。
不過,就筆者的審美而言,與其像DeltaProduct那樣擴充套件常數倍,還不如像時空之章:將Attention視為平方複雜度的RNN一樣嘗試平方複雜度的 RNN,看有沒有機會超越 Softmax Attention。
反哺進行時
說到超越 Softmax Attention,開頭提到,如今的線性 Attention 不僅能與 Softmax Attention 一較高低,甚至開始“反哺”它。這看似不可思議,但細思之下並不難理解。
某種意義上,這些年 Softmax Attention 一直在退步,從 MHA、GQA 到 MQA 都是為了壓縮 KV Cache 而做減法。而線性 Attention 沒有 KV Cache 問題,所以一直往更好的方向前進。
為了更好看出這一點,我們不妨將前面提到的 Attention 機制都以矩陣形式寫出來:
其中:
這樣看來,Softmax Attention 的形式還僅停留在最早的線性 Attention 那會(當然這也證明了它的強大)。那“反哺”怎麼實現呢?
首先我們需要一種方法把 Softmax Attention 轉化為線性 Attention,這個並不難,早在 Transformer升級之路:作為無限維的線性Attention [24] 我們就總結了三種將 Softmax Attention 轉化為無限維線性 Attention 的方案。
總之,就是存在一個對映  對映到 ,滿足 這稱為“核技巧”。
那接下來的事情就簡單了,我們只需將上述表格中的線性 Attention 最後再設法恢復  並歸一化,就得到新的 Softmax Attention 變體了。例如,代入到遺忘門的公式,我們有:
如果  取常數,那麼其實就是《Train Short, Test Long: Attention with Linear Biases Enables Input Length Extrapolation》[25] 所提的 ALIBI,而如果  是依賴於輸入的,那麼就是《Forgetting Transformer: Softmax Attention with a Forget Gate》[26] 所提的 FoX。
一個更有意思的結果是《Understanding Transformer from the Perspective of Associative Memory》[27] 所提的 DeltaFormer,顧名思義它是 Softmax Attention 的 DeltaNet 版本。將 DeltaNet 換成我們有:
如果要歸一化,我們將  換成  即可。相比 Softmax Attention,DeltaFormer 將原本注意到:
所以 DeltaFormer 相當於先多次 Attention,將結果疊加起來後作為新,再跟一次 Attention,這個特性讓它對 Multi-Hop 的任務有奇效(比如 Code)。
此外,DeltaFormer 的這個特點還意味著它跟 MQA 特別搭配,因部分只與,而對於 MQA 來有 Single-Head,計算量相比 MHA 會明顯降低。
不過,在筆者看來,這種固定係數的疊加可能是“沒有免費午餐”,比如筆者的實驗結果顯示,DeltaFormer 的語言模型損失並無太大變化,這意味著如果某些任務的損失明顯降低,必然有另一些任務的損失上升了。
硬核編碼術
還有一個值得關注的反哺工作是 PaTH Attention,出自《PaTH Attention: Position Encoding via Accumulating Householder Transformations》[28],它從位置編碼的角度將 DeltaNet 反哺到 Softmax Attention。
我們在Transformer升級之路:旋轉位置編碼的完備性分析指出,對於任何正交矩陣  都是廣義的 RoPE。
除了旋轉矩陣,還有哪些容易構建的正交矩陣呢?
PaTH 用的是 Householder 矩陣 [29]:設  是任意模長列向量,那一個正交矩陣,這我們在《從一個單位向量變換到另一個單位向量的正交矩陣》[30] 也推導過,幾何意義是鏡面反射。
容易看出,這跟 DeltaNet 一樣的,所以 PaTH 乾脆把這部分照搬過來,即放棄  這個形式,也放棄  模長約束,直接用一系乘來表達位置資訊:
成遞迴形式是 對比 DeltaNet 的式(13),上式相當於  恆等於零,但初值  不再是零。使用“求逆來相助”一節同樣的過程,我們可以得到:
切片按Numpy來理解,切片優先順序高於轉置。
注意求逆的是下三角陣,三角陣有一個重要特性,逆矩陣的對角線元素等於原矩陣對角線元素的倒數,如果是分塊三角陣則對角塊也滿足這個特性,於是我們可以寫出:
接下來的變換,寫成分量形式可能好理解一些:
這裡有幾個關鍵點:比較巧妙的是第4個等號,它利用了  是下三角矩陣這一點,所以  時  自動為零;第5個等號, 為示性函式,滿足下標的條件時為1,否則為0。
第 6 個等號,當我們分別處理 p,s 兩部分求和時,結果而乘  剛好表示保下三角部分(連同對角線),而乘  則表示保下三角部分(不包括對角線)。
至此,我們可以把整個(Softmax 之前的)注意力矩陣寫出來:
有沒有被震驚到?這還沒完。直接求逆複雜度這肯定無法接受,還要想辦法利低秩特點將複雜度降低然後還要推反向傳播,最後寫成類似 Flash Attention 的高效實現,這些細節大家只能看原論文挖掘了,總之全程都非常硬核。
從位置編碼的角度看,PaTH 是 CoPE(Contextual Position Encoding)[31] 的一種,它的位置並不是編號 ,而是根據上下文內容自動生成的位置訊號。
類似地,FoX 也可以看成是 Contextual 版的 ALIBI。上下文相關的位置資訊是當前線性 Attention 的主要特徵,也可能是反哺 Softmax Attention 的主要方向。
化簡樂無窮
我們不妨再深入點探討一下 PaTH,這不僅有助於我們瞭解 PaTH,也能幫助我們更熟悉 DeltaNet,兩者本身就是高度相關的。這一節我們從 PaTH 的兩個特例入手,它可以幫助我們更好地理解 PaTH 與 DeltaNet 的關聯。
第一個特例代入到(29)得到:
有沒有覺得有點熟悉?這剛好就是 DeltaNet 的 Attention 矩陣!從這個特例看來,PaTH 和 DeltaFormer 的區別就在於,DeltaFormer 基於核技巧,給 DeltaNet 別加上 ,而 PaTH 直接給 DeltaNet 的 Attention 矩陣加上 
第二個特例是重新引個約束,此正交矩陣,我們引入:
這個等式意味著我們可以像 RoPE 一樣,用絕對位置的方式實現相對位置的 PaTH,即只需要給每然後套用 Softmax Attention 的實現就行。那麼什麼運算呢?重複上一節的展開過程,我們有:
寫成矩陣形式就是:
是不是又覺得有點熟悉?其實第二部分就所以這種情況下 PaTH 實現的效果等價於是:
也就是用 DeltaNet 位置編碼。這樣看 PaTH(個約束下)就相當於 Softmax Attention 與 DeltaNet 的某種層內混合。
當然我們也可以考慮放棄前面的推導,即便也按照上式來實現,這就類似於透過 Canon Layers [32] 的方案,用卷積位置資訊了,只不過這裡的卷積不再是短卷積,而是 DeltaNet 這種長卷積。

劍走偏鋒法
最後,我們再看最近的一個同樣值得關注的線性 Attention 模型——MesaNet(還有一個大同小異的同期工作 Atlas[33])。
TTT 的 Online Learning 視角告訴我們,DeltaNet 其實就是在用 SGD 最佳化目標函而我們仔細觀察就會發現只是線性函式,所以這實際上只是一個線性迴歸問題,線性迴歸是有解析解的!
MesaNet 就是利用這個解析解來構建序列模型的,其想法起源於《Uncovering mesa-optimization algorithms in Transformers》[34],高效訓練則是由《MesaNet: Sequence Modeling by Locally Optimal Test-Time Training》[35] 實現。
MesaNet 在上述公式基礎上入遺忘門,然後求時加上對角不可逆,總的模型是:
很明顯於序列長度的複雜度是線性的,所以  的計算複雜度也是線性的,因此 MesaNet 仍然屬於線性 Attention 的範疇,並且由於解析解的緣故,基本上可以保證大多數情況下它優於 DeltaNet 甚至 Gated DeltaNet。
從訊號處理的角度看,MesaNet 與 DeltaNet 是 Recursive Least Square [36] 和 Least Mean Square [37] 的區別。
看上去都是優點,為啥筆者會將它歸入“劍走偏鋒”呢?在筆者看來,MesaNet“成也解析解,敗也解析解”,解析解使得它通常優於 DeltaNet,但也給人一種“到此為止”的感覺,因為只要稍變一下就幾乎沒有機會求得解析解了。
縱觀整個數學史,所有依賴於解析解的分支在今天幾乎已經都沒落了,因為解析解實在太稀罕、太沒有代表性了。
從實現上來看,MesaNet 需要求逆的矩不是三角陣,盡管 然可以轉化為解方程而不需要顯式逆,但非三角陣仍使得它求解複雜度會增加不少。
如何儘可能低成本地平行計算全會是 MesaNet 長期的難點,目前論文用到的是“共軛梯度法”求近似解,能用但並不完美。
再就是從理論能力上看,MesaNet 也並非嚴格優於 DeltaNet。這是因為 MesaNet 新規則還是簡單的滑動平均形式,它的求逆也不涉及到 Token 之間的互動,所以它的能力極限大概不如擁有 Delta Rule 的 DeltaNet。
直觀理解就是,MesaNet 會盡力記住全體 ,這在多數情況下是好事,但某些情況下會導致比較模糊的記憶,而 DeltaNet 的原則是“除舊迎新”,因為“除舊”的緣故,它可以實現長期、精準地記憶某些內容。
總的來說,MesaNet 是一個讓人賞心悅目的模型,但解析解也增加了它的複雜性和限制了它的靈活性,留下了不少亟待探索的空間。如果讀者想要了解更多基於線性迴歸來構建序列模型的內容,還可以閱讀 TTR [38],它對各種線性迴歸目標下的序列模型做了詳細討論。

方興未艾路
本文簡要梳理了線性 Attention 的發展脈絡,並介紹了部分模型的數學原理。線性 Attention 從模仿 Softmax Attention 起步,逐漸發展出自身特色,如今已成為極具競爭力的序列建模方案,甚至反過來為 Softmax Attention 的發展提供了新思路,這一過程本身充滿了趣味性和啟發性。

參考文獻

[1] https://papers.cool/arxiv/2205.14135
[2] https://papers.cool/arxiv/2103.02143
[3] https://papers.cool/arxiv/2210.10340
[4] https://papers.cool/arxiv/2307.08621
[5] https://papers.cool/arxiv/2501.08313
[6] https://papers.cool/arxiv/2506.09507
[7] https://papers.cool/arxiv/2210.04243
[8] https://papers.cool/arxiv/2312.00752
[9] https://papers.cool/arxiv/2405.21060
[10] https://en.wikipedia.org/wiki/Prefix_sum
[11] https://papers.cool/arxiv/2312.06635
[12] https://papers.cool/arxiv/2407.04620
[13] https://openreview.net/forum?id=rJY0-Kcll
[14] https://papers.cool/arxiv/2501.00663
[15] https://papers.cool/arxiv/2505.23884
[16] https://papers.cool/arxiv/2212.10559
[17] https://papers.cool/arxiv/2406.06484
[18] https://papers.cool/arxiv/2102.11174
[19] https://en.wikipedia.org/wiki/Delta_rule
[20] https://en.wikipedia.org/wiki/Least_mean_squares_filter
[21] https://papers.cool/arxiv/2412.06464
[22] https://papers.cool/arxiv/2506.02475
[23] https://papers.cool/arxiv/2502.10297
[24] https://kexue.fm/archives/8601
[25] https://papers.cool/arxiv/2108.12409
[26] https://papers.cool/arxiv/2503.02130
[27] https://papers.cool/arxiv/2505.19488
[28] https://papers.cool/arxiv/2505.16381
[29] https://en.wikipedia.org/wiki/Householder_transformation
[30] https://kexue.fm/archives/8453
[31] https://papers.cool/arxiv/2405.18719
[32] https://papers.ssrn.com/sol3/papers.cfm?abstract_id=5240330
[33] https://papers.cool/arxiv/2505.23735
[34] https://papers.cool/arxiv/2309.05858
[35] https://papers.cool/arxiv/2506.05233
[36] https://en.wikipedia.org/wiki/Recursive_least_squares_filter
[37] https://en.wikipedia.org/wiki/Least_mean_squares_filter
[38]https://papers.cool/arxiv/2501.12352
更多閱讀

#投 稿 通 道#
 讓你的文字被更多人看到 
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。 
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析科研心得競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註 
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected] 
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿

△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·
·
·

相關文章