被Transformer光芒掩蓋的論文，Meta科學家回顧十年前創新之作

機器之心報道

編輯：張倩

這篇論文包含了當前 LLM 的許多要素，十年後的今天或許仍值得一讀。

釋出於 2017 年的 Transformer 論文——「Attention is all you need」被引量已經超過 17 萬，成為這輪 AI 技術革命的標誌性論文。

來自 Jeff Dean 的演講幻燈片

同時，也有一些論文的光芒被它掩蓋，比如釋出於 2015 年的「End-To-End Memory Networks」。

論文一作、Meta 研究科學家 Sainbayar Sukhbaatar 在最近的一則推文中說道「回顧過去，這篇論文包含了當前大型語言模型的許多要素。我們的模型是首個完全用注意力機制替代 RNN 的語言模型；它引入了帶鍵值投影的點積軟注意力機制，堆疊了多層注意力，使模型能關注輸入的不同部分；它還引入位置嵌入來解決注意力機制中的順序不變性問題……」

雖然這篇論文比《Attention is all you need》還早兩年，但它並沒有受到應有的關注，被引量只有 3000 多。

作者提到，這篇論文是對 Facebook AI 研究院 2014 年的一篇論文——「Memory Networks」的改進。「Memory Networks」引入了多層堆疊的硬注意力機制（hard attention）——與 Bahdanau 等人在單層上引入軟注意力是同期提出的。

在去年的一個帖子中，AI 大牛 Andrej Karpathy 曾發帖感嘆，Bahdanau 等人在單層上引入軟注意力的那項工作——「Neural Machine Translation by Jointly Learning to Align and Translate」才是真正引入注意力機制的論文（最近拿到了 ICLR 2025 時間檢驗獎的亞軍），但「Attention is all you need」所受到的關注卻是它的 100 多倍。不過，他也承認，「Attention is all you need」這篇論文有其獨特性。

回到文章開頭提到的「End-to-End Memory Networks」，它其實是將「Memory Networks」和「Neural Machine Translation by Jointly Learning to Align and Translate」的想法結合到了一起，並展示了多層軟注意力能夠產生複雜的推理能力——這是當今 AI 架構最重要的方面之一。

除了核心創新，一作 Sainbayar Sukhbaatar 還分享了這篇論文誕生背後的故事和他們目前正在推進的新工作。

一篇被 Transformer 光芒掩蓋的論文

論文標題：End-To-End Memory Networks
論文連結：https://arxiv.org/pdf/1503.08895

Sainbayar Sukhbaatar 回憶說，他們的「End-to-End Memory Networks」研究始於 2014 年春天。當時，他博士二年級，還在 FAIR 實習。他的導師 Rob Fergus 敦促他進行關於記憶的研究。不過，那會兒的他還不理解記憶意味著什麼，因為那是一個由迴圈網路和卷積網路主導的世界，記憶並不像今天那樣是一個重要的流行詞。

不過，他的研究並不需要從頭開始。因為當時，Facebook AI 研究院的 Jason Weston 等人已經做出了「Memory Networks」。此外，他們還發布了一套名為 bAbI 的任務，這些任務讓迴圈模型慘敗。因為這些任務需要以無序的方式查詢多個事實，而這是 RNN 的致命弱點。

與「記憶」有關的這個專案最初吸引了很多人的關注，但事情進展並不順利。

最終，他們開始著手於記憶網路的進一步研究，目標是讓它學會關注何處，而不需要給定的標籤。他們決定使用強化學習訓練來教會記憶網路關注何處。

時間快進到 2014-2015 年冬天，他們當時已經實現了強化學習程式碼，並準備在語言模型任務上與基準進行比較。一個明顯的選擇是「Neural Machine Translation by Jointly Learning to Align and Translate」中使用的軟注意力機制——但 Sainbayar Sukhbaatar 等人在研究中將其應用於多層結構中，這在之前是沒有人做過的。所以他們將其作為基線實現，但做了一些改變，比如使用點積而不是小型多層感知器來計算注意力。令人驚喜的是，採用這種軟注意力的記憶網路效果出奇地好，他們立即意識到這就是正確的方向。

在此之後，事情開始快速發展。在 Arthur Szlam（另一位作者）的堅持下，團隊開始使用 bAbI 任務作為基準。他們開發了幾種新技術，如為鍵和值使用不同的投影等。他們還需要解決注意力的順序不變性問題，所以他們添加了時間嵌入（現在稱為位置嵌入）。

Jason 建議在這些時間值中新增隨機噪聲以減少過擬合。最後，他們決定做一個當時不流行的語言建模任務。令人驚訝的是，他們僅使用注意力而沒有任何時間 recurrence 就擊敗了 LSTM（在論文中，他們使用「recurrence」一詞來描述重複的層，即像通用 transformer 那樣共享權重）。

他們在 NeurIPS 提交的最後一天寫了大部分論文。有趣的是，它最初被稱為「弱監督記憶網路」，因為它需要更少的監督。

無論如何，那個時期是新架構的黃金時代，出現了 Neural GPU、Stack RNN 和 Neural Turing Machine 等新論文。

回顧 10 年後的今天和當前大型語言模型的狀態，Sainbayar Sukhbaatar 認為他們在論文中正確預見了幾點。他們的模型是第一個不依賴 recurrence 的基於注意力的語言模型。他們成功地堆疊了多層注意力，使模型能夠在輸出下一個 token 之前關注上下文的不同部分。他們還使用了位置嵌入，甚至是相對位置嵌入，這現在已成為大型語言模型的標準做法。

雖然這篇論文沒有像「Attention is all you need」一樣引起轟動，但也起到了一定作用。有人表示自己多次讀過這篇論文，試圖理解為什麼某種神經架構有效。

Sainbayar Sukhbaatar 承認，Transformer 確實做出了重要的改進，比如使用前一層的隱藏狀態作為下一層的記憶。還有前饋層、多頭注意力等等。

他認為，即使已經過去十年，架構改進的工作仍有很多要做。所以，前段時間，他們釋出了一篇題為「Multi-Token Attention」（MTA）的新論文。

MTA 在多個查詢、鍵和頭上調節注意力，在許多指標上都優於標準軟注意力。特別是，它能夠更好地解決長上下文問題，例如「大海撈針」類任務。有趣的是，2015 年「記憶網路」論文的結論中就已經提到這一點作為未來的工作：「平滑查詢可能不會很好地擴充套件到需要更大記憶的情況」，這恰恰是該領域今天仍在研究的問題。

如果你對他們的論文感興趣，歡迎去閱讀論文原文（參見《Multi-Token 突破注意力機制瓶頸，Meta 發明了一種很新的 Transformer》）。

參考連結：https://x.com/tesatory/status/1911150652556026328

轉載請聯絡本公眾號獲得授權

投稿或尋求報道：[email protected]