Transformer能解釋一切嗎？

作者

｜

油醋

郵箱

｜

提出Transformer的那篇論文《Attention is All You Need》問世已經是六年前的事了。當初的8位論文作者有6人出自谷歌，但到現在大多也已轉身尋找新的故事。

Lukasz Kaiser去了OpenAI，他曾經谷歌大腦的同事Noam Shazeer成立了Character AI，估值已經超過10億美元。另外兩位同事Ashish Vaswani和Niki Parmar在創立了AI軟體開發公司Adept AI Labs後，把這個同樣估值超過10億的初創公司交給了另一位聯合創始人，又開始下一次創業了。

只有Llion Jones，這個從威爾士一個小村莊裡走出來的程式設計師，還留在谷歌。他曾經談起這個並不夠學術的論文標題的由來，是對披頭士的那首《All You Need is Love》的簡單致敬。

而利用注意力機制來提高模型訓練速度的Transformer架構，確實讓AI從實驗室深處的極寒之地裡走出來了。它成為當下這場生成式AI浪潮無可爭議的基礎。某種程度上，上面提到的所有人，都沒有真正離開這篇論文。

Mikolov在2010年提出RNN，這個框架在7年後被Transformer取代。而在Transformer問世後的一個相似時間週期後，其高記憶體消耗和高推理成本的侷限性也開始顯現出來。

替代者也躍躍欲試了。

“不可能三角”

Transformer的自注意力機制增強了模型平行計算的能力，並且正契合了GPU對大規模資料進行併發處理的設計傾向。但Transformer在面對大型資料集和較長輸入序列時，需要的計算量會陡增。

於是並行訓練能力、效能和低成本推理，逐漸成為Transformer框架下的“不可能三角”。

近日，微軟研究院和清華大學的研究團隊提出了一個新的框架RetNet（Retentive Network）來代替Transformer，並表示RetNet可以打破這個“不可能三角”。

“這就像是M1晶片之於筆記型電腦。”一位產品經理在推特上這樣形容RetNet。

O(N)困境

在這個“不可能三角”中，RetNet選擇的突破口是推理成本。

由於使用了自注意力機制，Transformer模型展現出較高的訓練並行性，同時在機器翻譯、語言建模等任務上也取得了很好的表現。但取代了RNN的自注意力機制同樣成為一種桎梏。

這集中體現在時間複雜度這個標尺上。在描述演算法複雜度時，常用O(n)、O(n^2)、O(logn)等表示某個演算法在計算耗時與輸入資料量（n）之間的關係表示。

O(n)意味著資料量的增加與演算法耗時成正比，O(n^2)意味著像氣泡排序那樣，演算法耗時是資料量的n^n倍。計算耗時越長，演算法越複雜，也就意味著推理成本越高。

拿文字翻譯做個例子，在處理長文字序列時（假設文字長度為N），自注意力機制的時間複雜度為O(N^2)，當N過大時，翻譯速度很低。這也是為什麼當前的大語言模型，在文字token長度上的進展頗為受人關注。

雖然Transformer可以有效訓練並行性，但由於每步的O(N)複雜度以及記憶體繫結的鍵值快取，它們的推理效率低下。這種低效率使得Transformer模型會消耗大量GPU記憶體並降低推理速度，因此不適合部署。

從O(N)到O(1)

O(1)無疑是最優的選擇，這意味著無論資料輸入量n如何變化，演算法耗時都是一個常量。

RetNet框架的最大的驚豔之處就在這裡，它將O(N)降維到了O(1)。

RetNet引入了一種多尺度保留機制（multi-scale retention mechanism）來取代多頭注意力。作為三種計算正規化之一的分塊迴圈表示，可在記憶體和計算方面實現高效的O(1) 推斷，從而顯著降低部署成本和延遲。

這意味著RetNet的推理成本是固定不變的。在一系列對比RETNet與Transformer及其變體的實驗中，對比7B模型和 8k序列長度，RetNet的解碼速度比帶鍵值快取的Transformers快8.4倍，節省70%的記憶體。RetNet的推理延遲變化對輸入資料量的大小變化並不敏感，這也讓它能夠包容更大的吞吐量（Throughput）。

測試結果表示，在訓練期間RetNet比標準Transformer節省了25-50％的記憶體和7倍的加速。

一些重要的實驗結果

O(1)為RetNet在GPU記憶體方面帶來的優勢是，它完全不隨token數增加而變化。

Throughput（神經網路的吞吐量）是一個演算法模型在單位時間內（例如，1s）可以處理的最大輸入的訓練樣本資料。RetNet在輸入端token數增加的情況下仍然能夠維持高吞吐量，而Transformer在這方面的資料則隨著token數的增加而逐漸衰減。

Perplexity（困惑度）是語言模型最鮮明的評價標準。它衡量語言模型對單詞序列中下一個單詞的預測能力。當模型引數量變大時，困惑度往往會降低，即語言模型能夠做出更優的預測——這也是為什麼我們對萬億引數模型抱有極大期待。

論文中比較了RetNet與Transformer在1.3B、2.7B以及6.7B這三種不同尺寸上的困惑度變化，實驗結果RetNet的困惑度下降更快，並且當模型大小超過2B時，RetNet的表現開始優於Transformer。

這一觀察結果意義重大，它表明RetNet更適合需要大量計算資源和記憶體的大型語言模型。

2018年，大模型仍然前景未明的時候，黃仁勳在深度學習的綜合性能評價方面提出了PLASTER框架。這是七個測量維度的縮寫，其中延遲（Latency）的重要性僅僅被放在可程式設計性（Programmability）之後（其他五個維度分別是準確率（A）、模型大小（S）、吞吐量（T）、能效（E）以及學習率（R））。

RetNet與Transformer在不同Batch Size（一次訓練所選取的樣本數）下的延遲表現同樣印證了，RetNet的響應速度將在訓練規模進一步擴大後展現出優勢。

Transformer能解釋一切嗎

這篇論文中的幾位核心作者，在更早時候就已經開始關注GPT在上下文學習中的執行機制。2022年末ChatGPT問世後不久，他們發表了一篇表明Transformer注意力具有雙重形式的梯度下降的論文。而這些研究者對於RetNet的野心並不會停留在文字輸入上。

論文在最後表示，RetNet將會成為未來訓練多模態大語言模型的核心角色。

在這篇論文發表的10天之前，世界人工智慧大會上一家投資了智譜AI等多個大模型明星團隊的創投公司表示，Transformer在短期內會是多模態的主流網路結構，但並不是人工智慧技術的重點，“壓縮整個數字世界的通用方法仍未出現”。

Transformer是目前幾乎所有主流大模型的基石，這場基於Transformer而起的技術革命，已經快速到達了一個新的搖擺點。外部的壓力來自暴漲的算力資源需求，以及人類所有的高質量語料可能在有限的期限內枯竭。

搖擺的地方在於，到底是Transformer還不夠好，還是Transformer本身並不是一條正確道路？

至少從RetNet的角度，它仍然是相信Transformer的，RetNet是後者的顛覆版本，但並沒有跳出以深度學習為基礎，全神貫注在自然語言處理任務上做突破的邏輯框架。

另一種更劇烈的反對聲音則直接站在了Transformer的對面，比如再度活躍起來的“卷積神經網路之父”楊立昆。

模型和資料，誰更重要

在幾個月前的一次公開演講中，楊立昆再次批評了GPT大模型。他認為根據機率生成自迴歸的大模型，根本無法破除幻覺難題。甚至直接斷言GPT模型活不過5年。

LeCun的質疑是，基於文字訓練的大型語言模型只能理解極片面的真實世界知識，而僅僅靠自迴歸預測下一個token的單一方式所形成的“智慧”缺乏物理直覺。這樣的模型能夠在真實世界中對物理直覺問題做出對的回答——也可能做出錯的回答。因為回答的依據來自將整個真實世界壓縮成文字進行訓練後所形成的邏輯關係，但這並不是直接面對物理世界本身。

並且由於這樣的預測方式本質上缺乏時間尺度，這樣的模型也就缺乏真正意義上的規劃和決策能力。

矛頭在根本上對準Transformer。

言下之意，Transformer統領了一種以預訓練規模兌換智慧湧現能力——所謂大力出奇跡——的發展道路（並且到目前為止取得了矚目的成果），但如果真的有一條通往AGI的道路，到底是該以資料驅動模型，還是模型驅動資料？這仍是一個懸而未決的問題。

“刺激—反應”

楊立昆與這條區別於GPT的AGI未來猜想路徑，更強調智慧體主動發起的與物理世界之間的即時關係，這是強化學習擅長的事。在這一點上，Transformer的繼承者RetNet也只是治標不治本。

OpenAI在ChatGPT中以人類反饋強化學習（RLHF）的微調方法補充了這種即時反饋的能力。但大語言模型的所有“常識”——也就是其智慧所在——都來自一次次隆重的預訓練，即在知道最優資料分佈時，依靠巨大的模型、算力以及資料去擬合分佈。這是Transformer與GPU在平行計算能力上的契合所帶來的便利，而作為Transformer繼任者的RetNet，只是在極力最佳化這整個後續的計算過程。

而強化學習與有監督學習、無監督學習都不一樣。它本身並不知道最優分佈，而是透過獎勵訊號的反饋機制不停的尋找相對的“最優”。這種在與環境互動中主動“試錯”，並且獲取正反饋（收益），進而從自身經驗中進一步理解環境的方式，相比自監督學習來說更加接近人類對於物理世界的理解方式，這就像心理學中的“刺激—反應”理論。

很多人對強化學習的第一次感性認識都來自曾顛覆了人類圍棋世界的AlphaGO，而到目前為止。全世界可能也沒有另一家公司比AlphaGO背後的公司DeepMind更懂強化學習。

與RetNet在Transformer的基礎上做調整不同，DeepMind在6月末提出了另一種大模型的迭代思路——AlphaGo+GPT4。

AlphaGo和AlphaZero

人類一敗塗地的故事總是矚目，但AlphaGO曾有一個後輩AlphaGo Zero。

2016年，AlphaGO用樹搜尋和上萬張棋局的預先學習，4:1擊敗了李世乭。但另一個延續下去的故事是，AlphaGo Zero在一年後以100:0的戰績擊潰了AlphaGO。

2017年《自然》上的一篇論文介紹了這項壯舉，核心的內容是AlphaGo Zero如何在完全沒有先驗知識，即不依賴任何人類資料、指導或領域知識的前提下，透過自我學習來獲得超越人類水平的專業領域能力。

換言之，AlphaGo Zero就好像帶著一個空腦袋，坐在一間屋子裡，在只掌握圍棋遊戲規則資訊，眼前只有一副圍棋棋盤和棋子的情況下，擊敗了AlphaGO。

AlphaGo Zero的不同之處在於它採用了一種完全基於強化學習的演算法，僅僅將自己作為老師，以此誕生出更高質量的走法選擇。與使用人類專家資料進行訓練相比，純粹的強化學習方法只需要多訓練幾個小時，但漸近效能（演算法在接近其理論極限時的效能）要好得多。

AlphaGo Zero的勝利是強化學習的勝利。但它的侷限性也很明顯，就像楊立昆所推崇的能量模型（Energy-based Models）所具有的問題一樣，“取樣速度太慢了”，一位強化學習領域的研究者表示。

Gemini

現在這條更側重強化學習的AGI路徑，壓在了DeepMind正在研究的一個新的名為Gemini的大模型身上。DeepMind CEO 哈薩比斯表示，對Gemini的研發投入將會超過數千萬甚至數億美金。做個對比，OpenAI用1個億美金迭代出了GPT-4。

“Gemini”本身是雙子座的意思。在哈薩比斯的表述中，這個全新的大模型將會是GPT4和AlphaGo的結合體，它仍然是一個大語言模型，但AlphaGo所具備的強化學習和樹搜尋能力會給Gemini帶來更強的決策和規劃能力——這個楊立昆認為GPT在AGI道路上早晚會遇到的阿喀琉斯之踵。

Gemini背後的谷歌顯然希望能借著Gemini重新在與微軟的爭鋒中佔到一個好的位置。在ChatGPT問世之後，谷歌快速站到了OpenAI的對手Anthropic的背後。如果這被看作一種防守姿態的話，Gemini則更像谷歌主動發起的一場新的路線之爭，就像曾經在GPT與BERT身上發生過的事情一樣。

但無論如何，RetNet或是Gemini，改革或是淘汰Transformer的狂妄本身，已經包含了對這個偉大框架的所有敬意。

品玩招聘作者，資深作者及編輯，並長期開放實習生招聘。

世界不平靜，我們希望在變動的技術週期和商業週期裡繼續我們的探索，不熄滅眼裡的光。

為了和更多個優秀的你一起記錄和改變這個激動人心的時代，做更多有價值的報道，品玩現開放招聘。

崗位資訊：全職：4人。實習生長期招聘。工作地點：北京。

一句話總結我們在招聘的崗位的工作內容，就是：

報道最重要的商業和技術新聞，並抽絲剝繭地解釋給讀者它們為什麼重要。

一些共同的崗位要求：

1. 尊重常識。

2.對好內容有感知，有選題發明能力。

3.掌握快速搜尋梳理資訊的方法，有較強的文獻閱讀能力，能獨立拓展相關資源。

4 英文流利。有閱讀英文內容的習慣，可以用英文完成溝通。

5.對真實世界有感知，心智成熟，有職業精神，溝通介面良好穩定。

在招崗位：

-新經濟作者、新技術作者

新經濟作者負責報道網際網路商業領域最新動態；新技術作者負責報道新技術領域（AI，晶片，機器人等）最新動態；

追蹤錢的流動，人的變化，商業世界的競爭與合作以及科技的變革，並把它們講述給我們的讀者；

不限工作經驗，不限專業背景，我們歡迎不同背景的候選人。

-資深作者/編輯

對網際網路商業領域或新技術領域有自己的研究和積累；

有自己獲取資訊的方法體系，有持續學習的能力；

能發明選題，撰寫深度文章，同時也可以輔導初級作者。

長期招募實習生

我們為實習生提供與全職同樣的指導與工作支援，並提供留用機會。

或者，以上的描述都不能定義你，但你認為你是我們需要的那個人，也可以發郵件給我們，介紹你自己。

以上崗位應聘者，請將簡歷及作品傳送至：[email protected] 。（請標明應聘崗位）

同時，我們也在招聘其他崗位：

運營部門

崗位資訊：全職：3人。實習生長期招聘。工作地點：北京。

內容運營

能夠敏銳的捕捉網際網路熱點，並將其轉化為出色的內容；

富有創新意識和強烈的主觀能動性，重視流量在工作中的重要性；

有自己獨特的資料分析方法論，能發現龐雜資料中的關鍵點，並反哺內容創作。

影片運營

具備影片的全流程的創作能力；

對各個內容平臺均有深刻理解，能抓住平臺規則紅利；

有自己獨特的資料分析方法論，能發現龐雜資料中的關鍵點，並反哺內容創作。

社群運營

有過國內外成熟知名社群的運營經驗；

能夠獨立承擔運營策略、節奏設計，結合運營目標、節點資源等因素制定精細化的社群運營規劃；

對UGC的熱點、流行趨勢、話語體系有充分理解，能夠透過創意、熱點玩法、活動策劃激發UGC參與。

長期招募實習生

我們為實習生提供與全職同樣的指導與工作支援，並提供留用機會。

運營崗位應聘者，請將簡歷及作品傳送至：[email protected] 。（請標明應聘崗位）

商務部門

銷售總監/高階銷售經理

崗位職責：

1. 負責品玩線上廣告、線下活動類、品牌營銷、市場公關、以及定製方案的商務拓展與銷售工作，透過對目標行業客戶的銷售完成指定收入目標；

2. 對目標行業客戶進行研究、識別、接洽、需求、分析、產品演示、方案規劃、談判與簽約；

3. 管理與維護指定客戶(包括新客戶與現有客戶)，提供優秀的售前與售後服務，建立長期、穩定的合作關係，對客戶產品和需求進行持續性的研究與開發；

4. 與各部門保持緊密合作，回饋客戶需求與最新行業動向，協助最佳化產品與服務；

5. 積極參加行業商務與社交活動，拓展人脈資源，持續瞭解與提升行業知識和洞察力

任職要求：

1. 網際網路銷售經驗2年以上，銷售經驗5年以上優先;

2. 做事嚴謹、細心，較強的溝通協調能力;

3. 有市場營銷、品牌方或者市場公關乙方工作經歷優先；

4. 自我驅動，有很強的學習行業知識及專業知識的能力；

5. 具備應變能力，團隊協作能力，能適應多工處理及工作壓力；

6. 擁有intel、華為、華為雲、阿里、阿里雲、高通等網際網路行業直客資源者優先。

更多招聘資訊，可以進入官網招聘頁面獲取。

期待品玩有你的加入。

🌊出海活動推薦

【AI 大模型浪潮下的出海機遇與應用趨勢】線下沙龍

品牌現身說法——展現快時尚行業的“AIGC+”和大模型的落地應用例項

帶來全域性視角——從投資到落地，展現出海全鏈路中，AI應用的可能性

深度趨勢洞察——從研發，到內容生成，再到廣告營銷，解讀AI大模型的應用趨勢

*掃描下圖二維碼，即可報名！

· 文章版權歸品玩GenAI/品玩所有，未經授權不得轉載。

· 傳送關鍵詞轉載、合作、招聘到品玩微信公眾號，獲得相應資訊。

· 您亦可在微博、知乎、今日頭條、百家號上關注我們。

dignews.cc

Transformer能解釋一切嗎？

“不可能三角”

O(N)困境

從O(N)到O(1)

一些重要的實驗結果

Transformer能解釋一切嗎

模型和資料，誰更重要

“刺激—反應”

AlphaGo和AlphaZero

Gemini

相關文章

ECCV2024|VideoMamba：用於高效影片理解的狀態空間模型

無需Attention的未來，RWKV-7能成為替代Transformer的那隻黑天鵝嗎？

湖南95後女博士，力挑谷歌，要造思考時“不發燒”的AI

目標超級智慧，前DeepMind科學家離職創業，獲1.3億刀融資

撞車DeepSeekNSA！Kimi楊植麟署名的新注意力架構MoBA開源

56年無人解開的數學難題，被谷歌的新AI突破了

DeepSeek究竟創新了什麼？

DeepMind核心論文禁發6個月，Transformer級研究鎖死！CEO：不滿意就走人

微軟不想被OpenAI架空

楊植麟跟梁文鋒，論文撞車！