ICML2025|何愷明的“殘差連線”被魔改,新架構給Transformer建了個“動態立交”,28億引數打平69億

坦白地說,你是不是覺得 Transformer 已經被研究透了?
經過了無數輪的驗證與最佳化,Transformer 的結果看似已經達到了非常穩定的最佳狀態,想做出顛覆 Transformer 的結構創新,幾乎不太可能了。。
我之前也這麼覺得,直到最近看到了一篇 ICML 2025 的論文,沒想到又讓 Transformer 老樹開花了!
這篇論文思路很有意思,沒有去卷那些主流的注意力機制,而是獨闢蹊徑,把“手術刀”對準了 Transformer 內部一個我們習以為常、甚至有些忽略的元件—殘差連線(Residual Connection)

自 2015 年由何愷明團隊提出以來,殘差連線憑藉其有效緩解梯度消失的超能力,幾乎是深度網路的標配。沒有它,今天的 Transformer 很難穩穩當當地堆到幾十層,更別提像 GPT-4 一樣動輒上百層了。
不過,任何技術都有它的適用邊界。這個曾經的功臣,在今天動輒上百層的深度大模型裡,也開始顯露出它的瓶頸,成了新的資訊“堵塞源頭”:
一方面,資訊在逐層傳遞中損耗嚴重。 隨著網路加深,各層特徵越來越像(即“表示坍塌”),導致深層網路學不到新東西,白白浪費了引數和算力。
另一方面,單一的“殘差流”頻寬有限。 Transformer 所有跨層資訊都擠在這條道上,當模型需要進行復雜的上下文學習時,這條“單行道”就顯得捉襟見肘了。
而這篇 ICML 論文,就是衝著解決這個問題來的。
有意思的是,瞄準這個問題的,還是我們去年的老朋友——彩雲科技與北京郵電大學的研究團隊。他們設計了一套全新的多路動態密集連線(Multiway Dynamic Dense Connection, MUDD),目標就是給殘差連線這個“老基建”來一次高效的改造。
熟悉我的老粉可能還記得,去年我就和大家分享過這個團隊在 ICML 2024 上的傑作 DCFormer哦,所以他們並不是沒去卷注意力機制,是在DCFormer裡已經卷過了。。)時隔一年,他們依然專注在底層架構創新這個方向上,這次的成果同樣紮實。
那麼效果如何呢?論文的資料很直接——
MUDD 方案以極小的代價(引數增加 0.23%,計算量增加 0.4%),就讓一個 28 億引數的 MUDDPythia 模型,在多項語言任務上媲美約 2.4 倍計算量的 Pythia-6.9B。尤其是在需要長距離上下文關聯的 5-shot 場景下,它甚至能與約 4.2 倍計算量的 Pythia-12B 模型正面對決。
和上次一樣,團隊也把論文、程式碼、模型都開源了,方便大家直接上手。
Github 開源地址https://github.com/Caiyun-AI/MUDDFormer論文連結:https://arxiv.org/abs/2502.12170
HuggingFace模型:https://huggingface.co/Caiyun-AI/MUDDPythia-1.4B https://huggingface.co/Caiyun-AI/MUDDPythia-2.8B https://huggingface.co/Caiyun-AI/MUDDFormer-2.8B 
在我看來,相比於燒錢拼硬體,從模型架構的根源上“榨取”效能,是當下最具價效比的方法話不多說,讓我們深入內部,看看 MUDD 究竟是如何“魔改”殘差連線,實現效能翻倍的。

MUDD 的核心設計

首先你可以這樣理解,傳統的殘差連線,就像一條單向直路,資訊層層打包、不分流,堵車是必然的。而且模型越深,資訊傳遞越差,後面的層都在摸魚偷懶,也就是常說的“深層瓶頸”。
MUDD 的解決辦法相當於把“單向直路”改成了一座“立交橋”,精妙之處在於三個設計:密集化(Dense)、動態化(Dynamic)、多路性(Multiway)
先放一張 MUDD 的架構圖——

密集化(Dense

標準殘差連線第 i 層只能看到第 i-1層的輸出。而 MUDD 允許任何一層“回頭看”,直接連線到它前面所有層的輸出。

也就是讓第 i 層能夠直接“空降”到任意一個它之前的層(從 0 到 i−1)去獲取純淨的資訊,這就徹底打破了逐層傳遞的限制。

動態化 (Dynamic)

光有橋還不夠,還得有智慧排程才能跑起快。動態連線,這是 MUDD 區別於以往靜態連線的關鍵。MUDDFormer 的連線權重不是固定的,而是動態生成的。不是所有歷史資訊都無腦湧入當前層。相反,它引入了一個“智慧導航系統”。

模型在處理每個 token 時,會根據當前的語境(hidden state),動態地計算出每一條來自歷史層的資訊通道應該被賦予多大的權重。

這種“按需連線”的能力,讓資訊流動變得極其靈活和高效。

多路性 (Multiway)

這是我覺得這篇論文裡最創新的想法!MUDD 的作者們認為:
在 Transformer 的一個 Block 裡,Q(查詢)、K(鍵)、V(值)和 R(殘差輸入)雖然都來自上一層,但它們的使命完全不同。把它們混在一個車道里運輸,簡直是資源浪費。
於是,MUDD 為它們設立了獨立的專屬 VIP 通道為了讓 Transformer 塊內的不同輸入流(Q, K, V, R)獨立聚合,實現更精細的跨層通訊,MUDD 將下一層 Transformer 塊的輸入解耦為獨立的 Q、K、V、R 四個流,併為每個流設計了獨立模組。

這意味著,在生成下一層的 Query 輸入時,會使用專門的 DA_Q 模組獨立聚合前層資訊,而生成 Value 輸入時,則使用 DA_V 模組進行不同的聚合。

不同於傳統的層內多頭注意力,MUDD 的設計核心是一種深度方向的多頭注意力機制。它透過允許資訊在不同層之間進行更豐富的 Q/K/V 互動,極大地增加了層間的通訊頻寬
這種設計使得網路中的每個流(例如,負責傳輸資訊內容的 V 流,以及負責匹配和對齊的 Q/K 流)能夠根據其特定功能,獨立且動態地從網路的歷史/先前層中聚合所需的歷史資訊。

效果如何?

方法論講的再好,也得看實際效果。MUDD 論文裡給了詳細的實驗分析,可以說把“價效比”打在了公屏上。
這恐怕是大家最關心的。
在大規模預訓練(300B tokens)中,MUDDFormer 僅用 28 億引數,就在多項指標上達到了 69 億引數模型(2.4 倍引數量)的水平。在更考驗上下文理解能力的五樣本學習任務上,它甚至能硬剛 120 億模型(4.2 倍引數量)的水平。

實驗顯示,MUDDFormer 從預訓練開始,損失就顯著低於所有基線模型,換句話說,相同的 loss 所需算力更少。
比如圖 3,我簡單解釋一下:橫軸 Compute 代表訓練總算力預算,寫成 “模型引數量 × 預訓練 token 數”(例如 405 M × 7 B)。向右代表花更多算力。縱軸 Loss 越低越好。

綠色實線(MUDDFormer)在所有算力點都低於其它模型,說明相同算力下 Loss 最小。紅色箭頭表示:要達到 MUDDFormer 的 Loss,普通 Transformer++ 需要 ≈1.89 × 的算力才行。
其次,改善了 Transformer++ 模型在增加層數後收益遞減的問題
傳統 Transformer 越深,收益越低的“邊際遞減”問題,在 MUDD 這裡得到了有效緩解。MUDDFormer 即使在更深的配置下,依然能保持強勁的效能增長。
把深度加倍後(虛線 vs 實線),MUDDFormer 的 Loss 下降幅度(虛線之間的垂直距離)明顯大於 Transformer++。說明深層仍能有效學習

紅箭頭表示達到 MUDD 深模型的損失水平,Transformer++ 需再多花 ≈2.08 × 算力。
再看下它多個任務上的表現,能夠以小搏大,匹敵甚至超越更大模型。

把它用到 Vision Transformer(ViT)上做影像分類,效果同樣顯著。

不止如此,和現在特別火的混合專家(MoE)架構結合,還能產生 1+1>2 的效果。MUDD 與 MoE 模型雖然都利用動態權重,但作用機制不同(跨層聚合 vs. 層內專家選擇),二者屬於正交且互補的技術。
如以下圖 5 展示的實驗結果,MUDD 連線對 MoE 模型同樣有效,並在應用時帶來了額外的效能增益,預示著 MUDD 連線能夠與 MoE 等先進架構相結合,進一步提升未來基礎模型的綜合性能。

總之,僅增加約 0.23% 的引數和 0.4% 的計算量,卻在多種規模(405M–2.8B)和多種架構(Decoder-only/ViT)上穩定超越原 Transformer,需要的額外資源幾乎可以忽略不計。

結語

這次 MUDDFormer 與研究團隊之前的 DCFormer 工作一脈相承,DCFormer 側重點在於序列長度的資訊傳遞效率問題,而 MUDDFormer 則專注於最佳化模型深度方向的資訊互動效率。
看似基礎、底層的架構創新,在當前這個時候依舊有效。優秀的模型架構是撬動 AI 能力和效率的關鍵槓桿。
PS:MUDDFormer 工作的的所有程式碼、預訓練模型和詳細的實驗設定完全開源,不僅是一個即插即用的新工具,也是一種值得學習的創新思路。
GitHub:https://github.com/Caiyun-AI/MUDDFormer

相關文章