ICML2025|何愷明的“殘差連線”被魔改，新架構給Transformer建了個“動態立交”，28億引數打平69億

坦白地說，你是不是覺得 Transformer 已經被研究透了？

經過了無數輪的驗證與最佳化，Transformer 的結果看似已經達到了非常穩定的最佳狀態，想做出顛覆 Transformer 的結構創新，幾乎不太可能了。。

我之前也這麼覺得，直到最近看到了一篇 ICML 2025 的論文，沒想到又讓 Transformer 老樹開花了！

這篇論文思路很有意思，沒有去卷那些主流的注意力機制，而是獨闢蹊徑，把“手術刀”對準了 Transformer 內部一個我們習以為常、甚至有些忽略的元件—殘差連線（Residual Connection）。

自 2015 年由何愷明團隊提出以來，殘差連線憑藉其有效緩解梯度消失的超能力，幾乎是深度網路的標配。沒有它，今天的 Transformer 很難穩穩當當地堆到幾十層，更別提像 GPT-4 一樣動輒上百層了。

不過，任何技術都有它的適用邊界。這個曾經的功臣，在今天動輒上百層的深度大模型裡，也開始顯露出它的瓶頸，成了新的資訊“堵塞源頭”：

一方面，資訊在逐層傳遞中損耗嚴重。隨著網路加深，各層特徵越來越像（即“表示坍塌”），導致深層網路學不到新東西，白白浪費了引數和算力。

另一方面，單一的“殘差流”頻寬有限。 Transformer 所有跨層資訊都擠在這條道上，當模型需要進行復雜的上下文學習時，這條“單行道”就顯得捉襟見肘了。

而這篇 ICML 論文，就是衝著解決這個問題來的。

有意思的是，瞄準這個問題的，還是我們去年的老朋友——彩雲科技與北京郵電大學的研究團隊。他們設計了一套全新的多路動態密集連線（Multiway Dynamic Dense Connection, MUDD），目標就是給殘差連線這個“老基建”來一次高效的改造。

熟悉我的老粉可能還記得，去年我就和大家分享過這個團隊在 ICML 2024 上的傑作 DCFormer（哦，所以他們並不是沒去卷注意力機制，是在DCFormer裡已經卷過了。。）時隔一年，他們依然專注在底層架構創新這個方向上，這次的成果同樣紮實。

那麼效果如何呢？論文的資料很直接——

MUDD 方案以極小的代價（引數增加 0.23%，計算量增加 0.4%），就讓一個 28 億引數的 MUDDPythia 模型，在多項語言任務上媲美約 2.4 倍計算量的 Pythia-6.9B。尤其是在需要長距離上下文關聯的 5-shot 場景下，它甚至能與約 4.2 倍計算量的 Pythia-12B 模型正面對決。

和上次一樣，團隊也把論文、程式碼、模型都開源了，方便大家直接上手。

Github 開源地址：https://github.com/Caiyun-AI/MUDDFormer論文連結：https://arxiv.org/abs/2502.12170

HuggingFace模型：https://huggingface.co/Caiyun-AI/MUDDPythia-1.4B https://huggingface.co/Caiyun-AI/MUDDPythia-2.8B https://huggingface.co/Caiyun-AI/MUDDFormer-2.8B

在我看來，相比於燒錢拼硬體，從模型架構的根源上“榨取”效能，是當下最具價效比的方法。話不多說，讓我們深入內部，看看 MUDD 究竟是如何“魔改”殘差連線，實現效能翻倍的。

MUDD 的核心設計

首先你可以這樣理解，傳統的殘差連線，就像一條單向直路，資訊層層打包、不分流，堵車是必然的。而且模型越深，資訊傳遞越差，後面的層都在摸魚偷懶，也就是常說的“深層瓶頸”。

MUDD 的解決辦法相當於把“單向直路”改成了一座“立交橋”，精妙之處在於三個設計：密集化（Dense）、動態化（Dynamic）、多路性（Multiway）。

先放一張 MUDD 的架構圖——

密集化（Dense）

標準殘差連線第 i 層只能看到第 i-1層的輸出。而 MUDD 允許任何一層“回頭看”，直接連線到它前面所有層的輸出。

也就是讓第 i 層能夠直接“空降”到任意一個它之前的層（從 0 到 i−1）去獲取純淨的資訊，這就徹底打破了逐層傳遞的限制。

動態化 (Dynamic)

光有橋還不夠，還得有智慧排程才能跑起快。動態連線，這是 MUDD 區別於以往靜態連線的關鍵。MUDDFormer 的連線權重不是固定的，而是動態生成的。不是所有歷史資訊都無腦湧入當前層。相反，它引入了一個“智慧導航系統”。

模型在處理每個 token 時，會根據當前的語境（hidden state），動態地計算出每一條來自歷史層的資訊通道應該被賦予多大的權重。

這種“按需連線”的能力，讓資訊流動變得極其靈活和高效。

多路性 (Multiway)

這是我覺得這篇論文裡最創新的想法！MUDD 的作者們認為：

在 Transformer 的一個 Block 裡，Q（查詢）、K（鍵）、V（值）和 R（殘差輸入）雖然都來自上一層，但它們的使命完全不同。把它們混在一個車道里運輸，簡直是資源浪費。

於是，MUDD 為它們設立了獨立的專屬 VIP 通道。為了讓 Transformer 塊內的不同輸入流（Q， K， V， R）獨立聚合，實現更精細的跨層通訊，MUDD 將下一層 Transformer 塊的輸入解耦為獨立的 Q、K、V、R 四個流，併為每個流設計了獨立模組。

這意味著，在生成下一層的 Query 輸入時，會使用專門的 DA_Q 模組獨立聚合前層資訊，而生成 Value 輸入時，則使用 DA_V 模組進行不同的聚合。

不同於傳統的層內多頭注意力，MUDD 的設計核心是一種深度方向的多頭注意力機制。它透過允許資訊在不同層之間進行更豐富的 Q/K/V 互動，極大地增加了層間的通訊頻寬。

這種設計使得網路中的每個流（例如，負責傳輸資訊內容的 V 流，以及負責匹配和對齊的 Q/K 流）能夠根據其特定功能，獨立且動態地從網路的歷史/先前層中聚合所需的歷史資訊。

效果如何？

方法論講的再好，也得看實際效果。MUDD 論文裡給了詳細的實驗分析，可以說把“價效比”打在了公屏上。

這恐怕是大家最關心的。

在大規模預訓練（300B tokens）中，MUDDFormer 僅用 28 億引數，就在多項指標上達到了 69 億引數模型（2.4 倍引數量）的水平。在更考驗上下文理解能力的五樣本學習任務上，它甚至能硬剛 120 億模型（4.2 倍引數量）的水平。

實驗顯示，MUDDFormer 從預訓練開始，損失就顯著低於所有基線模型，換句話說，相同的 loss 所需算力更少。

比如圖 3，我簡單解釋一下：橫軸 Compute 代表訓練總算力預算，寫成 “模型引數量 × 預訓練 token 數”（例如 405 M × 7 B）。向右代表花更多算力。縱軸 Loss 越低越好。

綠色實線（MUDDFormer）在所有算力點都低於其它模型，說明相同算力下 Loss 最小。紅色箭頭表示：要達到 MUDDFormer 的 Loss，普通 Transformer++ 需要 ≈1.89 × 的算力才行。

其次，改善了 Transformer++ 模型在增加層數後收益遞減的問題。

傳統 Transformer 越深，收益越低的“邊際遞減”問題，在 MUDD 這裡得到了有效緩解。MUDDFormer 即使在更深的配置下，依然能保持強勁的效能增長。

把深度加倍後（虛線 vs 實線），MUDDFormer 的 Loss 下降幅度（虛線之間的垂直距離）明顯大於 Transformer++。說明深層仍能有效學習。

紅箭頭表示達到 MUDD 深模型的損失水平，Transformer++ 需再多花 ≈2.08 × 算力。

再看下它多個任務上的表現，能夠以小搏大，匹敵甚至超越更大模型。

把它用到 Vision Transformer（ViT）上做影像分類，效果同樣顯著。

不止如此，和現在特別火的混合專家（MoE）架構結合，還能產生 1+1>2 的效果。MUDD 與 MoE 模型雖然都利用動態權重，但作用機制不同（跨層聚合 vs. 層內專家選擇），二者屬於正交且互補的技術。

如以下圖 5 展示的實驗結果，MUDD 連線對 MoE 模型同樣有效，並在應用時帶來了額外的效能增益，預示著 MUDD 連線能夠與 MoE 等先進架構相結合，進一步提升未來基礎模型的綜合性能。

總之，僅增加約 0.23% 的引數和 0.4% 的計算量，卻在多種規模（405M–2.8B）和多種架構（Decoder-only/ViT）上穩定超越原 Transformer，需要的額外資源幾乎可以忽略不計。

結語

這次 MUDDFormer 與研究團隊之前的 DCFormer 工作一脈相承，DCFormer 側重點在於序列長度的資訊傳遞效率問題，而 MUDDFormer 則專注於最佳化模型深度方向的資訊互動效率。

看似基礎、底層的架構創新，在當前這個時候依舊有效。優秀的模型架構是撬動 AI 能力和效率的關鍵槓桿。

PS：MUDDFormer 工作的的所有程式碼、預訓練模型和詳細的實驗設定完全開源，不僅是一個即插即用的新工具，也是一種值得學習的創新思路。

GitHub:https://github.com/Caiyun-AI/MUDDFormer

dignews.cc

ICML2025|何愷明的“殘差連線”被魔改，新架構給Transformer建了個“動態立交”，28億引數打平69億

MUDD 的核心設計

密集化（Dense）

動態化 (Dynamic)

多路性 (Multiway)

效果如何？

結語

相關文章

矽谷也有招聘鄙視鏈！最新目標校名單曝光

JaneStreet官網暴露的目標校，比QS排名還瘋

JaneStreet被爆招聘潛規則！又一批留學生被踢出年薪200萬圈層…

JaneStreet被爆潛規則：260萬年薪，只有這39所學校的學生能拿

簡單而強大：DIFFTransformer降噪式學習，開啟模型架構新思路

JaneStreet公佈全球35所目標校名單，美國15所

Transformer在計算機視覺領域的應用

Transformer已死？Mamba強的離譜！

英偉達提出首個Mamba-Transformer視覺骨幹網路！打破精度/吞吐瓶頸|CVPR2025

ICML2024|無需LayerNorm簡化Attention，精度無損推理效率大幅提升