ICML2025|Transformer還有救？魔改殘差連線，MUDDFormer硬剛超深網路

當下大多數人都覺得 Transformer 已經被研究得差不多了，想在結構上做出能超越它的創新，基本不太可能了。

但是總有人願意打破常規，最近一篇 ICML 2025 的論文，又讓 Transformer 有了新活力。它把目光放在了 Transformer 裡一個我們平時沒太在意、甚至有點忽略的部分——殘差連線。

殘差連線（residual connections）自何愷明在 2015 年開山之作 ResNet [1] 中提出後，就成為深度學習乃至 Transformer LLMs 的一大基石。但在當今的深度 Transformer LLMs 中仍有其侷限性，限制了資訊在跨層間的高效傳遞。

彩雲科技與北京郵電大學近期聯合提出了一個簡單有效的殘差連線替代：多路動態稠密連線（MUltiway Dynamic Dense (MUDD) connection），大幅度提高了 Transformer 跨層資訊傳遞的效率。

論文標題：

MUDDFormer: Breaking Residual Bottlenecks in Transformers via Multiway Dynamic Dense Connections

論文連結：

https://arxiv.org/abs/2502.12170

程式碼連結：

https://github.com/Caiyun-AI/MUDDFormer

模型連結：

https://huggingface.co/Caiyun-AI/MUDDFormer-2.8B

https://huggingface.co/Caiyun-AI/MUDDPythia-1.4B

https://huggingface.co/Caiyun-AI/MUDDPythia-2.8B

大規模語言模型預訓練實驗表明，僅增加 0.23% 的引數量和 0.4% 的計算量，採用該架構的 2.8B 引數量 MUDDPythia 模型即可在 0-shot 和 5-shot 評估中分別媲美 6.9B 引數量（~2.4 倍）和 12B 引數量（~4.2 倍）的 Pythia 模型，表明了 MUDD 連線對 Transformer 的基礎能力（尤其是上下文學習能力）的顯著提升。

這是該團隊繼 DCFormer [2]（ICML 2024）後又一項大模型底層架構創新工作，已被 ICML 2025 接收，論文、程式碼和模型權重均已公開。

背景

在 Transformer 中殘差流彙集了多層的資訊，同時也為 Attention 和 FFN 提供多路資訊，比如在 Attention 模組中需要獲取 query、key、value 三路資訊，殘差流本身也可以看作一路資訊流（記作 R）。

雖然殘差連線的引入首次讓訓練超深度網路成為可能，但在當今的深度 Transformer LLMs 中仍有其侷限：

深層隱狀態的表徵坍塌（Representation Collapse）：目前 Transformer LLM 普遍採用 Pre-Norm 訓練，多個理論和實證工作 [3,4] 表明，當達到一定層深後，再增加更多的層會出現邊際效應遞減，相鄰層的隱狀態表徵高度相似（即「表徵坍塌」），讓引數和算力 scaling 的效果大打折扣。

殘差流的資訊過載：Transformer 機制可解釋性研究表明，跨越不同層的注意力頭和前饋網路透過讀寫殘差流（residual stream）互動組成迴路（circuit），對模型的上下文學習（in-context learning）等能力至關重要。

在非常深的 Transformer 模型中，殘差流作為多層間「通訊匯流排」可能因為多路資訊共享殘差流，以及多層資訊在深層彙集而「超載」成為瓶頸，妨礙形成解決困難任務所必須的複雜迴路。

針對上述侷限，MUDD 根據當前隱狀態動態搭建跨層連線（可視為深度方向的多頭注意力），來緩解深層隱狀態的表徵坍塌，同時針對 Transformer 每層的 query、key、value、殘差等不同輸入流採用各自的動態連線，來減少多路資訊流的相互干擾，緩解殘差流的資訊過載，這樣既大幅度拓寬了跨層資訊傳輸頻寬，又保證了非常高的引數和計算效率。

核心架構

如圖 1a 所示，為了實現更直接的跨層互動，DenseNet [5] 將當前 Block 和前面所有的 Block 進行稠密連線（Dense Connectivity）。

最近 Pagliardini 等人 [6] 將其引入 Transformer，提出了 DenseFormer（NeurIPS 2025），如圖 1b 所示。

它透過一組可學習但靜態的權重（如）來加權求和前面所有層的輸出。這種方式雖然拓寬了資訊通路，但靜態權重使得對於序列中不同 token 都做同樣處理，限制了表達能力。

▲ 圖1. MUDD 的架構圖

研究者首先提出了 DynamicDenseFormer（如圖 1c），用

表示第個 token 的跨層資訊聚合模組 (Depth-wise Aggregate)，連線權重不再是固定的引數，而是由當前層的隱狀態

動態生成的一個權重矩陣

。

這意味著，模型可以根據每個 token 的上下文語境，自適應地決定應該從前面的哪一層、以多大的權重提取資訊。本質上，這可以看作是在深度維度上的一次單頭注意力，與 Vaswani 等人 [7] 在 Transformer 中提出的 token 維度上的注意力機制遙相呼應。

在 DynamicDenseFormer 的基礎上引入多路連線就得到了 MUDDFormer，如圖 1d 所示，它將原本單一的動態連線，解耦成四路獨立的動態連線，分別為 Q、K、V、R（圖 1d 中的

等）定製各自的跨層資訊聚合模組。

這樣每一路資訊流都可以根據自己的需求，更高效地從前面層中獲取對應資訊。可看作是深度向的多頭注意力。

實驗評估

Scaling Law

▲ 圖2. MUDDFormer和基線模型的擴充套件實驗

研究者在 Pile 資料集上測試了 MUDDFormer 和其他基線模型的擴充套件能力，如圖 2 所示。

Hyper-Connections [8] 也是字節跳動 Seed 最近一個發表在 ICLR 2025 的改進殘差連線的工作，圖 2 中可見 DynamicDenseFormer 已經比 DenseFormer 和 Hyper-Connections 都表現好，而且在解耦多路資訊流後，MUDDFormer 又有明顯的效果提升。

在所有模型尺寸下 MUDDFormer 都顯著領先 Transformer++ 和其他基線模型 (Loss 越低越好)，並且其領先優勢隨著模型增大並未減小。MUDDFormer-834M 的效能，已經超越了需要 1.89 倍計算量的 Transformer++ 基線模型，展現了驚人的計算效率提升。

▲ 圖3. MUDDFormer和Transformer++的深度擴充套件實驗

為了驗證 MUDDFormer 在更深層模型上的有效性，研究者在不增加引數量的前提下增加模型的深度，並進行了擴充套件實驗，如圖 3。

Transformer++ 在超過 24 層後收益遞減（縮放曲線幾乎重合），而 deep MUDDFormer 在高達 42 層時仍能保持收益，使得在 797M 下達到了 2.08 倍 Transformer++ 的效能。這進一步驗證了 MUDD 連線可以透過增強跨層資訊流來緩解深度引起的瓶頸。

下游任務測評

研究者將 MUDD 架構與開源的 Pythia 模型框架結合，在 300B tokens 的資料上進行訓練，並與從 1.4B 到 12B 的全系列 Pythia 模型進行比較，如圖 4。

▲ 圖4. 下游任務對比測評

首先，MUDDPythia 在 0-shot 和 5-shot 任務上的平均準確率，都明顯高於同等計算量下的 Pythia 模型，而且在 5-shot 下的提升效果更明顯，說明上下文能力得到了額外的增強。

從圖 5 中可以看出在 0-shot 下，2.8B 的 MUDDPythia 的效能媲美了 6.9B 的 Pythia，實現了 2.4 倍的計算效率飛躍；在 5-shot 下，2.8B 的 MUDDPythia 的效能，甚至追平了 12B 的 Pythia，實現了 4.2 倍計算效率提升！

▲ 圖5. 下游任務準確率對比曲線

這表明，MUDD 所構建的高效資訊通路，極大地增強了模型在上下文中動態構建複雜推理迴路的能力。

分析

圖 6 展示了模型注意力頭啟用比例隨層數的變化，在標準的 Pythia 模型中，隨著層數加深大量注意力頭都只關注少數幾個 token（attention sink [9]）並未啟用。

▲ 圖6. 注意力頭啟用比例的逐層變化曲線

然而，在 MUDDPythia 中，幾乎在所有層的注意力頭啟用率都遠高於 Pythia，平均高出約 2.4 倍。這說明 MUDD 連線加強了對 Attention 的利用，也部分解釋了上下文能力的增強。

結語

MUDDFormer 透過簡單高效的實現改進了殘差連線，為 Transformer 內部不同的資訊流（Q、K、V、R）建立各自獨立的動態跨層連線，不僅增強了 Transformer 模型的跨層互動，而且進一步提升了模型的上下文學習能力。

實驗證明這種新的連線機制能以微弱的代價，換來模型效能和計算效率的巨大飛躍。MUDDFormer 所展示的潛力，使其有望成為下一代基礎模型架構中不可或缺的新基石。

參考文獻

[1] He, K., Zhang, X., Ren, S., and Sun, J. Deep residual learning for image recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition (CVPR), pp. 770–778, 2016.

[2] Xiao, Da, et al. "Improving transformers with dynamically composable multi-head attention." Proceedings of the 41st International Conference on Machine Learning. 2024.

[3] Liu, L., Liu, X., Gao, J., Chen, W., and Han, J. Understanding the difficulty of training transformers. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), 2020b.

[4] Gromov, A., Tirumala, K., Shapourian, H., Glorioso, P., and Roberts, D. A. The unreasonable ineffectiveness of the deeper layers. arXiv preprint arXiv:2403.17887, 2024.

[5] Huang, G., Liu, Z., Van Der Maaten, L., and Weinberger, K. Q. Densely connected convolutional networks. In Proceedings of the IEEE conference on computer vision and pattern recognition (CVPR), pp. 4700–4708, 2017.

[6] Pagliardini, M., Mohtashami, A., Fleuret, F., and Jaggi, M. Denseformer: Enhancing information flow in transformers via depth weighted averaging. In Proceedings of the Thirty-Eighth Annual Conference on Neural Information Processing Systems (NeurIPS), 2024.

[7] Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., and Polosukhin, I. Attention is all you need. Advances in neural information processing systems, 30, 2017.

[8] Zhu, D., Huang, H., Huang, Z., Zeng, Y., Mao, Y., Wu, B., Min, Q., and Zhou, X. Hyper-connections. In Proceedings of the Thirteenth International Conference on Learning Representations (ICLR), 2025

[9] Xiao, G., Tian, Y., Chen, B., Han, S., and Lewis, M. Efficient streaming language models with attention sinks. In The Twelfth International Conference on Learning Representations (ICLR), 2024b.

更多閱讀