
©作者 | 聶燊、朱峰琪等
單位 | 中國人民大學、螞蟻集團
近年來,大語言模型(LLMs)取得了突破性進展,展現了諸如上下文學習、指令遵循、推理和多輪對話等能力。目前,普遍的觀點認為其成功依賴於自迴歸模型的「next token prediction」正規化。這種方法透過預測下一個詞的方式拆解語言聯合機率,形式化如下:

最近,人大高瓴李崇軒、文繼榮團隊和螞蟻集團的研究員提出了一種新的洞察:大語言模型展現的語言智慧(如上下文學習、指令遵循、推理和多輪對話等能力)並非自迴歸機制獨有,而在於背後所遵循的生成建模原則,即透過最大似然估計(或最小化 KL 散度)來逼近真實語言分佈。

正是基於這一理念,團隊開發了 LLaDA(Large Language Diffusion with mAsking)—— 一種基於掩碼擴散模型的語言生成方法。
與傳統自迴歸模型不同,LLaDA 採用了前向掩碼加噪和反向去噪的機制,不僅突破了單向生成的侷限,還透過最佳化似然下界,提供了一種不同於自迴歸的、原理嚴謹的機率建模方案。
透過大規模實驗,LLaDA 8B 在可擴充套件性、下游語言任務中全面媲美現代大語言模型,如 Llama3 8B。
這些結果一定程度上表明,LLMs 的核心能力(如可擴充套件性、上下文學習和指令遵循)並非自迴歸模型獨有,而是源自於合理的生成建模策略和充分的模型資料規模。LLaDA 不僅提出了一種新的大語言模型的機率建模框架,也有助於我們進一步理解語言智慧。

論文標題:
Large Language Diffusion Models
論文連結:
https://arxiv.org/abs/2502.09992
專案連結:
https://ml-gsai.github.io/LLaDA-demo/
程式碼連結:
https://github.com/ML-GSAI/LLaDA
團隊預計近期開源推理程式碼和 LLaDA 8B Base 權重,後續還將開源 LLaDA 8B Instruct 權重。

效能展示
卓越的可擴充套件性。在多個語言任務上,LLaDA 和自迴歸模型基線進行了嚴格對比。實驗表明,在相同的資料條件下,LLaDA 在 MMLU、GSM8K 等多個任務上展現了與自迴歸模型相當的表現,證明了其在高計算成本下的強大擴充套件能力。
即使在某些相對薄弱的任務上,隨著模型規模的增大,LLaDA 也能迅速縮小與自迴歸模型之間的效能差距。

出色的上下文學習與指令遵循能力。在涵蓋 15 個熱門基準測試(包括通用任務、數學、程式碼及中文任務)的評測中,預訓練了 2.3T tokens 的 LLaDA 8B Base 模型憑藉強大的 zero/few-shot 學習能力,整體表現超越了 LLaMA2 7B Base (預訓練 tokens 2T),並與 LLaMA3 8B Base (預訓練 tokens 15T)媲美。
在經過監督微調(SFT)後,LLaDA 的指令遵循能力得到了顯著提升,能在多輪對話及跨語種生成任務中保持連貫性和高質量輸出,充分展現了其對複雜語言指令的良好理解和響應能力。
下圖是在一些熱門基準上 LLaDA 和 LLaMA3 以及 LLaMA2 的效能對比,詳細結果請參見論文。


平衡的正向與逆向推理能力。傳統自迴歸模型在逆向推理任務中常常存在「逆向詛咒」[3] 問題,好比當模型在「A is B」資料上訓練之後無法回答「B is A」。而 LLaDA 則透過雙向的機率建模機制,有效克服了這一侷限。
在詩歌補全任務中,LLaDA 在正向生成與逆向生成上均取得了均衡表現,尤其在逆向任務中明顯超越了 GPT-4o 和其他對比模型,展現了強大的逆向推理能力。

多場景下的實際應用效果。除了標準測試指標外,我們在多輪對話、數學題解和跨語言文字生成等實際應用場景中也看到了 LLaDA 的出色表現。無論是複雜問題求解、指令翻譯,還是創意詩歌生成,LLaDA 都能準確把握上下文並生成流暢、合理的回答,充分驗證了其在非自迴歸生成模式下的應用前景。
下圖是 LLaDA 在回答使用者提問的一個例子,使用者輸入的 prompt 是「Explain what artificial intelligence is」。LLaDA 採取了一種不同於自迴歸模型從左到右的生成方式。

下圖是 LLaDA 同用戶進行多輪對話的場景。LLaDA 不僅正確回答了詩歌《未選擇的路》的前兩句,而且成功將英文翻譯成中文和德語,並且按照使用者要求創作了一首五行,且每一行均以字母 C 開頭的詩歌。


核心方法
下圖展示了 LLaDA 的預訓練、監督微調以及取樣過程。

機率建模框架。LLaDA 透過前向過程和反向過程來定義模型分佈 。在前向過程中,對文字 中的 tokens 進行逐步獨立掩碼,直到在 時整個序列被完全掩碼。
當 時,序列 是部分掩碼的,每個 token 有機率 t 被掩碼,或者以機率 1-t 保留原樣。而反向過程則透過在 t 從 1 逐步減小到 0 的過程中反覆預測被掩碼的 tokens,從而恢復出資料分佈。
LLaDA 的核心是一個引數化的掩碼預測器 ,其訓練目標僅對被掩碼部分計算交叉熵損失:

前期工作[2]已證明該目標函式為負對數似然的上界,從而為生成建模提供了嚴格的理論依據。
預訓練。LLaDA 使用 Transformer 作為掩碼預測器,並且不採用因果掩碼,從而能夠利用全域性資訊進行預測。預訓練在 2.3 萬億 tokens 的資料上進行,這些資料涵蓋通用文字,程式碼,數學以及多語言內容。
對於每個訓練序列 ,先隨機取樣 ,然後以相同機率 t 對每個 token 進行獨立掩碼得到 ,並通過蒙特卡羅方法估計目標函式 進行最佳化。
為增強對變長資料的處理能力,部分資料採用了隨機長度。LLaDA 採用 Warmup-Stable-Decay 學習率排程器和 AdamW 最佳化器,設定總批次大小為 1280 (每 GPU 4)。
監督微調(SFT)。為了提升模型的指令遵循能力,LLaDA 在監督微調階段使用成對資料 進行訓練,其中 為提示, 為響應。在 SFT 中保持提示 不變,對響應 進行獨立掩碼生成,然後計算如下損失:

其中 L' 為響應的動態長度。整個過程與預訓練一致,只是所有被掩碼的 token 均來自響應部分。SFT 在 450 萬對資料上進行,使用類似預訓練的學習率排程和最佳化器設定。
推斷。給定提示 ,模型從完全掩碼的響應開始,透過離散化的反向過程逐步恢復文字。在每一步,模型預測所有被掩碼 token 後,會按一定比例對部分預測結果進行再掩碼,以保證反向過程與前向過程一致。對於條件似然評估,LLaDA 使用了下面這個和 等價但是方差更小的目標函式:

其中 是從 中均勻取樣得到, 是透過從 中不放回地均勻取樣 個 token 進行掩碼得到。

總結
擴散語言模型 LLaDA 首次展示了透過前向掩碼加噪與反向去噪機制,同樣可以實現大語言模型的核心能力。
實驗表明,LLaDA 在可擴充套件性、上下文學習和指令遵循等方面表現優異,具備與傳統自迴歸模型相媲美甚至更優的效能,同時其雙向生成與增強的魯棒性有效突破了自迴歸建模的固有限制,從而挑戰了「大語言模型的智慧必然依賴自迴歸生成」的傳統觀念。

參考文獻

[1] Ou J, Nie S, Xue K, et al. Your Absorbing Discrete Diffusion Secretly Models the Conditional Distributions of Clean Data. To appear in ICLR, 2025.
[2] Nie S, Zhu F, Du C, et al. Scaling up Masked Diffusion Models on Text. To appear in ICLR, 2025.
[3] Berglund L, Tong M, Kaufmann M, et al. The reversal curse: Llms trained on"a is b" fail to learn"b is a"[J]. arXiv preprint arXiv:2309.12288, 2023.
本文由中國人民大學高瓴人工智慧學院李崇軒、文繼榮教授團隊和螞蟻集團共同完成。
共同一作聶燊和朱峰琪是中國人民大學高瓴人工智慧學院的博士生,導師為李崇軒副教授,論文為二者在螞蟻實習期間完成。螞蟻集團張曉露、胡俊,人民大學林衍凱、李崇軒為共同專案負責人。李崇軒副教授為唯一通訊作者。
LLaDA 基於李崇軒課題組的前期工作 RADD [1] 和 SMDM [2]。目前這兩篇論文均已被 ICLR 2025 接收。
更多閱讀

#投 稿 通 道#
讓你的文字被更多人看到
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected]
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿

△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·
·
·
