
新智元報道
新智元報道
編輯:LRS
【新智元導讀】塊離散去噪擴散語言模型(BD3-LMs)結合自迴歸模型和擴散模型的優勢,解決了現有擴散模型生成長度受限、推理效率低和生成質量低的問題。透過塊狀擴散實現任意長度生成,利用鍵值快取提升效率,並透過最佳化噪聲排程降低訓練方差,達到擴散模型中最高的預測準確性,同時生成效率和質量優於其他擴散模型。
擴散模型被廣泛應用於生成影像和影片,並且在生成離散資料(如文字或生物序列)任務上的效果也越來越好,與自迴歸模型相比,擴散模型有望加速「生成過程」並提高模型輸出的「可控性」。
然而,離散擴散模型目前仍然有三個侷限性:
-
在聊天系統等應用中,模型需要生成任意長度的輸出序列(例如,對使用者問題的回答),但大多數現有的擴散架構只能生成固定長度的向量;
-
離散擴散在生成過程中使用雙向上下文,因此無法利用鍵值快取(KV caching)複用之前的計算,使得推理效率較低。
-
從困惑度等標準指標來看,離散擴散模型的質量仍落後於自迴歸方法,也進一步限制了其應用範圍。
為了克服這些侷限性,康奈爾科技校區(Cornell Tech)、斯坦福大學的研究人員提出了「塊離散去噪擴散語言模型」(BD3-LMs,Block Discrete Denoising Diffusion Language Models),介於離散擴散模型和自迴歸模型之間:塊擴散模型(也稱為半自迴歸模型)在離散隨機變數的塊上定義了一個自迴歸機率分佈;給定前面的塊,當前塊的條件機率由離散去噪擴散模型指定。

論文連結:https://arxiv.org/pdf/2503.09573
程式碼連結:https://github.com/kuleshov-group/bd3lms
想要開發出一個高效的BD3-LMs,仍然有兩大難題需要解決:
-
計算塊擴散模型的訓練目標無法透過神經網路的標準前向傳播實現,需要開發專門的演算法;
-
擴散目標的梯度方差較大,導致即使在塊大小為1(此時兩種模型理論上等價)時,BD3-LMs的表現仍不如自迴歸模型。
研究人員透過推導梯度方差的估計器,發現了導致自迴歸模型與擴散模型之間困惑度差距的關鍵因素,文中提出了定製的噪聲過程,以最小化梯度方差,並縮小了困惑度差距。


自迴歸生成過程


擴散生成過程


塊擴散生成過程
研究人員在語言建模基準測試中評估了BD3-LMs,結果表明,該模型能夠生成任意長度的序列,包括超出其訓練上下文長度的序列,並且在離散擴散模型中達到了新的最低困惑度。
與在嵌入層上進行高斯擴散的其他半自迴歸方法相比,文中提出的離散方法具有可處理的(tractable)似然估計,並且在生成步驟少了一個數量級的情況下,生成樣本的困惑度還更低。
Block Diffusion語言建模
自迴歸語言模型vs擴散語言模型
語言建模任務就是從資料分佈q(x)中獲得具有L個token的序列

,目標是擬合出一個服從q分佈的模型

。
自迴歸模型(Autoregressive Models)將token的分佈分解成一種逐步生成的形式,即根據前面的token來預測下一個token

但這種方法存在一個問題:由於token之間的順序依賴關係,自迴歸模型在生成長序列時需要逐個token進行取樣,可能會導致生成速度變慢。
相比之下,擴散模型(Diffusion Models)透過獨立建模tokens實現了並行生成,其核心思想是透過「去噪」來逆轉預先設計的「加噪」過程,利用轉移矩陣(transition matrices)告訴模型如何從噪聲中恢復出清晰的token

然而,擴散模型也有侷限性,其目標是最小化似然的一個上界,也就意味著在生成質量和預測準確性方面可能不如自迴歸模型;並且擴散模型目前只能生成固定長度的序列,限制了其在生成任意長度輸出應用中的靈活性。
BD3-LMs
研究人員結合了自迴歸模型在「生成質量」和「靈活長度生成」方面的優勢,以及擴散模型在「快速並行生成」方面的優點,提出了塊離散去噪擴散語言模型(Block Discrete Denoising Diffusion Language Models,BD3-LMs)。
塊擴散似然
研究人員提出了一種新的建模框架,將token分組成塊(block),並在每個塊內執行擴散操作。
具體來說,模型以自迴歸的方式處理這些塊,同時在每個塊內部使用擴散模型進行生成,其似然函式可以分解為B個長度為L'的部分。

每個塊

都透過離散擴散的變分下界(ELBO)來建模,覆蓋的塊尺寸為L'個token。
透過最佳化似然下界,可以得到一個合理的訓練目標:

研究人員採用一種簡單的離散擴散引數化方法來建模每個塊的似然,最終模型的目標函式變成了加權交叉熵項的總和。

高效訓練與取樣演算法
通常情況下,需要迴圈B次

操作來計算結果,研究人員提出了一種高效訓練方法,只需要進行兩次正向傳播即可完成計算。
第一次正向傳播會預先計算出整個序列的鍵(keys)

和值(values)

;第二次正向傳播則利用這些預先計算好的鍵和值,同時為所有塊生成去噪後的預測結果。
在從塊離散去噪擴散語言模型(BD3-LMs)中取樣時,一次生成一個塊,並且這個塊的生成是基於之前已經生成的塊的條件。
生成一個塊後,像自迴歸模型(AR)一樣將鍵和值快取起來;在生成過程中,可以使用任意擴散取樣方法,從條件分佈中生成樣本,並且每個塊的取樣步驟可以獨立進行。

擴散模型與自迴歸模型之間的似然差距
單個token生成
塊擴散模型在理論上與自迴歸模型的負對數似然(NLL)是等價的,尤其是在L'=1的極限情況下。
然而,研究人員發現,在LM1B資料集上訓練這兩種模型時,即使在塊大小為1的情況下,塊擴散模型與自迴歸模型之間仍然存在2個點的困惑度差距。
經過分析,可以發現擴散模型的目標函式在訓練過程中具有較高的方差,是導致困惑度差距的主要原因。

在離散擴散模型的訓練中,使用變分下界(ELBO)時會遇到高方差的問題。
從直覺上來說,如果被遮蔽的部分太少,那麼恢復原始內容就會很容易,這種情況下模型就得不到有效的學習訊號;
反過來,如果把所有內容都遮蔽掉,那麼最優的恢復方式就是簡單地根據資料分佈中每個token的獨立機率來進行猜測,這種任務雖然容易完成,但也同樣沒有意義。
最終的目標是找到一種合適的噪聲排程(noise schedule),以減少由擴散目標引起的訓練過程中的波動,並進一步縮小模型在困惑度上的差距。
為了避免因遮蔽率(masking rates)過高而導致訓練過程中的大幅波動,研究人員在訓練塊離散去噪擴散語言模型(BD3-LMs)時,採用了「限制性」的遮蔽率:透過降低訓練過程中的波動,當在評估時使用均勻取樣的遮蔽率時,模型的預測準確性得到了提升。
由於最優的遮蔽率可能因塊的大小而有所不同,研究人員在訓練過程中自適應地學習這些遮蔽率,在每次驗證步驟中,每完成5000次梯度更新後,透過網格搜尋來最佳化遮蔽率。
研究結果表明,針對每個塊大小最佳化噪聲排程可以減少損失估計器的方差,並在與其他噪聲時間表的比較中實現最佳的困惑度效能。

實驗結果
似然評估
BD3-LMs在擴散模型中達到了最先進的預測準確性(似然性),透過調整塊的長度,BD3-LMs能夠在擴散模型的似然性和自迴歸模型的似然性之間實現平衡。

任意長度序列生成
許多現有的擴散語言模型有一個重大缺陷:無法生成比訓練時選擇的輸出上下文長度更長的完整文件。
例如,OpenWebText資料集中包含的文件最長可達13.1萬個tokens,但離散擴散模型SEDD只能生成最多1024個token的內容。

實驗結果展現了BD3-LMs能夠透過解碼任意數量的塊來生成長度可變的文件,研究人員評估了BD3-LMs在生成長度可變的序列時的質量,並使用相同的生成步數(NFEs)來比較所有方法。
研究人員還測量了在GPT2-Large模型下采樣序列的生成困惑度,結果顯示BD3-LMs在所有之前的擴散方法中達到了最佳的生成困惑度。

研究人員還將其與半自迴歸SSD-LM進行了比較,在詞嵌入上執行高斯擴散,但無法進行似然估計;相比之下,文中提出的離散方法在少一個數量級的生成步數下,生成的樣本具有更低的生成困惑度。
簡單來說,BD3-LMs不僅能夠生成任意長度的文件,而且在生成效率和質量上都優於其他擴散模型。
參考資料:
https://arxiv.org/pdf/2503.09573

