1000token/s的「擴散LLM」憑什麼倒逼AI走出舒適區？

ChatGPT 平地一聲雷，打亂了很多人、很多行業的軌跡和節奏。這兩年模型釋出的數量更是數不勝數，其中文字大模型就佔據了 AIGC 賽道的半壁江山。關注我的家人們永遠都是搶佔 AI 高地的衝鋒者。

所以，今天我準備用一個小調查開頭——

【當前你對大模型最不滿的點是什麼？】

（我儘可能整理的全一點兒，但也不可避免地會有遺漏，家人們可以在評論區討論～）

邏輯混亂的"幻覺式回答"
上下文理解和長對話記憶能力有限 or 過度記憶（混入了之前出現的不相關的內容）
知識庫更新滯後
生成速度影響互動流暢度
指令跟隨的精確度不夠高
在特定專業領域的回答深度不夠
缺乏創意，創造性、想象力不夠
道德護欄過嚴（拒絕合理請求）
價值觀/偏見：產生一些帶有偏見或不符合倫理道德的回答
個性化缺失（回答太“通用”，不夠貼合個人需求）
多模態輸出粗糙（圖文/影片生成不達標）
資料隱私問題

幻覺、知識滯後是一個老生常談的話題，現在模型基本上都已經具備 RAG 聯網能力，或者透過人類反饋強化學習（RLHF）最佳化生成邏輯來緩解；為了讓模型多記住點東西，增大上下文長度也是這兩年各大廠商卷的方向，硬是被谷歌捲到了 2M 的天花板。

關於「在特定專業領域的回答深度不夠」，現在特別火的 Manus 雖然它想做成通用型 Agent，但我覺得也能解決一部分專業度問題，像秘塔的研究模式、Deep Research、百度的深度搜索，有不少解決方案都在做了。

這裡我想提一下第 4 點——

「生成速度」

因為這兩天對這個感觸比較深。

先是看到群裡有小夥伴吐槽阿里千問的新推理模型 QwQ-32B 的速度，我也深有體會，等半天沒有結果，心急火燎的。所以我乾脆本地部署了一個（看上次的推文）；

然後是 Manus，雖然影片 demo 裡面，處理速度快到飛起。但是現實總是有骨感的。

不少拿到邀請碼的朋友和我吐槽“1 小時才做一半”，速度慢到懷疑人生，一個任務動輒需要幾十分鐘。

雖然知道它是一個級聯、多模組排程的複雜系統，但是也能真實的反映當下現在 AI 的響應速度，有時候真的跟不上我們心裡的速度了。

尤其在高峰期或複雜任務中，等待時間，簡直讓人抓狂。

這種心急如焚的等待，經歷過的都懂！

正好這兩天看到 family 群裡小夥伴在討論——Mercury Coder

是一個擴散語言模型，2 月底才出來，生成速度快到要起飛，直接秒殺現在所有的大模型。

當時並沒有多少人關注它，但是怎麼逃得過我這個老技術人的嗅覺。

先感受下它的速度，這是我在官網跑的一個 case（無加速版）：

官網地址：

https://chat.inceptionlabs.ai

除了 first token 之前有 3、4 秒的等待，中間幾乎是一口氣兒 print 出來的。

再看個和 Claude、chatgpt 的對比影片——

Mercury 最先出結果，全程只用了 6 秒，Claude 用了 28 秒生成完畢，chatgpt 則用了 36 秒。

生成速度整整快了 5-6 倍。

來自官方的一組更直觀的數字——

“在 NVIDIA H100 GPU 實現高達 1000 tokens/秒的輸出速度，在此之前只能在定製晶片能夠實現這個速度。 ”

而且，不是透過定製晶片、框架適配、加速計算庫這些硬體和工程化手段做到的，而且引入了一種全新的語言模型——

擴散語言模型，diffusion LLM，簡稱成 dLLM。

擴散模型，聽過，語言模型，也聽過。兩個都不陌生。

那擴散 + 語言模型，聽過嗎？大部分人到這裡可能還沒意識到事情的嚴重性。

這個新結合體，極有可能會終結掉現在所有的大模型。

Deepseek 封了 ChatGPT 的成神之路，diffusion LLM，未來可能封了 Transformer 的進化之路。

理解這個之前，你得先知道，現在絕大部分主流 LLM 都是基於 Transformer 架構。

AI 模型的演進史，從 ngram 到 RNN，再到 LSTM，最後到 Transformer，每一代都是以「前一代」的侷限性為靶心。

ngram → RNN：解決了上下文長度限制。

和我一樣學過宗成慶老師的《自然語言處理》的一定知道，ngram 是統計語言模型的奠基者。

RNN → LSTM：解決了梯度爆炸/消失問題。

我剛工作那會兒還在大學特學卷積神經網路和 LSTM 呢，天天研究卷積的複雜度是咋算的、輸入門、遺忘門是怎麼控制的資料的。

LSTM → Transformer：解決了並行化問題。

Transformer → ？？？

diffusion LLM 可能就是這裡的？？？。

你看這個圖——

在其他模型的輸出速度只有百級別的時候，Mercury 實測速度已突破每秒 1000 Token 大關。

而且，效能表現可以與 GPT-4o-mini 和 Claude 3.5 Haiku 這種各家兼顧效果和速度的模型相提並論。

自迴歸與擴散之爭

目前為止，你們見到的大部分大語言模型，在核心建模方法上都大同小異，都是“自迴歸”式的。簡單理解——

從左到右，依次預測下一個詞（token）。

就像寫作文，從第一個字開始，根據上下文逐字逐句地寫下去，就跟擠牙膏一樣。

缺點就是速度慢，因為必須一個字一個字地生成。

更重要的是，生成每個 token 都需經過一次對神經網路的正向計算（推理），帶來了巨大的計算負擔。

而大多數影像和影片生成 AI 都是用擴散模型，而不是自迴歸模型。舉個恰當的例子：

就像雕塑，先有一塊粗糙的石頭，逐步去除多餘部分，最終呈現出精美的雕像。

優點是並行生成： 理論上可以一次性生成所有 token，速度更快。

比如 DALL-E 2、Stable Diffusion、Sora 都是擴散的代表。

所以你好不好奇，為什麼文字生成偏愛自迴歸，而影像/影片生成偏愛擴散模型？

這背後原因很複雜，涉及到資訊和噪聲在不同領域的分佈，以及我們人類對它們的感知。

文字是離散的 token 序列，每個詞彙的選擇都強烈依賴於前面的上下文。自迴歸模型（如 Transformer）天然地契合了文字的序列依賴性。
影像和影片是由連續的畫素值組成的，擴散模型最初是為連續資料設計的。

擴散模型的核心在於模擬兩個互逆的過程完成“由混沌至有序” 的生成策略：

前向擴散，如同逐漸向清晰照片注入噪聲，使其最終變為完全隨機的噪點。
反向擴散 則相反，模型學習從純噪聲中逐步去除噪聲，最終還原出清晰影像。反向擴散過程是擴散模型生成資料的關鍵。

擴散模型不是從左到右，而是一次性生成（這個“一次性”也是透過逐步去噪實現的）。

從純噪聲開始，逐步去除噪聲，最終形成一個 token 序列。

去噪的過程，看這個影片很直觀——

不是一字一字按順序生成，像隨意蹦出來的字元，最後竟然是連貫的。

這是一篇我前段時間刷到過，來自人大高瓴和螞蟻集團合作的一篇論文 LLaDA。

論文連結：

https://arxiv.org/abs/2502.09992

再看一個例子——

擴散大語言模型 LLaDA 的核心在於其引數化的模型 𝑝(𝜃)(⋅|𝑥(𝑡))。這個模型接收序列輸入，並能同時預測所有被mask的 token (用 M 表示)。在訓練過程中使用交叉熵損失函式，但僅在被掩蓋的 token 上計算損失，以最佳化模型預測掩碼 token 的能力，訓練的目標函式如下圖所示：