1000token/s的「擴散LLM」憑什麼倒逼AI走出舒適區?

ChatGPT 平地一聲雷,打亂了很多人、很多行業的軌跡和節奏。這兩年模型釋出的數量更是數不勝數,其中文字大模型就佔據了 AIGC 賽道的半壁江山。關注我的家人們永遠都是搶佔 AI 高地的衝鋒者。
所以,今天我準備用一個小調查開頭——
當前你對大模型最不滿的點是什麼?】
(我儘可能整理的全一點兒,但也不可避免地會有遺漏,家人們可以在評論區討論 ~)
  1. 邏輯混亂的"幻覺式回答"
  2. 上下文理解和長對話記憶能力有限 or 過度記憶(混入了之前出現的不相關的內容)
  3. 知識庫更新滯後
  4. 生成速度影響互動流暢度
  5. 指令跟隨的精確度不夠高
  6. 在特定專業領域的回答深度不夠
  7. 缺乏創意,創造性、想象力不夠
  8. 道德護欄過嚴(拒絕合理請求)
  9. 價值觀/偏見:產生一些帶有偏見或不符合倫理道德的回答
  10. 個性化缺失(回答太“通用”,不夠貼合個人需求)
  11. 多模態輸出粗糙(圖文/影片生成不達標)
  12. 資料隱私問題
幻覺、知識滯後是一個老生常談的話題,現在模型基本上都已經具備 RAG 聯網能力,或者透過人類反饋強化學習(RLHF)最佳化生成邏輯來緩解;為了讓模型多記住點東西,增大上下文長度也是這兩年各大廠商卷的方向,硬是被谷歌捲到了 2M 的天花板。
關於「在特定專業領域的回答深度不夠」,現在特別火的 Manus 雖然它想做成通用型 Agent,但我覺得也能解決一部分專業度問題,像秘塔的研究模式、Deep Research、百度的深度搜索,有不少解決方案都在做了。
這裡我想提一下第 4 點——
「生成速度」
因為這兩天對這個感觸比較深。
先是看到群裡有小夥伴吐槽阿里千問的新推理模型 QwQ-32B 的速度,我也深有體會,等半天沒有結果,心急火燎的。所以我乾脆本地部署了一個(看上次的推文);
然後是 Manus,雖然影片 demo 裡面,處理速度快到飛起。但是現實總是有骨感的。
不少拿到邀請碼的朋友和我吐槽“1 小時才做一半”,速度慢到懷疑人生,一個任務動輒需要幾十分鐘。
雖然知道它是一個級聯、多模組排程的複雜系統,但是也能真實的反映當下現在 AI 的響應速度,有時候真的跟不上我們心裡的速度了。
尤其在高峰期或複雜任務中,等待時間,簡直讓人抓狂。
這種心急如焚的等待,經歷過的都懂!
正好這兩天看到 family 群裡小夥伴在討論——Mercury Coder

是一個擴散語言模型,2 月底才出來,生成速度快到要起飛,直接秒殺現在所有的大模型。

當時並沒有多少人關注它,但是怎麼逃得過我這個老技術人的嗅覺。
先感受下它的速度,這是我在官網跑的一個 case(無加速版):
官網地址:
https://chat.inceptionlabs.ai
除了 first token 之前有 3、4 秒的等待,中間幾乎是一口氣兒 print 出來的。
再看個和 Claude、chatgpt 的對比影片——
Mercury 最先出結果,全程只用了 6 秒,Claude 用了 28 秒生成完畢,chatgpt 則用了 36 秒。
生成速度整整快了 5-6 倍。
來自官方的一組更直觀的數字——
“在 NVIDIA H100 GPU 實現高達 1000 tokens/秒的輸出速度,在此之前只能在定製晶片能夠實現這個速度。  ”

而且,不是透過定製晶片、框架適配、加速計算庫這些硬體和工程化手段做到的,而且引入了一種全新的語言模型——
擴散語言模型,diffusion LLM,簡稱成 dLLM。
擴散模型,聽過,語言模型,也聽過。兩個都不陌生。
那擴散 + 語言模型,聽過嗎?大部分人到這裡可能還沒意識到事情的嚴重性。
這個新結合體,極有可能會終結掉現在所有的大模型。

Deepseek 封了 ChatGPT 的成神之路,diffusion LLM,未來可能封了 Transformer 的進化之路。
理解這個之前,你得先知道,現在絕大部分主流 LLM 都是基於 Transformer 架構。
AI 模型的演進史,從 ngram 到 RNN,再到 LSTM,最後到 Transformer,每一代都是以「前一代」的侷限性為靶心。
ngram → RNN:解決了上下文長度限制。
和我一樣學過宗成慶老師的《自然語言處理》的一定知道,ngram 是統計語言模型的奠基者。
RNN → LSTM:解決了梯度爆炸/消失問題。
我剛工作那會兒還在大學特學卷積神經網路和 LSTM 呢,天天研究卷積的複雜度是咋算的、輸入門、遺忘門是怎麼控制的資料的。
LSTM → Transformer:解決了並行化問題。
Transformer → ???
diffusion LLM 可能就是這裡的???。
你看這個圖——

在其他模型的輸出速度只有百級別的時候,Mercury 實測速度已突破每秒 1000 Token 大關。
而且,效能表現可以與 GPT-4o-mini 和 Claude 3.5 Haiku 這種各家兼顧效果和速度的模型相提並論。

自迴歸與擴散之爭

目前為止,你們見到的大部分大語言模型,在核心建模方法上都大同小異,都是“自迴歸”式的。簡單理解——
從左到右,依次預測下一個詞(token)。

就像寫作文,從第一個字開始,根據上下文逐字逐句地寫下去,就跟擠牙膏一樣。
缺點就是速度慢,因為必須一個字一個字地生成。
更重要的是,生成每個 token 都需經過一次對神經網路的正向計算(推理),帶來了巨大的計算負擔。

而大多數影像和影片生成 AI 都是用擴散模型,而不是自迴歸模型。舉個恰當的例子:
就像雕塑,先有一塊粗糙的石頭,逐步去除多餘部分,最終呈現出精美的雕像。
優點是並行生成: 理論上可以一次性生成所有 token,速度更快。
比如 DALL-E 2、Stable Diffusion、Sora 都是擴散的代表。
所以你好不好奇,為什麼文字生成偏愛自迴歸,而影像/影片生成偏愛擴散模型?
這背後原因很複雜,涉及到資訊和噪聲在不同領域的分佈,以及我們人類對它們的感知。
  • 文字是離散的 token 序列,每個詞彙的選擇都強烈依賴於前面的上下文。自迴歸模型(如 Transformer)天然地契合了文字的序列依賴性。
  • 影像和影片是由連續的畫素值組成的,擴散模型最初是為連續資料設計的。
擴散模型的核心在於模擬兩個互逆的過程完成“由混沌至有序” 的生成策略:
  • 前向擴散,如同逐漸向清晰照片注入噪聲,使其最終變為完全隨機的噪點。
  • 反向擴散 則相反,模型學習從純噪聲中逐步去除噪聲,最終還原出清晰影像。  反向擴散過程是擴散模型生成資料的關鍵。

擴散模型不是從左到右,而是一次性生成(這個“一次性”也是透過逐步去噪實現的)。
從純噪聲開始,逐步去除噪聲,最終形成一個 token 序列。
去噪的過程,看這個影片很直觀——
不是一字一字按順序生成,像隨意蹦出來的字元,最後竟然是連貫的。
這是一篇我前段時間刷到過,來自人大高瓴和螞蟻集團合作的一篇論文 LLaDA。
論文連結:
https://arxiv.org/abs/2502.09992
再看一個例子——
擴散大語言模型 LLaDA 的核心在於其引數化的模型  𝑝(𝜃)(⋅|𝑥(𝑡))。這個模型接收序列輸入,並能同時預測所有被mask的 token (用 M 表示)。  在訓練過程中使用交叉熵損失函式,但僅在被掩蓋的 token 上計算損失,以最佳化模型預測掩碼 token 的能力, 訓練的目標函式如下圖所示:

訓練完成後,LLaDA 即可用於文字生成。
它透過模擬一個反向擴散過程來實現,這個反向過程由訓練好的掩碼預測器 𝑝(𝜃) 引數化。  模型的分佈被定義為反向過程在時間步 t=0 時所誘導的邊緣分佈。  這種設計使得 LLaDA 成為一種有原則的生成建模方法
LLaDA 的架構與目前主流的自迴歸大語言模型架構相似,仍是基於 Transformer 架構。  然而,LLaDA 並不使用因果掩碼。  這是因為 LLaDA 的設計允許模型在進行預測時看到完整的輸入序列,而無需像自迴歸模型那樣只能依賴於之前的 token。
回到 Mercury 的效能——
在執行 LLM 推理函式編寫任務時,傳統自迴歸模型需迭代 75 次方可完成,而 Mercury Coder 僅需 14 次迭代,速度提升幅度顯著:
在程式碼補全能力上,Mercury Coder Mini 在 Copilot Arena 基準測試中取得了卓越成績,位列第二,不僅超越了 GPT-4o Mini 和 Gemini-1.5-Flash 等模型,甚至能與更大型的 GPT-4o 模型相提並論:

Andrej Karpathy 對這個工作都表示了認可和期待。

吳恩達老師也翻牌了,稱這是一次很酷的嘗試:

團隊介紹

Mercury 的研究團隊來自一家名為 Inception Labs 的創業公司, 其聯合創始人 Stefano Ermon 不僅是擴散模型技術的核心發明人之一,也是 FlashAttention 原始論文的主要作者之一
Aditya Grover 和 Volodymyr Kuleshov 畢業於斯坦福大學,並分別執教於加州大學洛杉磯分校和康奈爾大學的計算機科學教授,也共同參與了 Inception Labs 的創立。

Mercury 以及 LLaDA 的出現,標誌著基於擴散模型的 dLLM 已經嶄露頭角。
擴散 LLM 如果要封喉 Transformer,還需要在生成速度(並行去噪)、多樣性(擺脫自迴歸的單調性)和可控性(更精準的輸出)上全面勝出。
但眼下,它更像是個有潛力的“後浪”。
但是技術演進往往是融合而非完全替代,未來也有可能是兩者的融合,例如先用擴散模型生成草稿,再用自迴歸模型進行潤色。
畢竟在這個資訊過載的時代,0.5 秒的載入時長就足以讓使用者流失。
當「生成速度」成為制約創造力的瓶頸,就要倒逼 AI 走出舒適區。

參考文獻https://x.com/ArtificialAnlys/status/1894932634322772372https://x.com/karpathy/status/1894923254864978091https://arxiv.org/pdf/2502.09992

相關文章