比傳統語言模型快10倍,首個商業規模的擴散語言模型,究竟是什麼來頭?

前不久,矽谷的一家初創公司 Inception Labs 正式從隱身模式中浮出水面,推出了 Mercury,這是全球首個基於擴散模型(Diffusion Model)的商業級語言模型。與傳統的自迴歸大語言模型不同,Mercury 採用了一種全新的方法來生成文字和程式碼,這使其在速度、效率和潛在應用方面都具有許多特殊的優勢。
(來源:Inception Labs)
從一對一到並行處理
傳統的大語言模型如都採用自迴歸方式工作。這種架構使得它們必須從左到右、一個標記(token)一個標記地預測和生成文字。這種順序處理方式成為這類模型速度的主要瓶頸。
而 Mercury 卻採用了擴散模型架構。我們都知道這種架構之前主要應用於影像、影片和音訊生成模型,如 Midjourney、DALL-E 和 Sora 等。但 Inception Labs 卻成功將這一技術引入文字生成領域:“我們從一個粗略的答案估計開始,然後透過神經網路不斷精煉,直到得到最終答案。”Ermon 解釋道,“關鍵優勢在於神經網路能夠並行修改多個標記、多個詞語。”
具體來說,Mercury 以一種特殊的方式處理文字資料。雖然 Inception Labs 還未透露模型的引數數量、輸入輸出大小、訓練資料和訓練方法等詳細資訊,但我們可以從 2023 年 10 月由 Inception Labs 聯合創始人共同發表的一篇研究論文中瞭解一些細節。該研究採用“分數熵”(score entropy)訓練文字擴散模型,使模型學會估計兩個標記之間的轉換比率——即標記 y 正確的機率相對於當前標記 x 正確的機率。
在他們的實驗中,研究者透過在多個步驟中隨機逐漸掩蓋越來越多的標記,來向標記新增“噪聲”。在推理階段,模型從掩蓋的標記開始,然後透過多個步驟逐漸取消掩蓋。估計的轉換比率決定了在每個步驟中如何改變每個標記。這與影像擴散模型類似,後者透過逐步去除噪聲來改善輸出。
這種設計讓它生成速度比傳統的語言模型快了非常多,執行在英偉達 H100 圖形處理單元上時,Mercury Coder Small 能夠以每秒 737 個標記的速度生成文字,而 Mercury Coder Mini 甚至達到了每秒 1,109 個標記。相比之下,同類型的模型如 Qwen 2.5 Coder 7B 每秒能生成 207 個標記,GPT-4o Mini 則為每秒 59 個標記。相當於 Mercury 的 Small 和 Mini 版本比類似規模的編碼模型快 3.5 至 18 倍。
圖丨輸出速度對比(來源:Inception Labs)
而在效能表現上,在六項編碼基準測試中,Mercury Coder Small 在至少四項中超過了 Gemini 2.0 Flash-Lite、Claude 3.5 Haiku、GPT-4o Mini 和 Qwen 2.5 Coder 7B 等競爭對手。同時,體積更小的 Mercury Coder Mini 也在至少兩項基準測試中擊敗了這些模型。不過,在所有六項基準測試中,DeepSeek Coder V2 Lite 都優於兩個版本的 Mercury Coder。
圖丨基準測試結果(來源:Inception Labs)
筆者用一道經典的小球碰撞題目進行了實測,並與其他模型進行了比較。Prompt 如下:寫一段 html 程式碼,網頁中間是一個正六邊形,有一個具有初速度的質點在六邊形中,碰到六邊形的邊界就反彈,每次碰到邊界都時邊界都隨機變換顏色。
先讓尖子生 o3-mini-high 來打個樣。
(來源:OpenAI o3-mini-high 生成)
相比之下,Mercury Coder 的表現可以說,要速度有速度,要質量有速度。碰撞檢測非常簡單粗暴,六邊形實現也有誤。
(來源:Mercury Coder 生成)
同類模型 Gpt-4o-mini 在碰撞效果和六邊形實現上表現更好一點,但卻沒有變色效果。
(來源:GPT-4o-mini 生成)
當然這一道題目無法完全說明模型的真實能力,不過從各大社交媒體的使用者實測來看,Mercury Coder 目前的能力的確相對有限,不過作為一種新的模型範式,我們也確實該給它更多的發展時間。
來自擴散模型作者的成果
Mercury 背後的故事始於 2019 年,當時美國斯坦福大學計算機科學教授 Stefano Ermon 開始探索將擴散模型應用於內容生成的可能性。當時主流的影像生成模型還在使用 GAN(生成對抗網路),但 Ermon 及其團隊認為結果“不夠好”,於是開始應用 Diffusion,這最終成為了 Midjourney、DALL-E 等影像生成模型採用的關鍵方法。
Ermon 的團隊同時也在思考如何將擴散技術應用於文字和程式碼生成,但這是一個更具挑戰性的問題,經過多年研究才取得突破。他們於 2023 年 10 月發表了關鍵性研究論文,詳細描述了這一技術,並在 2024 年的國際機器學習會議(ICML)上獲得了最佳論文獎。
在這篇論文中,Stefano Ermon 與 Aaron Lou 和 Chenlin Meng(Pika 的聯合創始人)合作,提出了一種名為 Score Entropy Discrete Diffusion models(SEDD)的模型。
SEDD 的核心創新在於提出了“分數熵”(score entropy)這一全新損失函式,它巧妙地將連續空間的分數匹配理論擴充套件到了離散資料領域。傳統擴散模型在影像等連續資料上取得了巨大成功,但在文字等離散資料上卻一直面臨挑戰。研究者們設計了一種能夠估計資料分佈比率的引數化方法,使用分數熵作為訓練目標,讓模型學會預測標記之間的轉換機率比。在推理過程中,模型從完全掩碼狀態開始,透過多個步驟逐漸去除“噪聲”(即掩碼)。
論文中報告的實驗結果表明,SEDD 在語言建模任務上明顯優於當時已有的語言模型,減少了 25-75% 的困惑度。
認識到這一技術的巨大潛力,Ermon 於 2024 年夏天創立了 Inception Labs,並邀請美國加利福尼亞大學洛杉磯分校教Aditya Grover 和美國康奈爾大學教授 Volodymyr Kuleshov 加入。這三位學者共同領導公司發展,希望“改變生成式 AI 技術的運作方式,不僅針對影像,還包括語言”。
圖丨創始團隊(來源:Inception Labs)
雖然 Ermon 拒絕透露具體的融資細節,但據 TechCrunch 報道,Mayfield Fund 已向該公司投資。Ermon 表示公司已經“資金充足”,目前不在融資階段。
目前,Inception Labs 已經推出了一系列基於擴散技術的大語言模型,名為 Mercury 系列,首款產品是一個名為 Mercury Coder 的編碼助手,同時也能進行文字響應。該公司還計劃推出 AI 聊天機器人和麵向開發者的 API。
Mercury 以專有模型(非開源)的形式提供。該公司表示已經與多家財富 500 強企業建立合作關係,主要解決這些企業在 AI 延遲和速度方面的關鍵需求。Inception Labs 提供 API 以及本地部署和邊緣裝置部署選項,支援模型微調,併為各種用例提供開箱即用的擴散語言模型。
擴散語言模型的未來
雖然從效能表現上來說,它並不算出色,但其優勢在於它比傳統的大模型快 5-10 倍,這對一些即時應用來說非常重要,能顯著提升使用者體驗和系統響應能力。官方宣稱,由於 GPU 利用率更高,它的執行成本也能降低約 10 倍,讓大規模部署 AI 系統變得更加經濟實惠,也更便於在資源有限的端側部署。
不過要注意的是,由於擴散模型的結構特性,其每次推理的成本實際上要高得多,這就抵消了其提高的速度優勢。所以其具體能降低多少成本,還有待考量。
另外,擴散模型本質上更易於控制,類似於影像生成中的草圖控制,為精確引導輸出提供了更多可能性。最重要的是,這種技術為統一多模態創造了條件,意味著同一型別的生成式 AI 模型有潛力處理所有不同模態,包括文字、程式碼、影像、影片和音訊,從而實現知識共享和跨模態學習。
Andrej Karpathy 在社交媒體上評論說,這種模型“有可能真正不同,並可能展示出全新的、獨特的心理特性,或新的優勢和弱點”。
圖丨相關推文(來源:X
比如從文字處理層面來說,擴散語言模型或許具有非常出色的風格處理能力——接收現有文字,新增“噪聲“,然後在精確引導下逆轉這一過程——在翻譯和風格遷移方面可能會具有較大潛力。而且,擴散模型能同時處理文字的多個部分,在生成過程中考慮全域性一致性,這也解決了自迴歸模型難以保證長文字連貫性的固有缺陷。
不過就目前而言,這種模型在效能表現上還有很大的進步空間。至於更大規模的擴散模型是否能夠匹配 ChatGPT、Claude 和 DeepSeek 等頂級模型的效能,能否在不產生大量幻覺的情況下產生可靠結果,以及這種方法是否能夠處理日益複雜的模擬推理任務,讓我們拭目以待。
參考資料:
1.https://techcrunch.com/2025/02/26/inception-emerges-from-stealth-with-a-new-type-of-ai-model/
2.https://www.inceptionlabs.ai/news
3.https://arxiv.org/pdf/2310.16834
4.https://www.deeplearning.ai/the-batch/mercury-coder-may-be-the-first-commercially-available-language-diffusion-model/?utm_campaign=The%20Batch&utm_content=326668060&utm_medium=social&utm_source=twitter&hss_channel=tw-992153930095251456
運營/排版:何晨龍


相關文章