野生DeepSeek火了,速度碾壓官方版,權重開源

MLNLP社群是國內外知名的機器學習與自然語言處理社群,受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。
社群的願景是促進國內外自然語言處理,機器學習學術界、產業界和廣大愛好者之間的交流和進步,特別是初學者同學們的進步。
來源 | 機器之心
編輯 | 杜偉、澤南
沒等來 DeepSeek 官方的 R2,卻迎來了一個速度更快、效能不弱於 R1 的「野生」變體!
這兩天,一個名為「DeepSeek R1T2」的模型火了!
這個模型的速度比 R1-0528 快 200%,比 R1 快 20%。除了速度上的顯著優勢,它在 GPQA Diamond(專家級推理能力問答基準)和 AIME 24(數學推理基準)上的表現均優於 R1,但未達到 R1-0528 的水平。
在技術層面,採用了專家組合(Assembly of Experts,AoE)技術開發,並融合了 DeepSeek 官方的 V3、R1 和 R1-0528 三大模型。
當然,這個模型也是開源的,遵循 MIT 協議,並在 Hugging Face 上開放了權重。
Hugging Face 地址:https://huggingface.co/tngtech/DeepSeek-TNG-R1T2-Chimera
經過進一步瞭解,我們發現:DeepSeek R1T2 是德國一家 AI 諮詢公司「TNG」推出的,模型全稱為「DeepSeek-TNG R1T2 Chimera」(以下簡稱 R1T2)。
該模型除了前文提到的在智力水平和輸出效率之間實現完美平衡之外,相較於這家公司的初代模型「R1T Chimera」,智力大幅躍升,並實現了突破性的 think-token 一致性。
不僅如此,即使在沒有任何系統提示的情況下,該模型也能表現穩定,提供自然的對話互動體驗。
在評論區,有人誤以為這個模型出自 DeepSeek 官方,並且認為他們是不是也在走相同的路線:給模型起各種名稱,就是不用主系列下一代版本號?
更多的人認可該模型「找到了智慧與輸出 token 長度之間的最佳平衡點,並且提升了速度」,並對該模型在現實世界的表現充滿了期待。

模型細節概覽

從 Hugging Face 主頁來看,R1T2 是一個基於 DeepSeek R1-0528、R1 以及 V3-0324 模型構建的 AoE Chimera 模型。
該模型是一個採用 DeepSeek-MoE Transformer 架構的大語言模型,引數規模為 671B。
R1T2 是該公司 4 月 26 日釋出的初代模型「R1T Chimera」的首個迭代版本。相較於利用雙基模型(V3-0324 + R1)的初代架構,本次升級到了三心智(Tri-Mind)融合架構,新增基模型 R1-0528。
該模型採用 AoE 技術構建,過程中利用較高精度的直接腦區編輯(direct brain edits)實現。這種精密融合不僅帶來全方位提升,更徹底解決了初代 R1T 的 <think>token 一致性缺陷。
團隊表示,R1T2 對比其他模型具備如下優劣:
  • 與 DeepSeek R1 對比:R1T2 有望成為 R1 的理想替代品,兩者幾乎可以通用,並且 R1T2 效能更佳,可直接替換。
  • 與 R1-0528 對比:如果不需要達到 0528 級別的最高智慧,R1T2 相比之下更加經濟。
  • 與 R1T 對比:通常更建議使用 R1T2,除非 R1T 的特定人格是最佳選擇、思考 token 問題不重要,或者極度需求速度。
  • 與 DeepSeek V3-0324 對比:V3 速度更快,如果不太關注智慧可以選擇 V3;但是,如果需要推理能力,R1T2 是首選。
此外,R1T2 的幾點侷限性表現在:
  • R1-0528 雖推理耗時更長,但在高難度基準測試中仍優於 R1T2;
  • 經 SpeechMap.ai(由 xlr8harder 提供)測評,R1T2 應答剋制度(reserved)顯著高於 R1T,但低於 R1-0528;
  • 暫不支援函式呼叫:受 R1 基模型影響,現階段不推薦函式呼叫密集型場景(後續版本可能修復);
  • 基準測試變更說明:開發版由 AIME24+MT-Bench 變更為 AIME24/25+GPQA-Diamond 測評體系,新體系下 R1 與初代 R1T 的分差較早期公佈資料更大。
最後,關於 R1T2 中重要的 AoE 技術,可以參考以下論文。
  • 論文標題:Assembly of Experts: Linear-time construction of the Chimera LLM variants with emergent and adaptable behaviors
  • 論文地址:https://arxiv.org/pdf/2506.14794
參考連結:https://x.com/tngtech/status/1940531045432283412

技術交流群邀請函

△長按新增小助手
掃描二維碼新增小助手微信
請備註:姓名-學校/公司-研究方向
(如:小張-哈工大-對話系統)
即可申請加入自然語言處理/Pytorch等技術交流群

關於我們

MLNLP 社群是由國內外機器學習與自然語言處理學者聯合構建的民間學術社群,目前已經發展為國內外知名的機器學習與自然語言處理社群,旨在促進機器學習,自然語言處理學術界、產業界和廣大愛好者之間的進步。
社群可以為相關從業者的深造、就業及研究等方面提供開放交流平臺。歡迎大家關注和加入我們。


相關文章