騰訊逆襲!釋出混元T1正式版,實戰不輸DeepSeek-R1,便宜3/4

騰訊思考模型來了,摒棄純Transformer架構。
作者 |  程茜
編輯 |  漠影

智東西3月22日報道,昨夜,騰訊正式將混元大模型系列的深度思考模型升級為混元-T1正式版。

T1是騰訊自研的強推理模型,吐字速度達到60~80token/s,在實際生成效果表現中遠快於DeepSeek-R1。

該模型的前身是,今年2月中旬混元團隊在騰訊元寶APP上線的基於混元中等規模底座的混元T1-Preview(Hunyuan-Thinker-1-Preview)推理模型。

相比於T1-Preview,T1正式版基於騰訊混元3月初發布的業界首個超大規模Hybrid-Transformer-Mamba MoE大模型TurboS快思考基座,透過大規模後訓練擴充套件了推理能力,並進一步對齊人類偏好,這也是工業界首次將混合Mamba架構無損應用於超大型推理模型

T1在多個公開資料集的評測結果顯示,在MMLU-pro、CEval、AIME、Zebra Loigc等中英文知識和競賽級數學、邏輯推理指標上基本持平或略超R1

目前,T1已在騰訊雲官網上線,輸入價格為每百萬tokens 1元,輸出價格為每百萬tokens 4元輸出價格為DeepSeek標準時段的1/4,與DeepSeek優惠時段一致

▲DeepSeek API價格
體驗地址:
https://llm.hunyuan.tencent.com/#/chat/hy-t1
Hugging Face地址:
https://huggingface.co/spaces/tencent/Hunyuan-T1
GitHub地址:
https://github.com/Tencent/llm.hunyuan.T1
4月1-2日,智東西聯合主辦的2025中國生成式AI大會(北京站)將舉行。35+位嘉賓/企業已確認,將圍繞DeepSeek、大模型與推理模型、具身智慧、AI智慧體與GenAI應用帶來分享和討論。更多嘉賓陸續揭曉。歡迎報名~
01.
生成速度超DeepSeek-R1
複雜指令、長文摘要、角色扮演均能勝任

知識問答場景,騰訊混元研究團隊展現了T1和DeepSeek生成效果的對比。

第一個提示詞是“醋酸乙酯能與水混合嗎”。可以看到T1和DeepSeek-R1整體生成結果的長度、結果都相近,不過T1的生成速度明顯更快。

第二大考驗難題是關於理科數學推理,這一問題中對於模型的限制條件更多,其思維過程更長。從輸出結果來看,T1和DeepSeek-R1生成的結論一致,速度仍然是T1更快。

第三大難題考驗的是複雜指令跟隨能力。讓T1對出下聯,提示詞中給出的上聯是“深深淺淺溪流水”。這其中的難點在於,模型要遵循一致的三點水偏旁、前四個字是AABB結構。T1的思考過程中,準確分析出了上聯的特點,並在經過多次錯誤嘗試後給出了答案:“洋洋灑灑波濤湧”。

第四大難題是通用任務,其提示詞為開放問題“生成一個朋友圈文案,主題是漫漫人生路”,這之中並沒有給出明確的風格指令要求,屬於開放性問題。

T1還可以作為生產力工具,提升使用者的工作效率,下一個Demo演示的是T1長文總結摘要的能力。

提示詞時“針對微軟收購暴雪的4000字左右新聞報道,要求T1總結一下文章內容”。在輸出結果中,T1不僅總結了文章的主要內容,還提煉出新聞報道中的多個關鍵數字。

最後一個演示是關於模型的角色扮演能力。提示詞為“請扮演李白,語氣符合李白特徵,猜一個字謎:告狀無效”。T1的思考過程重點分析了字謎,得出結果為“皓”後,按照李白的口吻輸出了答案並賦詩一首。

02.
多項測試集結果對標R1
沿用混元Turbo S創新架構

混元-T1除了在各類公開Benchmark、如MMLU-pro、CEval、AIME、Zebra Loigc等中英文知識和競賽級數學、邏輯推理指標上基本持平或略超R1外,在騰訊內部人工體驗集評估上也能對標,其中文創指令遵循、文字摘要、Agent能力方面略勝於R1。

在測試基座模型對於廣泛知識理解的記憶和泛化能力的資料集MMLU-PRO上,T1得分僅次於o1,在CEval、AIME、Zebra Logic等中英文知識及競賽級數學、邏輯推理的公開基準測試中,T1的表現與R1基本持平或略超R1。

從技術角度來看,混元T1正式版沿用了混元Turbo S的創新架構,採用Hybrid-Mamba-Transformer融合模式,這也是工業界首次將混合Mamba架構無損應用於超大型推理模型。這一架構能降低傳統Transformer架構的計算複雜度,減少KV-Cache記憶體佔用,降低訓練和推理成本。
在長文字推理方面,TurboS的長文捕捉能力可以有效解決長文推理中的上下文丟失和長距離資訊依賴難題。Mamba架構可專門最佳化長序列處理能力,並透過高效計算方式在保證長文字資訊捕捉能力的同時,降低計算資源的消耗,使得模型相同部署條件下、解碼速度快2倍。

模型後訓練階段,騰訊混元研究團隊將96.7%的算力投入到強化學習訓練,重點圍繞純推理能力的提升以及對齊人類偏好的最佳化。

資料方面,T1的高質量Prompt收集主要集中於複雜指令多樣性和不同難度分級的資料。研究人員基於世界理科難題,收集了涵蓋數學/邏輯推理/科學/程式碼等的資料集,包含從基礎數學推理到複雜科學問題解決的問題,然後結合ground- truth的真實反饋,確保模型在面對各種推理任務時的表現。

訓練方案上,T1採用課程學習的方式逐步提升資料難度,同時階梯式擴充套件模型上下文長度,使得模型推理能力提升的同時學會高效利用token進行推理。

研究人員在訓練策略方面,參考了經典強化學習的資料回放、階段性策略重置等策略,提升了模型訓練長期穩定性50%以上。

在對齊人類偏好階段,其採用self-rewarding(基於T1- preview 的早期版本對模型輸出進行綜合評價、打分)+reward mode的統一獎勵系統反饋方案,指導模型進行自我提升。

03.
結語:騰訊混元模型迭代加速
騰訊混元模型系列今年進入快速迭代期,其陸續推出騰訊混元深度思考模型T1和自研快思考模型Turbo S。此前,混元Turbo S在技術突破方面實現了首字時延降低44%,並已應用於騰訊元寶等騰訊內部產品。
此次釋出的騰訊混元深度思考模型T1預覽版也早已上線騰訊元寶,可以看出,騰訊內部業務和場景已經全面接入混元系列大模型能力,如騰訊元寶、騰訊雲、QQ、微信讀書、騰訊新聞、騰訊客服等。

在此基礎上,騰訊混元團隊正在探索新的研究思路,找到降低大模型幻覺、降低訓練成本等的新解題思路。

(本文系網易新聞•網易號特色內容激勵計劃簽約賬號【智東西】原創內容,未經賬號授權,禁止隨意轉載。)


相關文章