
日前,全球權威大模型公開競技場-Chatbot Arena評測榜單公佈最新排名,騰訊混元旗艦大語言模型TurboS位列全球第7,在國內大模型中僅次於Deepseek。放眼國際,排在前面的也僅有谷歌Gemini、 OpenAI 以及xAI三家國際頂級機構。騰訊混元基礎模型為什麼能夠取得這麼亮眼的成績?在技術上有哪些創新?答案就藏在最新發布的騰訊混元TurboS技術報告中。
隨著大型語言模型(LLM)的飛速發展,模型能力與效率的平衡成為了前沿研究的關鍵議題。騰訊混元團隊最新推出的混元TurboS模型,是一款新穎的超大型Hybrid Transformer-Mamba架構MoE模型。該模型透過Mamba架構在長序列處理上的卓越效率與Transformer架構在上下文理解上的固有優勢的有機協同,實現了效能與效率的精妙平衡。
混元TurboS引入了創新的自適應長短思維鏈機制,能夠根據問題複雜度動態切換快速響應模式與深度思考模式,從而最佳化計算資源分配。更重要的是,其模型啟用引數達到了56B(總引數560B),是業界首個大規模部署的Transformer-Mamba專家混合(MoE)模型。
架構創新以及引數量的保證,讓模型效果進步明顯,國際最權威的大模型評測榜單LMSYS Chatbot Arena最新排名顯示: 混元TurboS取得了整體1356的高分,在所有239個參賽模型中位列全球前7名。

圖:截自Chatbot Arena官網5 月 18 日排名
多語種能力方面表現突出,中文、法語、西班牙語並列排名全球第一,韓文排名全球第二。


以下,透過模型技術報告我們將逐一解開騰訊混元Turbo S的神秘面紗。
騰訊混元TurboS的核心創新體現在以下幾個方面:
架構協同:巧妙地融合了Mamba架構處理長序列的高效性與Transformer架構卓越的上下文理解能力。這兩種架構的結合,旨在取長補短,實現效能與效率的最大化。模型包含128層,採用了創新的“AMF”(Attention → Mamba2 → FFN)和“MF”(Mamba2 → FFN)模組交錯模式。這種設計使得模型在擁有5600億總引數(56B啟用引數)的同時,保持了較高的運算效率。
自適應思維鏈 (Adaptive Long-short CoT):該機制是Hunyuan-TurboS的一大亮點。它借鑑了短思維鏈模型(如GPT-4o)的快速響應和計算友好特性,以及長思維鏈模型(如o3)強大的複雜推理能力。面對簡單問題,TurboS自動啟用“無思考”(no thinking)模式,以最小計算成本提供足夠質量的答案;而當遇到複雜問題時,則自動切換至“思考”(thinking)模式,運用逐步分析、自我反思和回溯等深度推理方法,給出高準確度的回答。
先進的後訓練策略:為了進一步增強模型能力,騰訊混元團隊設計了包含四個關鍵模組的後訓練流程:
1、監督微調(SFT):透過精心構建的百萬級自然和合成指令資料進行微調。
2、自適應長短CoT融合:透過專門訓練的教師模型和獨特的強化學習框架,實現推理策略的自主選擇、計算資源的有效分配,並透過無失真壓縮和重構長思維鏈來提升響應的可讀性。
3、多輪推敲學習(Multi-round Deliberation Learning):SFT模型在模擬評估環境中與其他先進混元模型進行比較,透過多LLM裁判組和人類專家的評估驅動迭代最佳化。
4、兩階段大規模強化學習:利用GRPO,第一階段聚焦於提升推理能力,第二階段則致力於改善全領域的通用指令遵循能力。

本節將詳細介紹預訓練資料的處理、創新的模型架構設計,以及退火(Annealing)和長上下文預訓練策略。

預訓練資料的質量、數量和多樣性對LLM的效能至關重要。相較於先前的混元Large模型,騰訊混元TurboS在資料處理上進行了顯著增強。團隊開發了全面的評估模型和資料混合模型,引入了包含數十個結構化領域標籤的基礎質量標準,確保了資料選擇和整合的原則性。最終,騰訊混元TurboS在包含16萬億Token的語料上進行訓練。
模型架構

混元TurboS的核心是一種混合架構,整合了Transformer、Mamba2和FFN元件,旨在實現訓練和推理的效率與可擴充套件性。
1、宏觀引數:模型總層數為128層,啟用引數量56B,總引數量560B。其中,每個Attention、FFN、Mamba2塊計為一層。
2、層級構成:FFN層佔比50%,Attention層佔比約5.5%,Mamba2層佔比約44.5%。FFN層採用MoE結構,包含1個共享專家和32個專門專家,每個前向傳播啟用1個共享專家和2個專門專家。Mamba2層採用狀態空間模型(SSM)架構,實現了序列長度的線性複雜度O(n)。
3、模組模式:“AMF”(Attention→Mamba2→FFN)被確認為一種最佳化的原子配置,有效平衡了效率。同時,結構中也採用了“MF”(Mamba2→FFN)模組以進一步提升效率。Hunyuan-TurboS採用了“AMF”和“MF”模組的交錯架構。
退火階段 (Annealing)
退火階段的資料是異構混合的,包括高質量預訓練資料、程式碼、數學、STEM相關語料、指令遵循資料(如長CoT資料)和其他合成樣本。
長上下文擴充套件
預訓練的最後階段,採用課程學習策略逐步擴充套件模型的上下文視窗,從4K Tokens擴充套件到32K,最終到256K Tokens。
預訓練模型評估
在23個廣泛使用的基準上對預訓練的騰訊混元TurboS進行了評估,結果顯示其與SOTA模型相比具有強大的基礎能力。

注:表格中,其它模型的評測指標來自官方評測結果,官方評測結果中不包含部分來自混元內部評測平臺
後訓練階段對混元TurboS的各項能力進行了精雕細琢和顯著增強。該階段包含四個環環相扣的關鍵模組:監督微調、自適應長短思維鏈融合、多輪反思學習以及兩階段大規模強化學習。

1、監督微調 (SFT)
SFT資料的質量和多樣性對LLM在各類任務上的表現至關重要。混元TurboS的SFT資料被細緻地劃分為多個主題,為每個主題收集高質量樣本並整合。
資料來源與構建
涵蓋數學(教材、考試、競賽)、程式碼(開源倉庫程式碼片段轉為指令對)、邏輯(公共/授權資料來源,自動化合成)、科學(物理、化學、生物)、語言中心任務(理解、翻譯、生成)、創意寫作、英文及多語言、複雜指令、角色扮演、知識問答、多輪對話、金融/法律/醫學以及安全等13個領域。
最終構建了百萬級樣本的SFT資料集(包含推理型和非推理型資料)。其中,需要較長CoT的複雜推理任務(數學、程式碼、科學、邏輯)會經過額外處理,採用內部教師模型,生成自適應長短CoT響應。非推理型資料則直接使用原始響應。
2、 自適應長短思維鏈融合 (Adaptive Long-short CoT Fusion)
該方法旨在讓LLM能夠根據問題複雜度自主決定使用長CoT還是短CoT,以及推理的深度,創造性地將兩種推理模式融合進單一模型。先前研究表明長CoT在數學等推理領域特別有效,因此該方法主要應用於推理資料(數學、STEM等),而非推理資料主要使用短CoT模式。團隊訓練了一個自適應長短CoT融合教師模型,其訓練分為兩階段:
自適應長短CoT SFT訓練
首先,使用推理資料訓練Hunyuan-Base得到一個短CoT模型。
然後,用此短CoT模型對所有推理資料進行推理並進行一致性檢查。若短CoT模型回答正確,則直接作為訓練樣本。
若首次嘗試錯誤,則將問題和短CoT的錯誤響應輸入混元-T1(混元長鏈推理模型)繼續生成後續推理過程和答案,並將此擴充套件的推理過程和答案轉換為短CoT的響應風格。
重複此混元-T1生成過程,直至獲得正確答案。
最後,將所有失敗嘗試與正確響應拼接,作為自適應長短融合教師模型的訓練響應。用此資料訓練Hunyuan-Base,得到自適應SFT模型。
自適應長短CoT的強化學習
此長短自適應獎勵框架使LLM能根據問題難度選擇合適的思考模式。
難度自適應獎勵:在GRPO取樣期間,為每個提示生成不同推理深度的響應。線上拒絕取樣機制評估提示難度並選擇合適的模式——複雜問題分配長CoT,簡單問題分配短CoT。
長CoT壓縮獎勵:對於長推理鏈,在計算獎勵時應用長度懲罰。當多條推理路徑達到相同正確性時,較短的路徑獲得更高獎勵,從而在保持準確性的同時最小化冗餘。
3、推敲學習 (Deliberation Learning)
為進一步提升混元-TurboS的能力,團隊提出了一種基於“反思學習”原則的人機協作迭代最佳化策略。該方法利用一個“資料飛輪”,模型透過相互競爭逐步改進,由強大的基於LLM的裁判和人類專家識別弱點,為後續SFT迭代提供資訊。
訓練強大的裁判LLM模擬人類標註者
基於騰訊混元TurboS開發和訓練了一組裁判模型(Judge Models)。響應評估不依賴單一整體評分,而是跨多個預定義維度(準確性、有用性、無害性、連貫性、簡潔性、指令遵循度)。每個裁判對成對比較提供維度評分和文字解釋。透過多數投票或加權評分系統等共識機制聚合這些多維判斷。
構建資料飛輪後訓練騰訊混元TurboS
核心是一個透過競爭性評估和有針對性的SFT持續增強混元-TurboS能力的迭代改進迴圈。
裁判(Judging):使用混元-TurboS SFT模型和混元系列其他前沿模型(混元 Large, 混元 Turbo, 混元 T1)對精選訓練集中的相同提示生成響應,然後由多LLM裁判組進行細緻評估。
弱點推敲(Weakness Deliberation):透過人類專家和LLM監督識別模型弱點。領域專家審查複雜的比較結果和自動化系統可能遺漏的細微模型失敗。
迭代SFT(Iterative SFT):根據弱點畫像,為已識別的缺陷開發定製的訓練批次,通常包含“失敗資料”。這些資料由人類專家用高質量輸出仔細標註,並增量新增到訓練過程中。採用課程學習,隨著模型掌握程度的提高逐步增加任務複雜度和技巧的微妙性。
為實現有效的強化學習,設計了一個圍繞三個關鍵元件組織的通用獎勵系統。
帶參考答案的生成式獎勵模型 (GRM)
比較候選答案與參考答案。對確定性解的任務(如閉卷問答),參考答案是真實答案;對開放式任務(如創意寫作),提供精心策劃的參考,GRM將其視為語義錨點而非精確匹配。GRM使用成對偏好方案訓練。
答案一致性模型
輕量級分類器,驗證生成答案是否與參考答案匹配(匹配為1,否則為0),用於數學等有標準答案的任務。
程式碼沙箱 (Sandbox)
支援36種程式語言的多語言程式碼沙箱,用於執行單元測試。
獎勵聚合模組
整合特定領域規則產生統一評分,系統總共覆蓋16個子主題和超過30個評分服務。
採用基於GRPO框架的增量式、領域聚焦的RL流程。這是一個兩階段策略:
兩階段GRPO訓練策略
階段一:推理GRPO。目標是邏輯、編碼、數學和科學領域。混合30萬訓練資料(程式碼:數學:邏輯&科學 = 2:2:1)。由於SFT主幹模型在這些任務上已表現強勁且輸出熵較低,因此應用相對較小的KL散度約束以鼓勵更廣泛的探索。
階段二:通用GRPO。最佳化擴充套件到通用任務,重點是平衡各領域效能。繼續包含10%來自階段一的推理資料。階段一的超引數(如裁剪範圍、學習率)基本保留,但增加KL散度懲罰係數以緩解災難性遺忘。
*更多GRPO實施細節:
-
GRPO損失:在Token級別重新制定GRPO損失,顯著提高KL穩定性。
-
提示過濾:過濾掉模型總是成功或失敗的極端案例,保留不穩定的提示(模型取樣輸出差異大)作為理想的對抗樣本。
-
取樣:RL期間生成響應的取樣溫度設為1.0。較低溫度會導致熵快速衰減,阻礙探索。
-
組獎勵調整:對每個提示的響應組內重新縮放獎勵,確保不良響應獲得負優勢,良好響應獲得正優勢,從而促進穩定的策略更新。

與業界領先的開源和閉源模型在關鍵基準上進行對比:
●數學推理:在非推理模型中表現SOTA,僅次於DeepSeek-v3-0324。
●邏輯推理:在BBH、DROP、Zebra-Logic等複雜基準上,與DeepSeek-V3-0324共同樹立了新的效能標杆。
●程式碼任務:與Qwen2.5-Max能力相當。
●知識與中文任務:在知識密集型任務中表現SOTA,尤其在中文知識評估(C-Eval, CMMLU, C-SimpleQA)上表現強勁。
●對齊任務:在AlpacaEval上平均得分比GPT-4.5高11.8分,在AlignmentBench和MTBench評估中均排名第一。
●指令遵循:與Claude3.7和GPT-4.5相當。
自適應CoT的推理效率
在評估推理成本效益時,混元TurboS在所有評估模型中實現了最具成本效益的輸出生成。
值得注意的是,模型在LMSYS Chatbot Arena上取得了與Deepseek-R1相當的效能,卻僅使用了後者52.8%的Token量,證明了騰訊混元所提出的自適應長短思維鏈融合方法的有效性,也突顯了騰訊混元TurboS在提供高效能LLM推理方面的卓越成本效益。
騰訊混元TurboS的訓練與推理依賴於騰訊自研的高效基礎設施。
強化學習訓練框架 (Angel-RL):基於騰訊自研的大模型訓練框架AngelPTM和推理框架AngelHCF全面集成了張量並行(TP)、流水線並行(PP)、專家並行(EP)、上下文並行(CP)和序列拼接最佳化,同時,上下文並行實現了序列和並行兩種狀態傳遞方法(下圖),在取樣端支援INT8量化,並且,利用騰訊定製的Starlink網路有效實現通訊計算重疊。
針對RL訓練中多模型導致GPU視訊記憶體瓶頸的問題,設計了結合混合與專用資源分配的多模型RL工作流,並使用AngelPTM的ZeroCache技術(將去重模型狀態解除安裝到CPU記憶體)降低GPU視訊記憶體壓力。

推理與部署 (AngelHCF):針對TurboS的Mamba混合架構,從三個關鍵維度實施了最佳化,最終相比純Transformers MoE模型實現了1.8倍的加速:
1、MambaKernel最佳化:Prefill階段利用Mamba2結構特性增強計算並行性;Decode階段設計了SelectivescanUpdate Kernel以減輕視訊記憶體頻寬限制。
2、MoE最佳化:優先採用專家並行以緩解解碼時視訊記憶體瓶頸,智慧冗餘專家分配平衡GPU負載,最佳化通訊與計算重疊。
3、混合架構精度最佳化:在Kernel層面為Mamba狀態創新性地採用fp32精度,將混合架構的長文字生成質量提升至與全Attention模型相當的水平,在數學密集型和程式設計競賽級推理任務中,Token消耗降低35%-45%(相比原始fp16/bf16)。
總結
騰訊混元團隊在本報告中詳細介紹了騰訊混元TurboS,這是一款創新的超大型混合Transformer-Mamba專家混合(MoE)模型,它獨特地融合了Mamba在長序列處理上的高效率和Transformer卓越的上下文理解能力,採用了新穎的AMF/MF模組模式以及自適應長短思維鏈(CoT)機制。這款56B啟用引數(560B總引數)的模型成為業界首個大規模部署的Mamba架構。
混元TurboS在LMSYS Chatbot Arena上獲得1356分,並在23個自動化基準測試中平均得分77.9%,展現了強大效能。至關重要的是,騰訊混元TurboS在高效能和計算效率之間取得了有效平衡,以遠低於許多推理模型的推理成本提供了強大的能力。這項工作為高效、大規模預訓練模型樹立了新正規化,推動了易於獲取且功能強大的人工智慧系統的發展。
AICon 2025 強勢來襲,5 月上海站、6 月北京站,雙城聯動,全覽 AI 技術前沿和行業落地。大會聚焦技術與應用深度融合,匯聚 AI Agent、多模態、場景應用、大模型架構創新、智慧資料基建、AI 產品設計和出海策略等話題。即刻掃碼購票,一同探索 AI 應用邊界!!
