再探超大規模 MoE 效能和成本極限?
作者|連冉
編輯|鄭玄
最近,騰訊元寶可以說是「殺瘋了」,先是多款產品接入 deepseek,推出自研混元 T1 模型,又是猛推流,一度超越位元組「豆包」登上中國區 App Store 免費榜第二,又是入駐微信生活服務「九宮格」。
在各家大模型紛紛推出深度思考模型的同時,騰訊混元又「反常」地推了一個快思考模型 Turbo S。
2 月 27 日,騰訊混元自研的快思考模型 Turbo S 正式釋出,目前已在騰訊雲和元寶上線。
區別於 Deepseek R1、混元 T1 等需要「想一下再回復」的慢思考模型,混元 Turbo S 能夠實現「秒回」,吐字速度提升一倍,首字時延降低 44%,同時在知識、數理、創作等方面也有突出表現。透過模型架構創新,Turbo S 部署成本也大幅下降,持續推動大模型應用門檻降低。
有研究表明,人類約 90%—95% 的日常決策依賴直覺,快思考正如人的「直覺」,為大模型提供了通用場景下的快速響應能力,而慢思考更像理性思維,透過分析邏輯提供解決問題思路。快思考和慢思考的結合和補充,可以讓大模型更智慧、更高效地解決問題。
據介紹,透過長短思維鏈融合,騰訊混元 Turbo S 在保持文科類問題快思考體驗的同時,基於自研混元 T1 慢思考模型合成的長思維鏈資料,顯著改進了理科推理能力,實現模型整體效果提升。
作為旗艦模型,Turbo S 未來將成為騰訊混元系列衍生模型的核心基座,為推理、長文、程式碼等衍生模型提供基礎能力。
基於 Turbo S,透過引入長思維鏈、檢索增強和強化學習等技術,騰訊自研了推理模型 T1,該模型已在騰訊元寶上線,使用者可以選擇 Deepseek R1 或騰訊混元 T1 模型進行回答,具體操作上,在元寶中選擇 Hunyuan 模型,點亮 T1 即為深度思考,不點亮則為 Turbo S。
開發者和企業使用者已經可以在騰訊雲上透過 API 呼叫騰訊混元 Turbo S,即日起一週內免費試用。
定價上,Turbo S 輸入價格為 0.8 元/百萬 tokens,輸出價格為 2 元/百萬 tokens,相比前代混元 Turbo 模型價格下降數倍,是 deepseek API 成本的 1/2-1/4,團隊稱「比大模型界的拼多多還便宜」。另外,混元滿血 T1 將在 3 月初發布。
在 3 月 2 日騰訊混元的直播裡,騰訊混元專家團隊對這次推出的快思考模型做出了詳解,極客公園整理重點如下:
01
團隊透過分析和觀察發現,使用者約 90% 的請求都可以依靠大模型的「直覺」(即快思考模型),無需深度思考就能精準簡潔地給出答案,所以針對這些請求需要模型能更快、更準地回應。
對於剩下的約 10% 的請求,需要模型能進行深度思考甚至反思,從而給出更精準的答案。
同時,快思考模型不僅成本更低,還具備強大的資料融合能力,能夠融入 MySQL 模型或 Max 模型中的優質資料。
Turbo S 借鑑了騰訊的慢思考模型 Hunyuan T1 的資料,該模型使用一種稱為長思維鏈合成的技術進行訓練。這有助於 Turbo S 在保持其速度優勢的同時,透過多步驟問題進行推理,使得對於其餘 10% 需要反覆反思思考的問題也能得到較精準答案。
02
在業界通用的多個公開 Benchmark 上,騰訊混元 Turbo S 在知識、數學、推理等多個領域展現出對標 DeepSeek V3、GPT 4o、Claude3.5 等業界領先模型的效果表現。

*表格中,其它模型的評測指標來自官方評測結果,官方評測結果中不包含部分來自混元內部評測平臺
架構方面,透過創新性地採用了 Hybrid-Mamba-Transformer 融合模式,混元 Turbo S 有效降低了傳統 Transformer 結構的計算複雜度,減少了 KV-Cache 快取佔用,實現訓練和推理成本的下降。
傳統 Transformer 架構存在以下缺陷 :
計算複雜度高,序列維度呈平方級關係,在訓練和推理時複雜度高;
推理時需要 KV-Cache,且隨著序列長度增加線性增加,部署成本高;預測時時間成本高,每步預測因疊加 KV-Cache 與序列長度呈線性關係,越往後生成越慢,尤其對於 Mamba 線性 Attention 機制,每步預測都是 O1 複雜度,所以需要做更高效的 attention 或甚至 linear 的 attention,目前行業內已有一些相關探索方案如 window attention、mobile、NSA 等,都是透過不同方式壓縮計算複雜度。
Hybrid-Mamba-Transformer 融合架構是混元 Turbo S 中的一項突破性架構創新,透過融合兩種強大的架構,平衡效率和上下文推理能力:
Mamba 是一種狀態空間模型(SSM),專為高效處理長序列而設計,在記憶體使用上比 Transformer 更為節省。與 Transformer 不同,後者在處理長文字時會遇到 KV-cache 記憶體的平方級擴充套件問題,而 Mamba 可以在不產生過多計算開銷的情況下處理更長的文字,更適合閱讀、總結和生成長文件的回答(例如法律文字、研究論文等)。
儘管 Mamba 高效,但它在捕捉複雜的上下文關係方面不如 Transformer。Transformer 擅長理解複雜的模式和依賴關係,特別適合推理密集型任務,如數學運算、邏輯推理和問題解決,適用於多步驟推理、程式碼生成和深度上下文理解。
混元 Turbo S 首次將 Mamba 應用於超大規模 MoE 模型 MoE(專家混合模型)透過每次查詢啟用一部分引數,從而提高計算效率,在保持精度的同時充分利用了 Mamba 的高效性,同時也保留了 Transformer 在推理任務中的優勢。這一突破不僅降低了訓練和推理成本,還提升了速度和智慧水平。
03
長短思維鏈的融合。
透過長短思維鏈融合,對於需反覆推理反思的問題也能得到更精準答案,T1 模型可得到相對長鏈資料,將長鏈資料和短鏈資料融合訓練後取樣,取樣依據正確性和長度正確性,採用規則方法和濾波 model case,從而提升模型整體能力,尤其在數學、程式碼、邏輯等強推理任務上表現更好,且短鏈模型能很好地融合長鏈能力,體驗更佳。
即短鏈模型其實體驗更佳,透過融合長鏈也能有很好的推理能力。
04
GPT-4.5 是短鏈模型天花板的一個存在,但 API 的成本非常高,以百萬 tokens 計算約為 150 美元,約是 Turbo S 成本 500 倍,且據推測,GPT-4.5 的啟用引數量達萬億級別。因此,Turbo S 等快思考模型的出現,正是為了在保證響應速度的同時,降低成本並保持較好的效能。
不管是模型 size 的 scaling 還是訓練資料的 scaling,目前 scaling law 遠未結束,現在中文網際網路上可獲取資料量各家差不多,誰能透過獲取或合成方式獲得更多資料量對模型 performance 來說是關鍵。
標註資料方面,更專業標註團隊對模型表現影響大,如小說創作、醫療方向等,擁有更專業標註團隊和資料的模型表現會更好,整體來看,在資料、演算法、算力工程最佳化等方面對 scaling 的探索都遠未結束。



熱點影片

更多閱讀



