騰訊推出快思考模型：API成本只有deepseek不到一半

再探超大規模 MoE 效能和成本極限？

作者｜連冉

編輯｜鄭玄

最近，騰訊元寶可以說是「殺瘋了」，先是多款產品接入 deepseek，推出自研混元 T1 模型，又是猛推流，一度超越位元組「豆包」登上中國區 App Store 免費榜第二，又是入駐微信生活服務「九宮格」。

在各家大模型紛紛推出深度思考模型的同時，騰訊混元又「反常」地推了一個快思考模型 Turbo S。

2 月 27 日，騰訊混元自研的快思考模型 Turbo S 正式釋出，目前已在騰訊雲和元寶上線。

區別於 Deepseek R1、混元 T1 等需要「想一下再回復」的慢思考模型，混元 Turbo S 能夠實現「秒回」，吐字速度提升一倍，首字時延降低 44%，同時在知識、數理、創作等方面也有突出表現。透過模型架構創新，Turbo S 部署成本也大幅下降，持續推動大模型應用門檻降低。

有研究表明，人類約 90%—95% 的日常決策依賴直覺，快思考正如人的「直覺」，為大模型提供了通用場景下的快速響應能力，而慢思考更像理性思維，透過分析邏輯提供解決問題思路。快思考和慢思考的結合和補充，可以讓大模型更智慧、更高效地解決問題。

據介紹，透過長短思維鏈融合，騰訊混元 Turbo S 在保持文科類問題快思考體驗的同時，基於自研混元 T1 慢思考模型合成的長思維鏈資料，顯著改進了理科推理能力，實現模型整體效果提升。

作為旗艦模型，Turbo S 未來將成為騰訊混元系列衍生模型的核心基座，為推理、長文、程式碼等衍生模型提供基礎能力。

基於 Turbo S，透過引入長思維鏈、檢索增強和強化學習等技術，騰訊自研了推理模型 T1，該模型已在騰訊元寶上線，使用者可以選擇 Deepseek R1 或騰訊混元 T1 模型進行回答，具體操作上，在元寶中選擇 Hunyuan 模型，點亮 T1 即為深度思考，不點亮則為 Turbo S。

開發者和企業使用者已經可以在騰訊雲上透過 API 呼叫騰訊混元 Turbo S，即日起一週內免費試用。

定價上，Turbo S 輸入價格為 0.8 元/百萬 tokens，輸出價格為 2 元/百萬 tokens，相比前代混元 Turbo 模型價格下降數倍，是 deepseek API 成本的 1/2-1/4，團隊稱「比大模型界的拼多多還便宜」。另外，混元滿血 T1 將在 3 月初發布。

在 3 月 2 日騰訊混元的直播裡，騰訊混元專家團隊對這次推出的快思考模型做出了詳解，極客公園整理重點如下：

為什麼要做「快思考」？

團隊透過分析和觀察發現，使用者約 90% 的請求都可以依靠大模型的「直覺」（即快思考模型），無需深度思考就能精準簡潔地給出答案，所以針對這些請求需要模型能更快、更準地回應。

對於剩下的約 10% 的請求，需要模型能進行深度思考甚至反思，從而給出更精準的答案。

同時，快思考模型不僅成本更低，還具備強大的資料融合能力，能夠融入 MySQL 模型或 Max 模型中的優質資料。

Turbo S 借鑑了騰訊的慢思考模型 Hunyuan T1 的資料，該模型使用一種稱為長思維鏈合成的技術進行訓練。這有助於 Turbo S 在保持其速度優勢的同時，透過多步驟問題進行推理，使得對於其餘 10% 需要反覆反思思考的問題也能得到較精準答案。

技術解析：模型架構/工程最佳化

在業界通用的多個公開 Benchmark 上，騰訊混元 Turbo S 在知識、數學、推理等多個領域展現出對標 DeepSeek V3、GPT 4o、Claude3.5 等業界領先模型的效果表現。

*表格中，其它模型的評測指標來自官方評測結果，官方評測結果中不包含部分來自混元內部評測平臺

架構方面，透過創新性地採用了 Hybrid-Mamba-Transformer 融合模式，混元 Turbo S 有效降低了傳統 Transformer 結構的計算複雜度，減少了 KV-Cache 快取佔用，實現訓練和推理成本的下降。

傳統 Transformer 架構存在以下缺陷 ：

計算複雜度高，序列維度呈平方級關係，在訓練和推理時複雜度高；

推理時需要 KV-Cache，且隨著序列長度增加線性增加，部署成本高；預測時時間成本高，每步預測因疊加 KV-Cache 與序列長度呈線性關係，越往後生成越慢，尤其對於 Mamba 線性 Attention 機制，每步預測都是 O1 複雜度，所以需要做更高效的 attention 或甚至 linear 的 attention，目前行業內已有一些相關探索方案如 window attention、mobile、NSA 等，都是透過不同方式壓縮計算複雜度。

Hybrid-Mamba-Transformer 融合架構是混元 Turbo S 中的一項突破性架構創新，透過融合兩種強大的架構，平衡效率和上下文推理能力：

Mamba 是一種狀態空間模型（SSM），專為高效處理長序列而設計，在記憶體使用上比 Transformer 更為節省。與 Transformer 不同，後者在處理長文字時會遇到 KV-cache 記憶體的平方級擴充套件問題，而 Mamba 可以在不產生過多計算開銷的情況下處理更長的文字，更適合閱讀、總結和生成長文件的回答（例如法律文字、研究論文等）。

儘管 Mamba 高效，但它在捕捉複雜的上下文關係方面不如 Transformer。Transformer 擅長理解複雜的模式和依賴關係，特別適合推理密集型任務，如數學運算、邏輯推理和問題解決，適用於多步驟推理、程式碼生成和深度上下文理解。

混元 Turbo S 首次將 Mamba 應用於超大規模 MoE 模型 MoE（專家混合模型）透過每次查詢啟用一部分引數，從而提高計算效率，在保持精度的同時充分利用了 Mamba 的高效性，同時也保留了 Transformer 在推理任務中的優勢。這一突破不僅降低了訓練和推理成本，還提升了速度和智慧水平。

演算法做到了哪些不一樣的工作？

長短思維鏈的融合。

透過長短思維鏈融合，對於需反覆推理反思的問題也能得到更精準答案，T1 模型可得到相對長鏈資料，將長鏈資料和短鏈資料融合訓練後取樣，取樣依據正確性和長度正確性，採用規則方法和濾波 model case，從而提升模型整體能力，尤其在數學、程式碼、邏輯等強推理任務上表現更好，且短鏈模型能很好地融合長鏈能力，體驗更佳。

即短鏈模型其實體驗更佳，透過融合長鏈也能有很好的推理能力。

scaling law 還沒結束

GPT-4.5 是短鏈模型天花板的一個存在，但 API 的成本非常高，以百萬 tokens 計算約為 150 美元，約是 Turbo S 成本 500 倍，且據推測，GPT-4.5 的啟用引數量達萬億級別。因此，Turbo S 等快思考模型的出現，正是為了在保證響應速度的同時，降低成本並保持較好的效能。

不管是模型 size 的 scaling 還是訓練資料的 scaling，目前 scaling law 遠未結束，現在中文網際網路上可獲取資料量各家差不多，誰能透過獲取或合成方式獲得更多資料量對模型 performance 來說是關鍵。

標註資料方面，更專業標註團隊對模型表現影響大，如小說創作、醫療方向等，擁有更專業標註團隊和資料的模型表現會更好，整體來看，在資料、演算法、算力工程最佳化等方面對 scaling 的探索都遠未結束。

*頭圖來源：視覺中國

本文為極客公園原創文章，轉載請聯絡極客君微信 geekparkGO

極客一問

Turbo S 的推出

會對大模型市場產生什麼影響？