訊飛星火X1數學碾壓o1封神，首個全國產算力推理王者誕生！多指標國內TOP1

2025-08-24 22:01 新智元

新智元報道

編輯：編輯部 HYZ

【新智元導讀】唯一一個在全國產算力上訓練的深度推理模型來了！今天，訊飛星火深度推理大模型X1釋出，釋出會上現場搖數學題開做，答案全部正確。強強pk全國產勝，中文數學能力遠超國內外「o1」級推理模型？

就在剛剛，國內第一個全國產算力的深度推理模型，重磅上線了！

科大訊飛的正式下場，再次攪動了本就已經十分激烈的推理模型戰局。

現在，進入「訊飛星火」網頁端和App端，搜尋「深度推理模型X1」智慧體，即可體驗

此前，隨著OpenAI的o1模型的釋出，國內的o1級推理模型也如雨後春筍一般冒出。

細數一下，現在已經有了DeepSeek-r1、Skywork-o1、QwQ、Kimi-k1、GLM-Zero等多個模型。

那麼，推理模型之戰，誰才是最強？

全國產算力平臺唯一深度推理模型

作為當前業界全國產算力平臺上唯一的深度推理模型，X1的成績著實亮眼。

《通用認知智慧大模型測評體系》指導構建測試集CogNKLab-MathEval-2.0顯示，X1的中文全學段數學及奧賽能力已經超越了OpenAI o1，實現國內最好。

而且模型只用更少的算力，就實現了業內一流效果，多項指標國內第一。

訊飛星火X1在小初高（含競賽）、大學（含競賽）、AIME、MATH 500等多項「考試」中，成績十分亮眼。

所謂深度推理模型，當然就是更擅長做數學題這類複雜任務，而且有全面的思考推理過程。

X1的數學題，究竟做得怎麼樣？

科大訊飛也是猛，直接現場搖題給X1做，搖到哪道是哪道！

一上來，就是道2024高考數學題的大題。

X1的思考過程顯示，它透過確認正弦值、解方程求角、應用正弦定理等步驟，將過程拆解出許多小任務，從而一步步解出答案。

對照參考答案可見，訊飛星火X1給出的答案完全正確。

接下來現場考驗X1的，是一道2024年AIME數學競賽題。

可以看出，這道題涉及多變數對數求解，難度不小。

X1在思考過程中，把對數轉換成了指數。注意，解題過程考驗的不僅僅是X1的數學能力，還涉及到了英文理解能力。

最終，X1給出了答案「33」，再次回答正確。

最後，試一試X1能不能做對國內的高中數學奧數題。

解題過程中，X1嘗試理解等比數列的性質，試圖理解各項和與各項平方和的關係，還重新反思了無窮級數和平方和。

可以看出，星火深度推理模型X1具有以下三大特點——

化繁為簡，透過長思維鏈進行分步驟解析；
會自我探索和反思驗證；
會根據「優質reward」來進行強化訓練。

因此，像數學這種有明確答案和結果的問題，就天然適配X1模型。

其實，之所以如此迅速做出X1推理模型，也是因為科大訊飛在此領域早有積累。

比如基於自我評價迭代的評語模型技術，已經用於高考作文評分。數學答題領域的多路徑和反思迭代強化學習，已用於數學教師助手。

因此，o1-preview釋出一個月內，訊飛團隊就迅速跑通了關鍵演算法。

實測來了

接下來，就是訊飛星火X1和OpenAI o1推理模型真刀實槍見真章的環節。

第一道題，我們就要開始上難度了。

點選進去就能看到模型的詳細思考過程，每一步都很清晰。

接下來，是高中生常見知識點中，最容易出錯的題。

這一道，是高考數學中常見的集合問題。

X1用時35秒，順利給出了正確答案。

看起來，這個結果沒什麼好驚訝的，因為這道題並不難，對吧？

然而，真正的實戰過程中，不少推理大模型連如此簡單的問題都折戟了！

接下來，再上升難度，上傳一道美國數學競賽AIME的一道題目，看看X1表現又如何？

X1用時2分，透過四步證明，最終得出了正確答案f(2024^2, 2024)。

再來看它的推理思維過程，也是非常縝密。

而最強o1，卻在這道題上答錯了。

為什麼現在都在卷推理模型？

為什麼最近國內的大模型廠商，都在狂卷推理模型？

這自然是因為，推理模型在AI技術商業化落地中起到的關鍵作用已經不言而喻。

這一商機，國外的科技公司早已率先嗅到。

隨著OpenAI扣動扳機發布o1和o3，谷歌釋出Gemini 2.0 Flash Thinking，DeepSeek-V3在海內外掀起巨大風暴，推理AI之戰已經打響。

從應用端看，在聊天機器人、語音助手等商業化落地場景，推理模型的效能直接關乎到產品的使用者體驗。

在搜尋引擎、社交平臺等大規模部署場景中，推理成本是一個核心問題；更高效的推理模型，能顯著降低成本。

在手機、IoT裝置這類資源有限的硬體中，模型執行時更是需要在計算、記憶體和能耗之間實現平衡；此時，輕量化的推理模型就是最好的選擇。

而從技術端看，OpenAI再度驗證了Scaling Law並沒有撞牆，只是從預訓練階段轉向了推理階段，也就是常說的測試時計算。

但問題在於，針對這一階段的Scaling，對算力的消耗十分巨大。

因此，在中美競爭態勢愈發嚴峻的當下，透過全國產算力拿下這塊「兵家必爭之地」，具有著比以往更加重大的意義。

全國產算力，勇闖無人區

訊飛星火深度推理模型X1，是昇騰算力體系下，首個原生的深度推理模型。

技術團隊揭秘，在利用國產算力訓練模型的過程中，遭遇了資料構建、框架調優、模型驗證等諸多難題，讓團隊額外多花費了不少時間。

在這個過程中，沒有任何成功的案例可借鑑，只能一點點啃下難題，好在最終成功攻關。

最終，演算法不僅在國產算力上成功適配，而且用更少的算力，實現了業界一流的水平，推出了可以和國際領先模型扳手腕的X1。

回望過去，從一開始，星火大模型就堅定地走全國產的路線。

在和華為合作的過程中，雙方始終堅持「勇闖無人區」，持續拔高全國產算力和大模型的上限，為世界提供第二種選擇。

訊飛星火X1已「上崗」，多場景無縫銜接

與其他類「o1」模型不同的是，訊飛星火X1一經發布就已經實現了實戰應用。

2022年12月，訊飛正式啟動了「1+N」戰略，就是要將底座大模型，賦能到教育、醫療、人機互動、辦公等多個行業中。

如今，星火大模型早已在不同場景遍地開花。所以，這次星火X1也會率先落到實際場景中。

教育，是最典型的一個場景。

去年的1024開發者節大會上，訊飛聯合中國教科院首次釋出了基於「問題鏈」的高中數學智慧教室助手。

當時，就已聯合許多教師、教研員，打造了上萬個優秀案例。

現在，訊飛星火X1已經在北京八中數學教研組、北京101中學數學教研組，以及合肥七中數學教研組等進行了部署。

來自北京、上海、合肥多地的一線教師在上手體驗之後，一致給出了好評。

他們都認為，訊飛星火X1在解決創新數學題目時，可以做到一題多解，教學知識關聯，還能拓展學生們的高階思維。

來自北京八中的教師表示，「X1推理過程和思路更加清晰，如果遇到數學創新題，X1的思路會帶來很大幫助」。

不光老師覺得好用，X1對學生來說，也是一個好幫手。

訊飛AI學習機曾首創了AI 1對1個性化精準學，幫助學生減負增效，因材施教。

因此，訊飛AI學習深受孩子和家長們的喜愛，使用者淨推薦值NPS穩坐第一，持續領跑行業。

在醫療這個專業性超強的領域，X1也交出了一份不錯的成績單。

基於知識反思和CoT，再結合醫療循證推理技術，X1在專科輔助診斷和複雜病例內涵質控方面的準確率，已經達到了90%!

作為醫療大模型領域「第一股」，訊飛醫療還將在2025年上半年推出X1升級版醫療大模型。

這次升級的目標非常明確，要在診斷推理和質控能力上，繼續領跑業界，更大範圍為醫生們提供更專業的輔助。

1+N落地，前景無限

不可否認的是，在應用落地上，訊飛一直都是行業領導者。

成立26年，這家公司已經在認知智慧領域拓展了豐富的to B/C的應用場景。

to B方面，有教育行業因材施教和個性化學習、醫療行業的人工智慧輔診、智慧城市便民便企服務、面向企事業單位的智慧辦公等。

to C方面，又有AI學習機、翻譯機、錄音筆、智慧辦公本等全系硬體產品佈局。

2024年，被譽為大模型落地元年，訊飛也以實際行動證明了自己的實力。

截至24年12月，訊飛已成為央國企大模型的首選合作伙伴，與200+行業頭部企業共同打造行業大模型，覆蓋了300+應用場景，為行業樹立了風向標。

第三方資料顯示，訊飛在2024年大模型招投標中，獨佔鰲頭。以91箇中標專案和84780.8萬元中標金額，成為當之無愧的「標王」。

這一成績不僅僅體現在數量上，更體現在廣度上，覆蓋了通訊、金融、能源等多個領域。

提到汽車領域，訊飛更是「霸主」級存在。中國汽車出海十強企業中，有8家都選了訊飛的技術。

而且，長城、廣汽等七大企業的量產車都開始用上了星火大模型，可以說是全面開啟了「汽車+大模型」的新時代。

在工業領域，訊飛羚羊工業網際網路平臺也是一匹黑馬，連續三年入選工信部「雙跨」平臺，還獲得了諸多榮譽。

在金融領域，訊飛也毫不示弱，星火大模型已成為交通銀行、中國人保等多家金融機構的「數字底座」。

此外，訊飛還為企業提供了貼心的數智化升級方式，包括全套私有化部署方案，或者透過星火智慧體平臺、星火飛碼iFlyCode等工具快速開發應用。

不難看出，科大訊飛已經打通了多個應用場景，一旦有了新模型的出世，就能順利無縫鋪開，並能得到很好的應用。

也就意味著，未來，訊飛星火X1的應用範圍還將進一步擴大。

底座大模型再升級，中國AI隊實力擔當

或許你會問，國內的類「o1」推理模型已有不少，為什麼訊飛星火X1依舊能夠傲視群雄？

作為中國AI國家隊，訊飛依託其自身技術的深厚積累，以及其專業的研發團隊實力，由此在X1模型上實現了突破性進展。

回顧其發展歷程，從最初的智慧語音起步，到如今認知智慧全面佈局，這家公司始終堅持走在技術創新的前沿。

2023年5月，星火大模型首次亮相，經過多次迭代升級，已經在文字生成、語言理解、知識問答等七大核心能力上，取得了顯著的成果。

隨後在24年的1024大會上釋出的訊飛星火4.0 Turbo更是在9項國際主流測試中，綜合能力均拿下第一。

就在今天，訊飛星火4.0 Turbo底座能力全面升級，金融、油氣、能源、電力、鋼鐵、航司等領域綜合能力的絕對提升全部超過10%，成為「最懂行業」的大模型。

面對算力資源短缺的迫切需求，訊飛還攜手華為，在2023年10月釋出了具有里程碑意義的「飛行一號」——國內首個全國產算力平臺。

去年10月，「飛星二號」正式啟動，萬卡級算力叢集繼續深化佈局，真正做到了從算力到模型全鏈條自主可控。

這一平臺實現了對萬億引數大模型常態化訓練支援，標誌著中國在大模型底層技術上實現了關鍵突破。

這一次，基於國產算力平臺首個深度推理模型X1的釋出，不僅展現了中國AI隊的創新實力，更為大模型的實戰應用樹立了新標杆。

站在新的起點上，科大訊飛繼續勇攀高峰。

參考資料：

https://xinghuo.xfyun.cn

相關文章

訊飛星火醫療大模型X1釋出，醫療推理能力效果均超GPT-4o、DeepSeekR1

訊飛星火醫療大模型X1釋出，醫療推理能力效果均超GPT-4o、DeepSeekR1

訊飛星火X1單挑滿血版DeepSeek-R1，全國產算力單機部署！中國AI再下一城

訊飛星火X1單挑滿血版DeepSeek-R1，全國產算力單機部署！中國AI再下一城

“標王”科大訊飛釋出推理模型！算力全國產，數學能力國內第一，驚豔一線教師

“標王”科大訊飛釋出推理模型！算力全國產，數學能力國內第一，驚豔一線教師

科大訊飛釋出首個基於全國產算力的深度推理大模型X1，率先落地教育、醫療

科大訊飛釋出首個基於全國產算力的深度推理大模型X1，率先落地教育、醫療

又給特朗普挖大坑了

又給特朗普挖大坑了

35.98萬起售的新款X9，託舉小鵬汽車的AI野心

35.98萬起售的新款X9，託舉小鵬汽車的AI野心

榮耀CEO李健：未來五年投入超過100億美元建立AI生態；阿里萬相大模型登上全球開源榜首丨AIGC日報

榮耀CEO李健：未來五年投入超過100億美元建立AI生態；阿里萬相大模型登上全球開源榜首丨AIGC日報

測試「天下最聰明」的Grok3：它真的是模型邊際效應的終點嗎？

測試「天下最聰明」的Grok3：它真的是模型邊際效應的終點嗎？

雷軍微博停更，盧偉冰表情回覆；Meta更新Llama4AI模型；馬斯克Altman法庭對決日期確定|極客早知道

雷軍微博停更，盧偉冰表情回覆；Meta更新Llama4AI模型；馬斯克Altman法庭對決日期確定|極客早知道

鴿了兩年放大招！稚暉君釋出靈犀X2，上演“腳踏車雜技”+“葡萄縫針”神技，比人還會演

鴿了兩年放大招！稚暉君釋出靈犀X2，上演“腳踏車雜技”+“葡萄縫針”神技，比人還會演

Copyright © 2025 | WordPress Theme by MH Themes