訊飛星火X1數學碾壓o1封神,首個全國產算力推理王者誕生!多指標國內TOP1


新智元報道  

編輯:編輯部 HYZ
【新智元導讀】唯一一個在全國產算力上訓練的深度推理模型來了!今天,訊飛星火深度推理大模型X1釋出,釋出會上現場搖數學題開做,答案全部正確。強強pk全國產勝,中文數學能力遠超國內外「o1」級推理模型?
就在剛剛,國內第一個全國產算力的深度推理模型,重磅上線了!
科大訊飛的正式下場,再次攪動了本就已經十分激烈的推理模型戰局。
現在,進入「訊飛星火」網頁端和App端,搜尋「深度推理模型X1」智慧體,即可體驗
此前,隨著OpenAI的o1模型的釋出,國內的o1級推理模型也如雨後春筍一般冒出。
細數一下,現在已經有了DeepSeek-r1、Skywork-o1、QwQ、Kimi-k1、GLM-Zero等多個模型。
那麼,推理模型之戰,誰才是最強?
全國產算力平臺唯一深度推理模型
作為當前業界全國產算力平臺上唯一的深度推理模型,X1的成績著實亮眼。
《通用認知智慧大模型測評體系》指導構建測試集CogNKLab-MathEval-2.0顯示,X1的中文全學段數學及奧賽能力已經超越了OpenAI o1,實現國內最好。
而且模型只用更少的算力,就實現了業內一流效果,多項指標國內第一。
訊飛星火X1在小初高(含競賽)、大學(含競賽)、AIME、MATH 500等多項「考試」中,成績十分亮眼。
所謂深度推理模型,當然就是更擅長做數學題這類複雜任務,而且有全面的思考推理過程。
X1的數學題,究竟做得怎麼樣?
科大訊飛也是猛,直接現場搖題給X1做,搖到哪道是哪道!
一上來,就是道2024高考數學題的大題。
X1的思考過程顯示,它透過確認正弦值、解方程求角、應用正弦定理等步驟,將過程拆解出許多小任務,從而一步步解出答案。
對照參考答案可見,訊飛星火X1給出的答案完全正確。
接下來現場考驗X1的,是一道2024年AIME數學競賽題。
可以看出,這道題涉及多變數對數求解,難度不小。
X1在思考過程中,把對數轉換成了指數。注意,解題過程考驗的不僅僅是X1的數學能力,還涉及到了英文理解能力。
最終,X1給出了答案「33」,再次回答正確。
最後,試一試X1能不能做對國內的高中數學奧數題。
解題過程中,X1嘗試理解等比數列的性質,試圖理解各項和與各項平方和的關係,還重新反思了無窮級數和平方和。
可以看出,星火深度推理模型X1具有以下三大特點——
  1. 化繁為簡,透過長思維鏈進行分步驟解析;
  2. 會自我探索和反思驗證;
  3. 會根據「優質reward」來進行強化訓練。
因此,像數學這種有明確答案和結果的問題,就天然適配X1模型。
其實,之所以如此迅速做出X1推理模型,也是因為科大訊飛在此領域早有積累。
比如基於自我評價迭代的評語模型技術,已經用於高考作文評分。數學答題領域的多路徑和反思迭代強化學習,已用於數學教師助手。
因此,o1-preview釋出一個月內,訊飛團隊就迅速跑通了關鍵演算法。
實測來了
接下來,就是訊飛星火X1和OpenAI o1推理模型真刀實槍見真章的環節。
第一道題,我們就要開始上難度了。
點選進去就能看到模型的詳細思考過程,每一步都很清晰。
接下來,是高中生常見知識點中,最容易出錯的題。
這一道,是高考數學中常見的集合問題。
X1用時35秒,順利給出了正確答案。
看起來,這個結果沒什麼好驚訝的,因為這道題並不難,對吧?
然而,真正的實戰過程中,不少推理大模型連如此簡單的問題都折戟了!
接下來,再上升難度,上傳一道美國數學競賽AIME的一道題目,看看X1表現又如何?
X1用時2分,透過四步證明,最終得出了正確答案f(2024^2, 2024)。
再來看它的推理思維過程,也是非常縝密。
而最強o1,卻在這道題上答錯了。
為什麼現在都在卷推理模型?
為什麼最近國內的大模型廠商,都在狂卷推理模型?
這自然是因為,推理模型在AI技術商業化落地中起到的關鍵作用已經不言而喻。
這一商機,國外的科技公司早已率先嗅到。
隨著OpenAI扣動扳機發布o1和o3,谷歌釋出Gemini 2.0 Flash Thinking,DeepSeek-V3在海內外掀起巨大風暴,推理AI之戰已經打響。
從應用端看,在聊天機器人、語音助手等商業化落地場景,推理模型的效能直接關乎到產品的使用者體驗。
在搜尋引擎、社交平臺等大規模部署場景中,推理成本是一個核心問題;更高效的推理模型,能顯著降低成本。
在手機、IoT裝置這類資源有限的硬體中,模型執行時更是需要在計算、記憶體和能耗之間實現平衡;此時,輕量化的推理模型就是最好的選擇。
而從技術端看,OpenAI再度驗證了Scaling Law並沒有撞牆,只是從預訓練階段轉向了推理階段,也就是常說的測試時計算。
但問題在於,針對這一階段的Scaling,對算力的消耗十分巨大。
因此,在中美競爭態勢愈發嚴峻的當下,透過全國產算力拿下這塊「兵家必爭之地」,具有著比以往更加重大的意義。

全國產算力,勇闖無人區

訊飛星火深度推理模型X1,是昇騰算力體系下,首個原生的深度推理模型。
技術團隊揭秘,在利用國產算力訓練模型的過程中,遭遇了資料構建、框架調優、模型驗證等諸多難題,讓團隊額外多花費了不少時間。
在這個過程中,沒有任何成功的案例可借鑑,只能一點點啃下難題,好在最終成功攻關。
最終,演算法不僅在國產算力上成功適配,而且用更少的算力,實現了業界一流的水平,推出了可以和國際領先模型扳手腕的X1。
回望過去,從一開始,星火大模型就堅定地走全國產的路線。
在和華為合作的過程中,雙方始終堅持「勇闖無人區」,持續拔高全國產算力和大模型的上限,為世界提供第二種選擇。
訊飛星火X1已「上崗」,多場景無縫銜接
與其他類「o1」模型不同的是,訊飛星火X1一經發布就已經實現了實戰應用。
2022年12月,訊飛正式啟動了「1+N」戰略,就是要將底座大模型,賦能到教育、醫療、人機互動、辦公等多個行業中。
如今,星火大模型早已在不同場景遍地開花。所以,這次星火X1也會率先落到實際場景中。
教育,是最典型的一個場景。
去年的1024開發者節大會上,訊飛聯合中國教科院首次釋出了基於「問題鏈」的高中數學智慧教室助手。
當時,就已聯合許多教師、教研員,打造了上萬個優秀案例。
現在,訊飛星火X1已經在北京八中數學教研組、北京101中學數學教研組,以及合肥七中數學教組等進行了部署
來自北京、上海、合肥多地的一線教師在上手體驗之後,一致給出了好評。
他們都認為,訊飛星火X1在解決創新數學題目時,可以做到一題多解,教學知識關聯,還能拓展學生們的高階思維。
來自北京八中的教師表示,「X1推理過程和思路更加清晰,如果遇到數學創新題,X1的思路會帶來很大幫助」。
不光老師覺得好用,X1對學生來說,也是一個好幫手。
訊飛AI學習機曾首創了AI 1對1個性化精準學,幫助學生減負增效,因材施教。
因此,訊飛AI學習深受孩子和家長們的喜愛,使用者淨推薦值NPS穩坐第一,持續領跑行業。
在醫療這個專業性超強的領域,X1也交出了一份不錯的成績單。
基於知識反思和CoT,再結合醫療循證推理技術,X1在專科輔助診斷和複雜病例內涵質控方面的準確率,已經達到了90%!
作為醫療大模型領域「第一股」,訊飛醫療還將在2025年上半年推出X1升級版醫療大模型。
這次升級的目標非常明確,要在診斷推理和質控能力上,繼續領跑業界,更大範圍為醫生們提供更專業的輔助。

1+N落地,前景無限

不可否認的是,在應用落地上,訊飛一直都是行業領導者。
成立26年,這家公司已經在認知智慧領域拓展了豐富的to B/C的應用場景。
to B方面,有教育行業因材施教和個性化學習、醫療行業的人工智慧輔診、智慧城市便民便企服務、面向企事業單位的智慧辦公等。
to C方面,又有AI學習機、翻譯機、錄音筆、智慧辦公本等全系硬體產品佈局。
2024年,被譽為大模型落地元年,訊飛也以實際行動證明了自己的實力。
截至24年12月,訊飛已成為央國企大模型的首選合作伙伴,與200+行業頭部企業共同打造行業大模型,覆蓋了300+應用場景,為行業樹立了風向標。
第三方資料顯示,訊飛在2024年大模型招投標中,獨佔鰲頭。以91箇中標專案和84780.8萬元中標金額,成為當之無愧的「標王」。
這一成績不僅僅體現在數量上,更體現在廣度上,覆蓋了通訊、金融、能源等多個領域。
提到汽車領域,訊飛更是「霸主」級存在。中國汽車出海十強企業中,有8家都選了訊飛的技術。
而且,長城、廣汽等七大企業的量產車都開始用上了星火大模型,可以說是全面開啟了「汽車+大模型」的新時代。
在工業領域,訊飛羚羊工業網際網路平臺也是一匹黑馬,連續三年入選工信部「雙跨」平臺,還獲得了諸多榮譽。
在金融領域,訊飛也毫不示弱,星火大模型已成為交通銀行、中國人保等多家金融機構的「數字底座」。
此外,訊飛還為企業提供了貼心的數智化升級方式,包括全套私有化部署方案,或者透過星火智慧體平臺、星火飛碼iFlyCode等工具快速開發應用。
不難看出,科大訊飛已經打通了多個應用場景,一旦有了新模型的出世,就能順利無縫鋪開,並能得到很好的應用。
也就意味著,未來,訊飛星火X1的應用範圍還將進一步擴大。
底座大模型再升級,中國AI隊實力擔當
或許你會問,國內的類「o1」推理模型已有不少,為什麼訊飛星火X1依舊能夠傲視群雄?
作為中國AI國家隊,訊飛依託其自身技術的深厚積累,以及其專業的研發團隊實力,由此在X1模型上實現了突破性進展。
回顧其發展歷程,從最初的智慧語音起步,到如今認知智慧全面佈局,這家公司始終堅持走在技術創新的前沿。
2023年5月,星火大模型首次亮相,經過多次迭代升級,已經在文字生成、語言理解、知識問答等七大核心能力上,取得了顯著的成果。
隨後在24年的1024大會上釋出的訊飛星火4.0 Turbo更是在9項國際主流測試中,綜合能力均拿下第一。
就在今天,訊飛星火4.0 Turbo底座能力全面升級,金融、油氣、能源、電力、鋼鐵、 航司等領域綜合能力的絕對提升全部超過10%,成為「最懂行業」的大模型。
面對算力資源短缺的迫切需求,訊飛還攜手華為,在2023年10月釋出了具有里程碑意義的「飛行一號」——國內首個全國產算力平臺。
去年10月,「飛星二號」正式啟動,萬卡級算力叢集繼續深化佈局,真正做到了從算力到模型全鏈條自主可控。
這一平臺實現了對萬億引數大模型常態化訓練支援,標誌著中國在大模型底層技術上實現了關鍵突破。
這一次,基於國產算力平臺首個深度推理模型X1的釋出,不僅展現了中國AI隊的創新實力,更為大模型的實戰應用樹立了新標杆。
站在新的起點上,科大訊飛繼續勇攀高峰。
參考資料:
https://xinghuo.xfyun.cn

相關文章