

作者 | 陳駿達
編輯 | 漠影
推理模型潮真的來了!
自OpenAI的o1深度推理模型釋出以來,國內外已有不少企業陸續釋出“類o1”模型,僅在國內便有Kimi-k1、GLM-Zero、DeepSeek-r1等數款模型。
去年年底,OpenAI在罕見的12天連續釋出中帶來了o3模型,推理能力大幅提升,給擔憂大模型發展放緩的業界人士打了一劑強心針,並將這一賽道的熱度推向新的高點。
英偉達CEO黃仁勳也在上週的CES主旨演講中談到,在傳統意義的大算力、大資料、大模型Scale路徑之外,業界還可依靠後訓練(如強化訓練)和模型的測試時計算(即“推理”)來提升模型的效能。

今天上午,作為“AI國家隊”、同時也是“大模型標王”的科大訊飛也釋出了訊飛星火深度推理模型X1。
依託訊飛在行業、企業落地方面的積累,星火X1成為國內唯一採用全國產算力平臺、率先落地到真實應用場景的深度推理模型,並在教育、醫療等領域展現出優勢。
星火X1釋出後,智東西在第一時間進行了上手實測,星火X1能勝任全學段的大部分數學問題,模型推理速度也比較理想。在全國產算力的基礎之上,這一效果更顯得難能可貴。下面就讓我們來看看這款模型的具體表現吧。
01.
難倒一眾大模型的數學題
星火X1輕鬆搞定
數學,一直是許多不具備深度推理、思考能力的大模型繞不過去的一道坎,對星火X1的測試也從這裡開始。
在開始測試之前,我們可以先看看其它模型在數學問題上的表現。
最簡單的比大小問題,其實已經能難倒部分引數規模較小的模型。

▲左側為Anthropic Claude 3 Haiku,右側為微軟Phi-4
在高中競賽題面前,即便是最新的旗艦模型也很難保證高正確率。

▲國內兩款旗艦模型回答高中競賽數學題,回答均錯誤
引數在幾十億、幾百億不等的模型在困難數學問題上落敗其實並不讓人感到意外,但為何引數達到上千億的旗艦模型也無法破解此類難題呢?
其實,模型能力並非影響大模型複雜問題求解效果的唯一因素,是否具備規劃、反思、迭代等深度推理能力才是關鍵。
不具備上述能力的模型在回答問題時,更像是“單次生成”的,模型更多地是憑藉自己在預訓練階段培養出的“直覺”、“印象”在回答問題,也不會對前序生成的內容進行判斷、驗證或是修改。這種方式的優點在於速度快、效率高,但其實與人類在解決複雜問題時的思考模式有很大差異。
而具備深度推理能力的模型則會透過思維鏈(Chain-of-Thought)等方式將複雜問題分步拆解簡化,在生成回答的過程中進行反思、驗證。這類模型在訓練過程中,還會使用上述推理時產生的資料進行強化訓練。
深度推理能力讓星火X1能以較高的正確率,解答困難數學問題。在面對這道高考數學多選題壓軸題時,星火X1順利完成了從理解題目到解題再到驗證的全流程,答案完全正確。

星火X1在畫面右側呈現了其思考過程,在對話方塊裡撰寫主要的解題過程,這種呈現方式對使用者的使用體驗來說也更為友好。在閱讀思考過程中,可以發現星火X1的反思、迭代機制確實發揮了作用:它自己糾正了計算過程中的一個錯誤。
國內某款同類推理模型雖然用時稍短,但最終的結果有誤。雖然它進行了驗算,但並未發現其中的問題。

科大訊飛作為一家人工智慧企業,佈局智慧教育領域已有20餘年,目前常態化使用訊飛智慧教育產品的學校數量已超5萬所。
具體到數學上,2023年,當大部分模型還處於重理輕文的狀態時,訊飛星火就已經憑藉比平均得分超出20%的成績,在《MIT科技評論(中國版)》進行的一場測試中成為數學專項的絕對領先者。
在2024年的科大訊飛1024開發者節上,全新升級的星火4.0 Turbo的數學能力超越GPT-4o,效率相對提升50%。

去年,科大訊飛聯合中國教育科學研究院釋出了基於“問題鏈”的高中數學智慧教師助手。今天釋出的X1或將給訊飛旗下的數學類產品帶來更強大的能力。
訊飛介紹,星火X1已參加了從小高初數學(含競賽)到AIME邀請賽等覆蓋全學段的多項考試,得分水平處於業界第一梯隊,其中多項指標國內第一。

02.
大模型年度標王背後:
深度理解行業是關鍵
儘管AI模型在推理、思考等能力上取得了顯著進展,但這僅僅是基礎。AI的真正價值不僅在於其技術本身有多先進,還在於能否深度理解行業場景並解決實際問題。
當AI進入行業深水區,通用大模型在領域知識上的相對匱乏、對行業需求的理解不足,以及高昂的使用成本,使得大模型的能力難以直接轉化為實際生產力。正因如此,通用基礎模型與行業特定需求相結合的行業大模型解決方案應運而生。
過去一年,國內行業大模型的發展勢頭迅猛。中科院自動化所和中鐵建設集團聯合釋出面向建築領域的多模態行業大模型;中國農業大學釋出了一系列面向種植、養殖等細分行業的大模型;科大訊飛去年則與央國企及20多個行業的頭部企業一起釋出行業大模型,覆蓋通訊、金融、能源、教育、政務、醫療等300多個應用場景。
招投標資料是評估行業大模型趨勢和成效的重要參考依據之一。根據智慧超引數的統計,2024年可謂是大模型落地元年。2023年,市場公開披露的大模型中標專案及金額分別為92個、7.89億元。2024年,這兩個數字飆升至1520個、64.67億元,同比增長15.5倍和7.2倍。

▲2024年1-12月中國大模型中標專案監測報告(圖源:智慧超引數)
過去一年,科大訊飛是大模型招投標領域表現最為突出的企業,中標專案達91個,中標金額高達約8.48億元,兩項指標均位居行業第一,且遠超其他廠商,成為行業大模型的領跑者和年度“標王”。

▲2024年Top6通用大模型廠商中標排行榜(圖源:智慧超引數)
與部分大模型企業先從C端突破,再到B端尋求商業化的路徑不同,訊飛在2022年底——也就是生成式AI浪潮興起之際——便瞄準行業和企業市場,啟動了“1+N”戰略。
在這一戰略中,“1”代表通用認知智慧大模型演算法研發及高效訓練底座平臺,而“N”則代表應用於教育、醫療、辦公等多個領域的專用大模型版本。
這一佈局使訊飛能夠快速將大模型技術落地到具體行業場景中,推動智慧化轉型。此番釋出的星火X1也成為業內率先成功落地具體場景的深度推理模型。
教育方面,這款深度推理模型已經走進了北京、合肥等地的學校,輔助一線老師的教學工作。來自合肥七中的米老師分享,對於難度中上的題目,星火X1能輔助老師快速理清講解思路;對學生來說,星火X1的詳細解答可以引導學生理解解題步驟,進而系統地理解和掌握知識點。
醫療方面,基於知識反思和思維鏈技術,結合醫療循證推理技術,星火X1具備了醫療複雜推理能力,在專科輔助診斷和複雜病例內涵質控上的準確率目前都達到了90%。2025年上半年,基於星火X1的訊飛醫療大模型升級版將會正式釋出。
03.
晶片層層封鎖之下
世界需要第二種選擇
我們已經看到,國內大模型在行業應用中的落地取得了顯著進展,但其背後仍存在隱憂。無論是模型的訓練還是推理,都需要高效能的算力平臺作為基礎。過去很長一段時間裡,國內企業在高階算力供應上長期依賴進口,尤其是英偉達等國際巨頭的GPU產品。
當前,全球算力格局正發生深刻變化。隨著近期美國《人工智慧擴散出口管制框架》的出臺,高階算力的獲取渠道進一步收窄,國內許多AI企業的研發和商業化落地都面臨巨大挑戰。美國對高階算力的出口限制,不僅暴露了國內企業在算力供應鏈上的脆弱性,更凸顯了國產算力自主化的緊迫性。
國產算力的崛起,已不僅僅是一個技術問題,而是關乎中國AI產業能否在全球競爭中掌握主動權、實現可持續發展的戰略命題。我們需要一個靠得住的“第二種選擇”。
今天訊飛釋出的星火X1,是國內首個完全依託全國產算力平臺的深度推理大模型,其背後的“飛星一號”是國內首個全國產萬卡算力叢集,具備常態化支援萬億引數大模型訓練的能力。
這一由科大訊飛與華為聯合研發的算力平臺,實現了軟硬體的全棧國產化,標誌著國產算力在效能上邁出了重要一步。
針對國產算力生態方面的短板,訊飛與華為攜手推進國產化運算元的開發與最佳化。目前,雙方已識別並聯合研發了超過100個大模型專用訓練/推理運算元,其中50多個運算元已完成深度最佳化。
此外,針對行業普遍面臨的訓練中斷問題,訊飛構建了自動化故障處理體系,實現了80多種常見故障在10分鐘內自愈的能力,並支援4000+卡任務連續執行超過20天,顯著提升了算力平臺的穩定性和可靠性。
2024年底,科大訊飛還聯合華為等企業推出新一代國產超大規模智算平臺“飛星二號”。該平臺採用靈活的系統架構,能夠快速適配新模型與新演算法,併為科研、教育、醫療等行業提供高效、精準的智慧服務,進一步推動國產算力生態的完善與應用落地。
04.
結語:探索深度推理模型的中國道路
推理模型作為下一階段大模型能力提升的重要突破口之一,正成為大模型企業間競爭的核心焦點,同時也是國家間AI實力比拼的關鍵領域。推理能力解鎖了模型在複雜問題上的解決能力,也推動AI技術在實際場景中的高效落地。
科大訊飛憑藉過往在應用領域的積累和全國產算力平臺支撐,已在數學、醫學等傳統優勢領域發揮出推理模型的優勢,有望逐漸探索出一條深度推理模型的中國道路。
(本文系網易新聞•網易號特色內容激勵計劃簽約賬號【智東西】原創內容,未經賬號授權,禁止隨意轉載。)
