算力即國力!中美算力戰步步緊逼,中國AI公司手握“破局密碼”

DeepSeek也面臨算力圍堵?國產大模型配自主算力平臺成最穩突破口。
作者 |  程茜
編輯 |  漠影

DeepSeek的迅速躥紅,正將大模型領域的激烈競爭推向全新高度!

一方面,全球大模型廠商打得火熱,DeepSeek登頂中美應用市場,OpenAI、谷歌紛紛出招反攻;另一方面,算力競爭作為AI競爭核心戰場的角色被重塑,DeepSeek獲海內外各家雲巨頭、晶片企業力挺。

隨之而來的是,DeepSeek在海外面臨重重考驗。美國、澳大利亞政府宣佈全面停用,義大利、愛爾蘭、英國等多國政府或已開展封鎖行動或計劃對DeepSeek進行審查。

這背後的一大隱憂就是,DeepSeek當下的成就也是基於以英偉達為代表的海外算力平臺達成,與此同時,海外針對晶片供應的封鎖手段不斷升級,給DeepSeek帶來的限制日益增多,在這樣的大背景下,實現國產算力的自主可控就顯得尤為關鍵,它不僅關乎DeepSeek未來的發展走向,更對整個行業的穩定與安全有著舉足輕重的意義。

要想在這一賽道上搶佔先機,算力競爭早已成為無法迴避的關鍵戰場,縱觀整個國內市場,已經有一家公司在全國產算力平臺這條道路上先發制人。

2023年7月,國產頭部大模型玩家和國產算力提供方聯合拉開了全國產算力平臺的序幕,這就是訊飛星火大模型與華為昇騰自主創新算力平臺的結合。2023年10月24日,科大訊飛攜手華為正式宣佈首個支撐萬億引數大模型訓練的萬卡國產算力平臺“飛星一號”啟用。2024年1月30日,首個在全國產算力平臺上訓練的訊飛星火V3.5釋出,效能對標國際最先進水平,之後,訊飛星火大模型底座連續升級,截至目前仍然是國內唯一全棧國產算力訓練、推理雙實現的大模型

當下,大模型對於算力的需求,不僅如潮水般持續湧動,且呈愈演愈烈之勢,一路高歌猛進。與此同時,地緣政治的複雜博弈下,海外晶片遭遇的封鎖態勢愈發嚴峻,絲毫沒有緩和的跡象。在這樣的大環境下,國產大模型與國產算力的深度融合,將成為未來發展的必然走向

DeepSeek的爆火將對國內模型產業、算力競爭提出哪些新的思考?全國產算力平臺在這一階段的重要性如何?它將如何發力,推動國內大模型產業邁向全新的發展高度?我們試圖找到這些問題的答案。

01.
中國公司破局
效能和成本制勝美國同行

眾所周知,算力、演算法、資料是AI時代的三大引擎,構建強大算力叢集、持續創新演算法、廣泛收集和精細處理資料來推動大模型發展,無疑是業界一直以來的重點。

此次,DeepSeek就是透過演算法創新實現突圍,其爆火的關鍵因素可以用兩點概括:效能成本

效能層面,DeepSeek R1在數學、程式碼、自然語言推理等任務上達到國際一流水平。

但反常識的是,其強大效能背後並沒有望塵莫及的成本消耗

根據DeepSeek的論文,其訓練成本為557.6萬美元,使用了2048顆H800 GPU,在兩個月內訓練了6710億個引數的V3大模型,相當於280萬個GPU小時。

從其公佈的API定價推算,DeepSeek每百萬tokens輸入價格0.14美元(快取命中)、0.55美元(快取未命中),每百萬tokens輸出價格2.19美元,遠低於OpenAI o1甚至其最新發布的OpenAI o3-mini價格。

在演算法最佳化的路徑上,深耕AI領域多年的科大訊飛,也在這兩個角度有所積累。

科大訊飛的訊飛星火大模型自發布之初,就錨定了階段性的發展目標。2024年訊飛星火已經完成5次持續升級,持續對標GPT-4 Turbo和GPT-4o。

就在今年1月初,其釋出了具備深度思考和推理能力的訊飛星火深度推理模型X1,實現了更小尺寸、更高效能,多項測試集指標超過OpenAI o1。

擅長深度推理訊飛星火X1可以在給出答案的同時,對解題思路和步驟進行拆解

深度推理模型在處理複雜任務時,與其他模型相比,在推理能力、特徵學習、泛化學習等方面具有諸多獨特優勢。
其推理能力支援其更好處理多條件、多步驟的邏輯推理問題以及分析複雜因果關係等,同時當深入B端企業的業務場景時,還能對複雜資料進行深入分析、推理,為其制定戰略、規劃業務方向、最佳化資源配置等提供更精準的決策依據。
同時,深度推理模型還具有強大的泛化能力,可以學習到資料的一般規律和模式,遇到新的資料或問題也能保持相對穩定的效能。
在這些層面,深度推理模型已經展現出了提高效率和競爭力的優勢。而對於使用者對輸出速度有高要求、簡單直接的任務場景,通用大模型更為契合使用者需求。
因此,未來側重於提供廣泛知識和基礎能力的通用大模型與專注解決複雜問題、進行深度推理的深度推理模型,兩者將互為補充在特定的任務和領域中發揮關鍵作用。

訊飛星火X1還有一大頗受關注的特徵就是,全國產算力平臺訓練。自主可控的算力平臺,從根本上為大模型成本控制提供了支援。

科大訊飛董事長劉慶峰坦言,由於訊飛星火X1的部分任務確實很難,而且在國產化算力平臺上的訓練時間較短、資料量較少,還有很大提升空間,未來一個月內將有新升級

DeepSeek用演算法創新為國產GPU打開了“黃金視窗”,科大訊飛的全棧自主可控技術體系已經在這種AI新戰局中先人一步。

02.
打破壟斷
全國產算力平臺衝鋒

一直以來,在AI和高效能計算等領域,英偉達的GPU常被視作圭臬,但從晶片到DeepSeek,美國連番的禁令釋出,使得國產算力的關鍵價值愈發凸顯,一路水漲船高。

在演算法創新一路疾馳、強勢驅動行業變革的背後,算力領域既迎來了前所未有的發展機遇,也面臨著諸多嚴峻的挑戰。

首先是機遇

DeepSeek以低成本達成高效能成果,吸引了諸多頭部平臺和晶片廠商合作,不僅為自身發展拓展了市場空間,同時儘管部分國產GPU在效能上與英偉達產品存在差距,但也使得其在最佳化演算法、創新應用場景等方面看到了更多發展的可能性。

與此同時,其已經走通的低成本、高效能發展正規化,為諸多技術、資金積累並不充分的AI企業提供了借鑑和思路,使其能在有限資源下實現大模型效能突破。更多企業的入局,對算力的需求增加,同樣也是國產算力的一大市場機遇。

其次是挑戰

全國產的算力平臺上做訓練+推理難度極大,但這兩者缺一不可。

大模型對算力的需求包含訓練和推理兩個方面,受限於國產晶片的單卡效能、各廠家生態體系不相容、大規模訓練時故障率高、互聯通訊等因素,大模型訓練的難度相比於推理更高。

除此以外,大模型訓練期間並行演算法的最佳化、資料傳輸速度、軟體工具鏈的成熟、專業人才等都會成為構建全國產算力平臺的門檻,這也讓諸多企業望而卻步,因此部分公司鑑於訓練難度高,會選擇專攻推理。

從 “全國產” 算力平臺的維度審視,其前路是未經踏足的 “無人區”。

當構建超大規模的全國產算力叢集時,需要進行國產算力平臺的適配和效率最佳化,而其中如何實現高效的叢集排程、穩定的通訊架構以及低延遲的資料互動,尚無成熟的技術路徑和實踐經驗可供參考。

機遇與挑戰並存的當下,首先將“全國產算力平臺”變成現實的就是科大訊飛

在研發團隊的長期攻堅下,基於科大訊飛與華為打造的首個支撐萬億引數大模型訓練的萬卡國產算力平臺“飛星一號”訓練,星火大模型實現全棧國產適配最佳化。

劉慶峰曾透露,在昇騰910B的基礎上,科大訊飛攻克了諸多疑難雜症,解決了數百次基礎軟硬體問題、模型適配問題等,使得大模型訓練從對標A100/A800的20%~30%提升到90%以上。國產算力的提升,使得國內企業在進行大模型訓練時,對國外算力租賃的依賴降低,這對於降低大模型成本的影響深遠。
繼“飛星一號”之後,2024年10月,科大訊飛、華為、合肥市大資料資產運營有限公司三方聯合打造的國產超大規模智算平臺“飛星二號”正式啟動,並將於今年交付首批算力。

訊飛星火大模型正是全國產算力平臺最直接的驗證,也是科大訊飛在全國產算力平臺這條道路上前行的一個關鍵里程碑。

自主可控、全國產算力已經深深刻進了科大訊飛的發展基因中,現狀也證明,科大訊飛走“全國產算力平臺”的必要性與正確性。

03.
生態協同、行業應用
國內大模型產業鏈已起飛

DeepSeek在成為業界熱議焦點的同時,開啟了國內大模型產業對生態協同與行業應用的深度思考。

國內大模型上下游產業鏈玩家紛紛宣佈合作。不僅有摩爾線程、燧原科技等國產GPU企業,還有華為雲、阿里雲等國內雲計算巨頭,無問芯穹、矽基流動等AI基礎設施企業,均已宣佈適配及上架DeepSeek模型服務。

DeepSeek狂飆在前,也給大模型產業發出警醒,資料安全、行業應用、生態健康正借勢發展。

演算法創新、算力發展背後,資料同樣是模型能力發展的重中之重,讓大模型深入企業內部、重要行業的關鍵之一就是,能保證其核心資料的安全,並使得這些資料被有效利用起來。

在AI領域20餘年的深耕,也為科大訊飛提供了資料優勢。科大訊飛正利用自主可控的技術能力和行業合作優勢,構建高質量資料飛輪。

場景應用層面,大模型發展的核心命題就是深入場景,實現降本增效。在這一關鍵節點,如何讓DeepSeek帶動的產業紅利深入不同行業,真正在關鍵場景發揮作用,勢必需要結合此前產業玩家的經驗積累,找到最快落地的場景。

產業協同同樣關鍵,產業鏈玩家協同發力不斷最佳化演算法、挖掘模型潛力的同時,立足行業痛點開展應用創新,藉此使得大模型產業健康、正向發展。

從DeepSeek看國產算力、資料安全、場景應用、行業創新,我們發現,科大訊飛的業務佈局顯示,其已經先發制人。

第一天做大模型,科大訊飛就確定了“1+N路徑”。結合通用底座、工具鏈和知識工程,訊飛星火擁有從頂層規劃到執行落地的全套解決方案,包含“建算力、理資料、訓模型、落場景、保安全、精運營”。

發展至今,在大模型招投標市場,科大訊飛央國企中標數量和中標金額雙第一,還獲得教育、醫療、金融等多個領域應用第一,其中在教育領域,其服務1.3億師生、5萬餘所學校,深度參與12個國家智慧教育示範區建設;醫療領域智醫助理覆蓋677個區縣服務全國600家等級醫院,與7家排名前十醫院深度合作;金融領域交行、人保等頭部金融客戶佔位中標27個。

這些深度合作的行業案例已經成為科大訊飛發展大模型的關鍵積累,並反哺行業,以技術迭代、效率提升等形式,為行業發展注入源源不斷的動力,實現互利共贏的良性迴圈。

國內全產業鏈的協作使得中國大模型產業的發展邁入新的階段,科大訊飛的佈局也已經為產業鏈發展打了個樣。

科大訊飛的生態佈局可以用一句話概括:加強C端使用者體驗、深耕B端行業應用以及選擇G端合作的戰略佈局

劉慶峰提到,科大訊飛要做的事是加強C端、做深B端,選擇G端。學習機是科大訊飛必做的大模型時代的跨越鴻溝的C端產品;B端持續深化合作汽車、金融和運營商;G端選準城市,搶抓機遇。

科大訊飛已經在全國產平臺的基礎上長出參天大樹,並從晶片適配到框架最佳化,形成一套可複用的“國產算力大模型方法論”,推動國產技術的崛起。

04.
結語:DeepSeek掀起浪潮
訊飛用國產算力借勢突圍

DeepSeek爆火改變了大模型產業的發展格局,就連OpenAI CEO薩姆·阿爾特曼(Sam Altman)也坦言OpenAI的領先優勢正在縮小。

在這波變革浪潮中,演算法創新持續迭代,也讓全國產算力平臺的重要性愈發凸顯。科大訊飛的前瞻性佈局在此刻被推向新的巔峰。

已經在全國產算力平臺、模型場景應用、生態協作佈局上闖出一條路徑的科大訊飛,已經將大廈建在國產的地基上,助推中國AI產業在全球競爭中邁出關鍵一步。

(本文系網易新聞•網易號特色內容激勵計劃簽約賬號【智東西】原創內容,未經賬號授權,禁止隨意轉載。)


相關文章