
作者
|週一笑
郵箱
1
算力革命與效率革命並行
隨著DeepSeek的橫空出世,一場大模型的“效率革命”正在上演。透過最佳化模型架構與演算法創新,DeepSeek成功實現了以更低的成本達到更優的效能,改變了AI競爭的遊戲規則。然而,需要注意的是,這種效率提升並非意味著算力需求的減少。
DeepSeek本質上是對現有AI演算法的效率最佳化,短期內可能會降低部分訓練需求,但從長遠來看,隨著模型普及和應用場景的擴充套件,推理需求將顯著增長。這種趨勢類似於歷史上的“蒸汽機效應”:蒸汽機的發明提高了單個機器的能源效率,降低了單位產出的煤耗,但在工業革命的推動下,機器應用規模大幅擴張,反而導致煤炭總消耗量的大幅上升。
AI領域也可能出現類似情況,模型效率的提升將推動應用的爆發式增長,進而拉動整體算力需求的進一步提升。因此算力作為AI發展的基石,其需求將長期保持強勁。
從訓練到推理,算力就像一個看不見底的深淵,根據test-time compute scaling law,推理時間越長,模型表現越好,這意味著對算力的需求將呈指數級增長。近期,DeepSeek的火熱導致伺服器頻繁崩潰的情況,也印證了即便是高效的模型架構,也無法繞開算力供給不足的硬約束。
放眼全球AI產業,雲計算廠商正在加大對算力基礎設施的投入。隨著模型效率的提升,AI應用場景會進一步擴充套件,在這個背景下,解決了算力瓶頸,才可能在新一輪AI競爭中佔據先機。
效率和算力並非此消彼長,而是相輔相成的關係。效率的提升降低了單位算力的成本,而充足的算力供給則為效率革命提供了堅實基礎,在這場雙輪驅動的革命中,真正的突破往往需要在兩個維度上同時發力,缺一不可。
1
崑崙芯+百舸4.0,國產自研萬卡叢集來了
在全球AI算力競爭進入新階段的當下,百度智慧雲近日點亮了崑崙芯三代萬卡叢集,這是國內首個正式點亮的自研萬卡叢集。

科技巨頭的持續輸出的AI支出
放眼全球,各大科技公司正在加速部署超大規模計算叢集。Meta在2024年年初就已部署了搭載24576張H100 GPU的叢集用於Llama 3的訓練;xAI可能在Grok 3模型的訓練中使用了10萬張H100 GPU。亞馬遜、微軟和谷歌等科技巨頭的叢集規模也普遍維持在10萬卡以上。近期,Meta、微軟和谷歌紛紛等也紛紛表態將繼續加大在算力基礎設施上的資本支出,也印證了這一趨勢。在當前階段,萬卡、超萬卡級算力已成為支撐大模型發展的基礎設施。
低成本、高效能已成為中國科技產業的內嵌優勢。百度智慧雲自主研發的崑崙芯三代萬卡叢集,正是這一優勢的集中體現,為中國AI產業的未來發展提供了重要的算力支撐。
具體到算力優勢帶來的成本降低,我們可以透過百度智慧雲已上架千帆ModelBuilder平臺的DeepSeek-R1及DeepSeek-V3模型的價格進行直觀感受,這種優勢在市場上也得到了積極響應,僅在模型上線首日,就有超過1.5萬家客戶透過千帆平臺進行了DeepSeek模型的呼叫。而在呼叫價格降低的背後,是百度智慧雲在推理引擎效能最佳化技術、推理服務工程架構創新以及推理服務全鏈路安全保障上的深度融合。

從產業發展看,晶片供應限制正推動中國AI產業尋求更多元的技術方案。國產萬卡叢集的實踐,為行業積累了有益經驗。這種探索也反映出,透過自主創新尋求突破已成為一個現實的選擇,甚至可能是唯一的選擇。正如中國工程院院士鄭緯民所說,“構建國產萬卡系統,雖然很難,但也很必要。”
1
“艱難但必要的突破”如何實現
建設超萬卡叢集面臨多重技術挑戰,並非簡單的算力堆疊,而是要協調數萬張計算卡高效運轉,這涉及通訊效率最佳化、能耗與散熱平衡、系統穩定性保障等多個技術難點。在技術路徑上,軟硬體協同是關鍵,國產軟體生態需要在程式設計框架、平行計算、AI編譯器等多個層面進行最佳化,以充分發揮國產晶片效能。
百度在文心大模型的訓練中已經積累了大規模叢集經驗,是國內首個使用萬卡規模叢集進行訓練的大語言模型。百度智慧雲依託其升級的百舸AI異構計算平臺4.0(以下簡稱“百舸平臺”)在叢集建設過程中實現了多項技術突破。
首先是通訊效率的突破。想象一下,當數萬張AI晶片需要同時交換資料時,如果沒有高效的“交通系統”,就會造成嚴重的擁堵。百舸平臺透過構建十萬卡級別的超大規模HPN高效能網路,優化了資料傳輸的“路徑規劃”。針對跨地域通訊中的高延遲問題,百舸平臺採用了最佳化的拓撲結構、多路徑負載均衡以及創新的通訊策略,成功實現了數十公里的跨地域高效通訊。特別是在處理跨地域通訊時,透過先進的擁塞控制演算法和集合通訊演算法策略,將頻寬利用效率提升至95%,實現了完全無阻塞的資料傳輸。
更重要的是,系統能夠在每10毫秒進行一次網路狀態檢查,這種超高精度的監控確保了網路的穩定執行。據瞭解,百舸4.0在訓練主流開源模型時,叢集MFU(Model FLOPS Utilization,模型浮點運算利用率)可提升至58%,有效訓練率達到98%。
其次是多晶片協同的創新。在實際應用中,不同型別的AI晶片就像是不同專長的工作人員,每個人都有自己的長短板。百舸平臺能夠智慧地管理這些“人才資源”,將分佈在不同地點、不同規模的異構算力統一調配,構建起一個高效的多芯資源池。不僅支援百度自研的崑崙芯,還相容多種其他國產晶片,為構建異構算力叢集提供了強大的技術支撐。當有新的計算任務到來時,系統會自動選擇最合適的晶片來執行,就像一個經驗豐富的經理,總能給對的人安排對的任務。這種智慧排程使得萬卡多芯混合訓練效能達到了95%的高水平。
在穩定性方面,百舸平臺建立了全面的故障預警和處理機制。在如此龐大的系統中,出現區域性故障難以完全避免,關鍵是要能夠快速發現和處理。百舸平臺透過自動化的故障診斷系統,能夠在第一時間發現並定位問題。特別是依託百度自研的BCCL(百度集合通訊庫),系統可以快速隔離故障部件並啟動備用資源,將故障恢復時間從原來的數小時縮短到幾分鐘,確保了整個叢集的持續穩定執行。
這些技術創新在實際應用中已經展現出成效。以長安汽車為例,採用百舸平臺後,將原本分散的計算資源整合為統一的算力池,其算力使用效率提升到了90%以上,大幅降低了IT成本。生數科技的Vidu大模型,在百舸平臺支援下,影像處理速度提升了3倍,資料讀取速度提升了51倍。這種效率的提升,使得Vidu能夠在短時間內處理海量資料,為使用者提供更流暢、更快速的影像生成體驗。
百舸平臺的技術突破,使得萬卡叢集實現了“多、快、穩、省”的目標。“多”體現在支援各類AI晶片協同工作;“快”體現在高效的資料處理能力;“穩”體現在可靠的執行保障;“省”則體現在顯著降低的運營成本。這些進展不僅提升了大模型訓練的效率。也為更多企業提供了可負擔的AI創新基礎設施。

1
高效的算力,高效的落地
百度智慧雲成功點亮崑崙芯三代萬卡叢集不僅是技術上的突破,更重要的是它為中國AI產業發展帶來的實質性推動。百度萬卡叢集依託於國產自研的崑崙芯,能夠為上層應用提供具價效比的算力支援,在當前基礎模型層競爭日趨激烈的背景下,其成本優勢將進一步凸顯。
從實際應用效果來看,這種大規模算力叢集正在多個維度影響產業格局,並帶來降本增效的價值。
首先是顯著提升了AI應用的開發效率。以千億引數級模型為例,萬卡叢集可以大幅縮短訓練週期,使企業能夠更快地驗證和迭代其AI應用。這種提速對於當前快速發展的AI市場尤為關鍵。特別是在處理多模態資料方面,充足的算力支援使得類似Sora這樣的複雜多模態應用成為可能。
其次是推動了行業的降本趨勢。透過動態資源切分技術,單個叢集可以同時支援多個輕量化模型的訓練,顯著提升了資源利用效率。
更重要的是,萬卡叢集能夠穩定供應算力資源,避免了因外部因素導致的斷供風險,為企業的持續創新提供了可靠保障。
在實踐中,這些優勢正在得到驗證,高效穩定的算力支援正在加速AI技術在各個領域的落地。上海交通大學利用這一基礎設施,構建了AI for Science科學資料開源開放平臺,率先實現了生成式人工智慧與科研場景的結合。藉助百度百舸平臺的端到端最佳化能力,上海交大的科研人員能夠更高效地進行模型訓練和推理,加速科研成果的產出。在教育領域,好未來藉助百舸平臺成功開發了“九章大模型(MathGPT)”,廣泛應用於好未來的智慧硬體和多個業務場景,為使用者提供更智慧的學習體驗。
隨著國產大模型的發展,算力平臺也在從“單任務消耗”向“叢集效能最大化”演進。百度智慧雲崑崙芯三代萬卡叢集,透過智慧排程和混合部署,將訓練、微調、推理等不同型別的任務統一管理,進一步提升了叢集的綜合利用率。這種演進不僅優化了單位算力成本,也為更多中小企業提供了可及的AI創新基礎設施。
當前,全球AI產業正處於關鍵發展期,算力供給的充足程度將直接影響創新的速度和廣度。國產萬卡叢集的建成,為中國企業提供了一條可行的算力解決方案,有望加速AI技術在更多場景中的應用落地。
1
中國AI創新的新引擎
高效模型的湧現,AI產業的算力需求呈現出新的特點,雖然像DeepSeek R1這樣的高效模型透過最佳化演算法和架構提升了資源利用效率,但整體的算力需求仍在持續增長,只是增長的模式和特徵發生了變化。
比如隨著模型應用向多模態方向發展,處理影片、語音等複雜資料的需求不斷增加,對算力提出了新的要求。另一方面,AI應用場景的多樣化也推動著算力需求的分層發展,從資料中心到邊緣計算,不同場景對算力的要求各不相同。
在這種背景下,萬卡叢集的價值正在發生轉變。它不再僅僅是單純的算力供給中心,而是進化成為一個支援多樣化AI應用的智慧計算平臺。百度智慧雲的萬卡叢集以及即將點亮的3萬卡叢集,不僅是算力規模的簡單擴大,更是中國在AI基礎設施建設領域自主創新能力的體現。
這些成果的背後,是百度在大規模計算叢集領域多年的技術積累。從最初的算力平臺建設,到如今成功點亮萬卡叢集,百度不斷探索軟硬體協同最佳化的最佳實踐,為推動AI技術的普及應用提供了有力支撐。
展望未來,隨著量子計算、神經形態計算等新興技術的發展,計算正規化可能發生根本性改變。但在可預見的未來,大規模叢集在訓練複雜模型、處理海量推理需求方面的優勢仍然不可替代。
中國AI產業正站在新的歷史起點上,國產萬卡叢集的建設,為我們提供了強大的算力引擎,也為未來的技術創新開闢了更廣闊的空間。真正的挑戰在於如何讓這些算力資源更智慧、更高效地服務於不同場景的需求,而百度智慧雲正在這條道路上積極探索。
