百度自研崑崙芯,萬卡叢集如何重塑大模型成本與效能革命?

關注飛總聊IT,瞭解IT行業的方方面面。
近日,百度智慧雲成功點亮崑崙芯三代萬卡叢集,成為國內首個正式點亮的自研萬卡叢集。
這不僅標誌著百度在自研晶片與大規模AI算力佈局上的又一次重大突破,也預示著AI模型訓練成本將迎來新一輪下降。
更重要的是,百度智慧雲即將進一步點亮3萬卡叢集,在AI算力賽道上持續領跑。
在當前AI大模型的競爭格局下,算力已成為制約創新和產業落地的關鍵瓶頸。而百度透過崑崙芯+百舸AI異構計算平臺雙輪驅動,成功構建超大規模算力叢集,不僅提升了模型訓練效率,還顯著降低了算力成本,加速AI技術普惠化程序。
當前,AI行業普遍面臨高昂的算力成本,而算力緊張是主要原因之一。百度智慧雲透過自研崑崙芯三代及萬卡叢集建設,不僅確保了自身算力供應,也為行業提供了新的降本增效方案。
傳統的千億引數模型訓練週期長、成本高,而萬卡叢集能大幅縮短訓練時間,使AI原生應用能夠快速迭代。同時,該叢集具備更強的計算能力,可支援更大規模模型和更復雜的多模態任務,例如Sora類應用的開發。
萬卡叢集不僅能處理單一任務,還具備動態資源切分能力,可同時訓練多個輕量化模型。藉助通訊最佳化與容錯機制,有效減少算力浪費,實現訓練成本指數級下降。
過去,大模型訓練往往是“單任務算力消耗”,導致資源利用率不均衡。百度智慧雲透過模型最佳化、有效訓練率提升、動態資源排程等方式,實現訓練、微調、推理任務的混合部署,從而提升叢集綜合利用率,使單位算力成本進一步降低。
整體來看,百度萬卡叢集的建成,不僅是算力規模的提升,更是算力經濟性的突破,對整個行業具有深遠影響。
支撐萬卡叢集高效執行的核心,是百度自研的崑崙芯三代。相較於前代產品,新一代崑崙芯在算力、能效、穩定性等方面全面升級,使百度智慧雲的AI算力生態更具競爭力。
大規模算力叢集的功耗問題一直是行業難題,常規萬卡叢集方案功耗可高達十兆瓦以上。百度智慧雲透過創新性散熱設計,顯著降低能耗,使崑崙芯三代在高效能計算場景下更加穩定。
針對大模型的分散式訓練,崑崙芯三代結合高效並行任務切分策略,在訓練主流開源模型時,叢集MFU(叢集計算利用率)提升至58%,有效提升算力利用效率。
AI模型訓練過程中,機間通訊頻寬往往成為效能瓶頸。百度智慧雲構建HPN高效能網路,最佳化拓撲結構,使叢集的頻寬有效性達到90%以上,有效降低通訊損耗,提升整體計算效率。
在超大規模叢集中,單卡故障率隨規模指數增長。百度智慧雲引入智慧容錯機制,避免單點故障影響整體訓練任務,使萬卡叢集的有效訓練率達到98%以上,大幅提升訓練穩定性。
構建萬卡叢集,不僅僅是堆砌硬體,更需要強大的AI計算平臺來支撐整個訓練、推理、最佳化過程。百度智慧雲依託百舸AI異構計算平臺4.0,實現了從叢集建立、開發實驗、模型訓練、模型推理的全鏈路最佳化。
百度百舸4.0有很明顯的核心優勢。
首先,百舸4.0支援國產崑崙芯及其他異構晶片混訓,使算力資源排程更加靈活,訓練效率更高。
其次,透過大規模快速排程和任務初始化機制,百舸4.0可智慧分配算力資源,使叢集總體使用率提升至90%以上。
再次,百舸提供分鐘級部署能力,使企業能夠快速驗證主流大模型推理效果,加速AI應用的商業化落地。
最後,依託BCCL大規模通訊最佳化和分散式容錯機制,百舸在萬卡叢集上實現了穩定高效的執行,使訓練任務不中斷,提高企業業務連續性。
百度的自研崑崙芯萬卡叢集和百度百舸,已經在很多個企業落地,賦能企業AI創新,為企業提供了實實在在的價值。
比如說,好未來依託百度百舸,成功訓練九章大模型(MathGPT),並在智慧硬體、學習機等產品中應用,提升教育智慧化體驗。
基於百舸4.0的算力最佳化方案,長安汽車的算力使用率提升至90%以上,助力智慧駕駛技術加速發展。
生數科技透過百度百舸的賦能Vidu大模型訓練,其素材渲染加速效率提升3倍,資料拉取效率提升51倍,加速多模態AI的商業落地。
此外,百度百舸作為上海交大AI for Science科研平臺的核心算力底座,提升大模型在科學研究中的應用效率,加速AI科研創新。
百度智慧雲點亮國內首個自研萬卡叢集,不僅是對自身AI算力佈局的強化,更是推動整個行業邁向高效、低成本、大規模AI訓練的重要里程碑。
隨著3萬卡叢集的建設推進,百度智慧雲正在重新定義AI計算的規模與經濟性,助力企業加速邁入AI新時代。未來,百度智慧雲將如何進一步拓展萬卡叢集的邊界?讓我們拭目以待!


相關文章