當AI基建告別“蠻力生長”:百度百舸如何用“系統思維”為應用鋪路

作者週一笑郵箱[email protected]
“模型會有很多,但應用才是王者。” 百度創始人李彥宏在Create 2025大會上直指AI產業重心。面對飛速迭代的大模型和開發者對應用價值持續性的普遍疑慮,他強調找對場景、善用模型工具的應用將超越模型本身。
與此同時,全球圍繞AI的算力競賽已進入白熱化。科技巨頭們動輒千億美金級別的投入,以及“星際之門”等超大規模基礎設施計劃,預示著更強模型和應用突破的加速到來,AGI的討論也日益升溫。雖然DeepSeek等工程最佳化案例展示了效率提升的可能,但並未改變大規模算力是底層驅動力的現實。
然而,中國AI發展面臨高階晶片供應與製造的現實瓶頸。這使得單純複製海外“堆算力”模式面臨挑戰,如何在現有及可預見的算力資源下,透過系統性的最佳化和工程創新,最大化效率、降低成本,成為關鍵破局點。
正是在此背景下,百度在Create 2025上宣佈文心大模型降價、基於自研崑崙芯P800的3萬卡智算叢集也宣告點亮等舉措,可視為其對開發者的焦慮、降低AI應用門檻的回應。百度智慧雲事業群總裁沈抖提出的“應用即系統”和對“系統級智慧基礎設施”的強調,也點明瞭方向:必須將硬體、軟體、平臺、網路等作為一個有機整體進行深度協同最佳化,才能最大化整體效能。
極具吸引力的降價策略,背後需要堅實的技術支撐。百度智慧雲百舸AI異構計算平臺在此次以“模型的世界,應用的天下 (Models lead, APPs rule)”為主題的大會上展示的變化,正是為了打通從“模型引領”到“應用為王”的鏈路。

1
AI時代的“基礎設施之困”
當聚光燈打在層出不窮的AI應用上時,舞臺之下,支撐這一切的基礎設施正承受著前所未有的壓力。大模型驅動的AI浪潮,不僅是演算法和資料的勝利,更是對計算、儲存、網路等底層能力的極限拓展。過去那種簡單堆砌硬體、各環節獨立最佳化的方式,在動輒千億、萬億引數的模型和即時響應的應用需求面前,顯得捉襟見肘。這正是“系統級”思維變得如此重要的原因。
首先遇到的就是規模與異構的考驗。訓練一個領先的大模型,往往需要動用成千上萬塊GPU或NPU,進行長達數週甚至數月的持續計算。這不僅是對算力“量”的需求,更是對“質”的要求。不同的計算任務(如訓練、精調、推理)可能需要不同型別的處理器(CPU、GPU、NPU等)協同工作,即所謂的“異構計算”。如何高效地管理、排程這些海量且多樣化的算力資源,使其像一個整體而非一盤散沙般運作,本身就是一道複雜的工程難題。
隨之而來的是訓練過程中的穩定性與效率難題。萬卡級別的分散式訓練,就像一次超長距離的精密接力賽,任何一個環節(單卡故障、網路抖動、軟體Bug)的微小失誤,都可能導致訓練中斷,前功盡棄,造成巨大的時間和成本損失。
當模型訓練完成,推理部署環節的壓力依舊不少,甚至更為直接地影響使用者體驗和商業可行性。AI應用需要快速響應使用者請求(低延遲),同時服務大量併發使用者(高吞吐),並且還要儘可能控制成本(高資源利用率)。這三者往往相互掣肘。特別是隨著MoE(Mixture of Experts)等更復雜模型結構的出現,推理過程對資源的排程和最佳化提出了更高的要求。如何用更少的資源、更低的成本支撐更大規模、更高質量的推理服務,直接關係到AI應用能否真正“落地生根”。
最後,敏捷迭代與生態相容也是不容忽視的一環。AI技術日新月異,企業需要能夠快速試驗新模型、調整策略、整合最新的開源成果。一個僵化、封閉、難以擴充套件的基礎設施,會嚴重拖慢創新的步伐。
這些難題並非孤立存在,而是相互交織、彼此影響。單一環節的瓶頸,比如網路效能不足,會同時影響訓練效率和推理延遲;資源排程不靈活,則會拉低整體利用率和迭代速度。因此,僅僅追求單點技術的領先已經不夠,必須從“系統”的視角出發,將算力、儲存、網路、排程軟體、AI框架、乃至運維管理作為一個整體進行通盤考慮和協同最佳化。這恰恰印證了沈抖“應用即系統”的觀點——只有系統級的智慧基礎設施,才能應對AI時代的複雜性。
要構建這樣的系統級基礎設施,需要從模型開發、應用編排到算力底座的全棧協同。在百度智慧雲的體系中,千帆平臺承擔了模型與應用層面的關鍵角色,而驅動這一切高效執行的,則離不開強大的AI算力引擎—-這便是百舸AI異構計算平臺發揮核心作用的地方。

1
不止於算力
具體來看,百舸AI異構計算平臺實際上並非一個新概念,而是支撐百度自身包括百度文庫、百度網盤在內所有核心業務AI能力執行的算力底座,如今也作為企業級的一站式AI工程平臺,服務於廣泛的行業客戶。百舸的設計理念,從一開始就帶有強烈的“系統工程”色彩,試圖解決的正是單點最佳化無法克服的全域性性問題。
要理解百舸,可以從它的幾個核心能力標籤入手,這些標籤也恰好回應了AI基礎設施的需求:
大規模 (Scale): AI的發展需要海量算力支撐。百舸平臺具備支援構建和管理十萬卡級別超大規模計算叢集的能力,就像一座能容納海量知識、並有無數閱覽室供萬人同時研究的超級圖書館。這不僅意味著理論上的承載力,更在實踐中得到驗證——例如近期點亮的3萬卡崑崙芯P800叢集,足以並行支援多個千億引數大模型的全量訓練,或同時滿足上千個客戶的百億模型精調需求。這種規模化能力是探索模型能力邊界的基礎。
穩定 (Stability): 對於動輒需要執行數週的AI訓練任務而言,穩定性壓倒一切。這就像一場不能中斷的超長馬拉松,百舸透過軟硬體協同最佳化,據稱可實現高達99.5%的有效訓練時長,意味著“選手”幾乎全程在跑,極少因意外停頓。同時,分鐘級的故障恢復能力,則像是賽道旁隨時待命的“急救隊”,一旦出現問題能迅速處理,讓“比賽”繼續,避免整個訓練任務前功盡棄。
極速 (Speed): 在推理應用端,速度就是生命線。百舸最佳化後的推理響應速度達到5us(微秒)量級,快到什麼程度?大約比你眨眼快數萬倍,實現了即時的互動體驗。同時,其HPN高效能網路架構,如同為資料傳輸構建了沒有紅綠燈的超寬高速公路網,確保在大規模叢集內部,海量資料在不同計算節點間暢行無阻,這對訓練加速和需要頻繁“交流”的複雜模型(如MoE)至關重要。
高效 (Efficiency): 算力不僅要夠用、穩定、快速,還要用得“划算”。百舸平臺就像一個精明的“算力大管家”,透過精細化的資源排程、GPU虛擬化(把一張大計算卡“隔成”幾張小的獨立使用)、彈性混部(分時複用資源)等技術,努力確保每一份計算資源都物盡其用,不閒置。這是降低AI使用成本、推動應用普及的關鍵。
更重要的是,百舸並非僅僅是這些能力的簡單疊加,而是將它們系統性地融合在一個平臺之上。它不像攢機,買一堆零件組裝起來就完事,那可能會遇到各種相容和瓶頸問題。百舸更像是蘋果設計iPhone或Mac的思路,從晶片(支援異構)、作業系統(資源管理與排程)到應用商店(AI工程工具鏈、儲存、網路等),都進行了深度整合與最佳化,提供的是一個高度協同、開箱即用的整體解決方案。
可以說,百舸平臺本身就是對“系統級智慧基礎設施”理念的實踐。它試圖構建一個強大、可靠且具備彈性的“AI引擎”,讓開發者和企業能更專注於上層的模型創新和應用落地,而不必過度陷入底層基礎設施的複雜泥潭。但面對AI技術和應用需求的飛速演進,這樣的底座也需要不斷進化。在Creat 2025大會上,百舸也宣佈了最新的升級。

1
更“密”的硬體,更“省”的推理
在Create 2025大會上,圍繞著提升AI基礎設施的效率與密度,百度智慧雲展示了引人關注的硬體創新與平臺最佳化,這兩者都與百舸平臺的能力息息相關。
硬體層面的一個重要突破,被稱為“崑崙芯超節點” 。簡單來說,就是把64張百度自研的P800 AI加速卡塞進了一個機櫃。這樣做主要是為了解決傳統多機櫃方案裡,機器之間通訊效率不高、成本也高的問題。透過讓卡在機櫃內部直接高速溝通,根據百度公佈的資料,卡之間的互聯頻寬提了8倍,單卡訓練效能高了10倍,推理效能則高了13倍。同時,把這麼多算力塞一個櫃子裡,顯然也更省地方了,百度甚至有個說法是“一櫃頂百臺機器”。
而在百舸平臺內部,針對大模型推理的系統最佳化是大規模分散式PD分離推理系統。這個系統把推理過程拆分成處理輸入(Prompt)和生成內容(Token)兩個不同特點的階段,然後為這兩個階段匹配更合適的計算資源,並進行精細的排程管理(比如動態調整資源比例、Token級別的負載均衡等)。
聽起來複雜,但效果很直接,百度資料顯示,這套系統能把推理成本降低95%,能同時處理的請求數量(吞吐量)增加20倍。這正好印證了沈抖之前提的“未來推理降本很重要”的看法。對需要大量跑推理服務的企業來說,這套系統能省下不少錢開支。
硬體層面的崑崙芯超節點與百舸的PD分離系統最佳化,分別從密度和效率兩個維度,顯著提升了AI算力基礎設施的能力和經濟性,讓百舸在提供AI算力時,無論效能還是經濟性上,都往前走了一步。

1
深入“行業場”
技術的迭代最終要看實效。百舸平臺已經在不少行業合作中顯現出價值。一個常被多次提及的案例是中國鋼研
面對鋼鐵質檢(如金相分析、表面缺陷檢測)中人力成本高、效率低的問題,中鋼研與百度智慧雲合作,基於崑崙芯和百舸搭建專屬智算平臺,並在千帆大模型平臺上結合自身資料訓練行業和專用模型,最終開發出能自動完成檢測並生成報告的應用。這套算力、平臺、模型、應用一體化的系統級方案,幫助鋼研實現了產線提效超50%,質檢人力節省超40%,關鍵指標準確率也達到95%以上。
類似的系統級能力也在其他領域落地。民生銀行利用千帆平臺和百舸算力進行大模型管理和應用開發,其“文心快碼”等工具直接提升了研發效率,預估全面推廣能年省兩成以上人力成本。前沿探索方面,北京人形機器人創新中心研發“天工”機器人及其背後的具身智慧平臺,其複雜的模型訓練和推理就跑在百度百舸提供的穩定算力之上。

同時,百舸的技術升級也在自身業務和合作夥伴處得到驗證。百度智慧雲千帆平臺正是利用了百舸的PD分離推理最佳化,才得以大幅降低DeepSeek等模型的服務成本,提升了吞吐和速度。招商銀行則與百度智慧雲合作,成功部署了基於崑崙芯P800的大規模國產晶片叢集,驗證了其在金融場景下的穩定性和效能。而像好未來這樣的公司,則透過百舸的資源排程能力,提升了叢集資源利用率超過10%。
從重工業到金融,從前沿科研到網際網路服務和教育,這些覆蓋不同行業、不同規模企業的案例表明,百舸平臺及其系統級能力正實實在在地幫助使用者解決AI落地中的實際問題,無論是大規模訓練、高效率推理、降低成本,還是擁抱國產化方案。這也顯現了百舸的適用性,能支撐大企業的海量需求,也能滿足創企的多樣化需要。
1
AI的下一站
AI競賽已從單純的模型層面的比拼,轉向應用落地和價值創造的深水區。這場轉變中,底層基礎設施的角色正從提供算力,演變為支撐複雜AI系統高效執行的“智慧底座”。
未來,一個AI-Ready的基礎設施,將不再僅僅是峰值算力或單點效能,而是其整體的系統效率、成本效益以及支撐應用快速迭代和創新的能力。具備軟硬協同、全棧最佳化能力的平臺無疑將更具競爭力。而最終的角力場,將是看誰能更好地幫助開發者跨越技術鴻溝,真正在千行百業的“行業場”中,用AI創造出實實在在的價值,這或許才是通往“應用的天下”的真正路徑。
正如溫斯頓·丘吉爾關於建築的洞察:“我們塑造了建築,而後建築塑造了我們。”今日這些構建AI基礎設施的嘗試,不僅將承載未來的應用,更將深刻塑造未來AI應用的面貌和可能性的邊界。

點個愛心,再走


相關文章