GPU叢集怎麼連?談談熱門的超節點

👆如果您希望可以時常見面,歡迎標星🌟收藏哦~
人工智慧(AI)的浪潮正以前所未有的速度重塑各行各業,其背後離不開海量算力的支撐。當AI模型引數從億級躍升至萬億級,傳統伺服器已難以滿足日益增長的算力需求與效率要求。為了打破這個瓶頸,一個全新的概念應運而生——超節點 (Super Node)。
不止於“大”:什麼是超節點伺服器?
簡單來說,超節點伺服器就是大量高速計算晶片的高效統一結構,面對AI算力大潮的最優解。它並非計算硬體的簡單堆砌,而是將海量的計算單元(CPU/GPU/TPU等)以前所未有的密度和效率整合在一起,專門為應對人工智慧任務帶來的龐大算力需求而生。
AI算力需求大幅增長,帶動AI智算中心需求增長 
來源:麥肯錫
傳統AI伺服器雖然也集成了CPU、GPU等部件,但當AI模型引數動輒千億、訓練資料浩如煙海時,單個GPU的視訊記憶體和算力就如同杯水車薪。模型並行(將一個大模型拆分給多個GPU協同處理)成為必然選擇。但問題來了:參與模型並行的伺服器之間需要進行海量、高速的資料交換,伺服器間的乙太網/InfiniBand網路頻寬不足,往往成為“資訊高速公路”上的堵點。
AI超節點的核心使命,正是要解決這個問題。它的顯著特徵在於:
1.極致的計算密度:在有限的空間內塞入儘可能多的算力和視訊記憶體容量
2.強大的內部互聯:採用NVLink等高速傳輸技術,讓節點內的GPU之間能夠“融為一體”,以最快的速度互相通訊。
3. 為AI負載深度最佳化:從硬體到軟體,都為發揮AI訓練和推理的最佳效能而設計。
超節點的“進化史”:從密度到智慧
超節點的概念並非憑空出現。早期,資料中心就在追求更高的伺服器密度以節省成本,例如刀鋒伺服器和整機櫃伺服器(谷歌在1999年就定製了“軟木板伺服器”,堪稱早期整機櫃的雛形)。但這些早期嘗試主要關注的是資源池化和空間效率,與今天的超節點在設計理念上有本質區別。
1999年, Google定製的"corkboard server"可能是網際網路行業最早的整機櫃伺服器。 
來源:X @Google Cloud
真正的轉折點在於GPU的崛起。最初為遊戲圖形渲染而生的GPU,其強大的平行計算能力被發現是通用計算(GPGPU)的利器,尤其契合AI演算法的需求。當Transformer這樣的大型神經網路模型橫空出世,對算力和視訊記憶體的需求呈爆炸式增長時,單個GPU甚至單個伺服器都難以招架。這時,不僅需要GPU內部的強大算力,更需要GPU之間、伺服器之間的超高速互聯來降低平行計算的開銷,將大量GPU融為一體,共同承擔訓練和推理任務。
於是,像NVIDIA的NVLink這樣的“內部高速專線”技術應運而生,它直接在GPU之間搭建起超寬車道。基於此,NVIDIA的DGX/HGX系列產品,將多顆GPU、CPU、高速記憶體、NVLink/NVSwitch等高度整合在一個最佳化設計的機箱內,這便可以看作一個典型的8卡“超節點”單元。
英偉達DGX H100系統內,8張GPU能透過NVSwitch兩兩互相通訊
來源:英偉達
超節點的“殺手鐧”:
為什麼它是AI時代的必然選擇?
AI大模型的發展遵循著規模定律(Scaling Law):更大的模型規模、更多的訓練資料,直接帶來更強的智慧和效能。這意味著,對算力和視訊記憶體的需求將持續指數級增長。同時,處理更長的資訊序列(Sequence Length)也是AI提升記憶和處理複雜能力的關鍵,這同樣會急劇增加對算力,特別是視訊記憶體的需求。
訓練模型需要的算力不斷增長 
來源:2025斯坦福AI報告
長序列帶來的準確率收益以及視訊記憶體需求
來源:Cerebras Systems
然而,提升叢集算力面臨幾大障礙:
1.“記憶體牆”:晶片通訊速度的增長跟不上晶片算力的增長,GPU核心沒有足夠的資料用於計算就只能乾等著,這就是“記憶體牆”問題。有時新一代晶片的實際有效算力(HFU, Hardware FLOPS Utilization)甚至因為資料喂不飽而不如上一代。
2.“規模牆”:透過簡單堆疊伺服器(Scale out)來擴大叢集規模,當叢集達到一定程度後,全域性批處理大小(GBS)不能無限增加,伺服器間的通訊開銷會抵消算力增加的收益,導致硬體有效算力不升反降。
3.“通訊牆”:大模型並行(如張量並行或MoE模型的專家並行)會在GPU間產生巨量的通訊,這部分通訊很難與計算過程並行處理(簡單來說就是讓計算、通訊任務同時進行,節省時間)。如果使用伺服器間的低速網路通訊,頻寬瓶頸會嚴重拖累效率。
為了突破這些瓶頸,業界將目光投向了“縱向擴充套件”(Scale-Up),致力於構建更大的超大頻寬域 (HBD,High Bandwidth Domain)。在這個網路內的GPU,彼此間的通訊頻寬遠超普通網路。當AI模型需要多個GPU協同工作時(即模型並行),如果這些GPU都在同一個HBD內,它們就能像一個配合默契的團隊一樣高效溝通,大大減少資料傳輸的延遲。目前,典型的HBD通常侷限在單臺8GPU伺服器內。但隨著模型越來越大、序列越來越長,這種規模的HBD也開始捉襟見肘。
因此,構建擁有更多GPU的、更大的HBD,即“超節點”,成為了提升AI叢集整體戰鬥力的關鍵。
超節點的優勢,不僅僅是“快”:更優的部署、供電與冷卻方案
1.更優的部署與運維效率 -> 成本節約:
  • 供電:傳統伺服器各自配冗餘電源,資源利用率不高。超節點將電源集中管理,用更少的冗餘部件覆蓋整個機櫃,還能用上效率更高的大功率電源模組。
  • 散熱:高密度排列允許使用大型風扇牆或先進液冷系統,對整個機櫃進行高效散熱。大風扇比小風扇在同等風量下更節能。
  • 管理:更為先進的高整合度、模組化設計降低了運維難度。
2. 更低的能耗與更高的能效 -> 運營成本降低:
  • 雖然超節點是“耗電巨獸”,發熱量驚人,但其PUE(資料中心總能耗/IT裝置能耗,越接近1越好)反而可能更低。奧秘在於其不得不採用的液體冷卻技術。液體的高傳熱效率使液冷技術遠勝傳統風冷,儘管初期投資較高,但長期運營的能效優勢顯著。對於資料中心這類重資產投資,更低的PUE意味著更低的運營成本和更高的投資回報率。
左側:單個伺服器使用的小風扇 
右側:超節點的大風扇牆
來源:HP、2CRSI
左側:單節點伺服器需要多個小電源模組 
右側:超節點的整合式大功率電源模組 
來源:海韻、臺達
前進路上的“三座大山”:
超節點面臨的技術挑戰
儘管超節點威力無窮,但要駕馭這頭“算力巨獸”,還需克服幾大技術挑戰:
1. 供電系統:如何餵飽“吞電獸”?傳統伺服器機櫃功耗通常在幾千瓦,而AI超節點機櫃功耗可達100千瓦甚至更高!單個包含2CPU+4GPU的AI機架的功耗可達相同體積傳統伺服器機架的數倍乃至數十倍。如此巨大的功耗,對供電系統提出了嚴峻考驗。我們知道功率 P=UI。要提升功率,要麼升電壓,要麼增電流。但電流過大會導致線材發熱嚴重(Q ∝ I²R),甚至引發安全問題。因此,提升輸入電壓(例如從傳統的48V向400/800V甚至更高電壓演進)和最佳化配電架構成為必然。電力成本佔資料中心運營成本的30-50%,超節點的出現只會增加這一比重。因此,任何能夠提升供電效率、減少損耗的技術,都具有巨大的商業價值。
2.冷卻系統:給“發燒”的晶片降溫晶片功率密度持續攀升,當單晶片TDP(熱設計功耗)超過數百瓦,甚至上千瓦時,傳統空氣冷卻已獨木難支。風冷在應對單機櫃30kW以上高熱密度時就已捉襟見肘,而超節點機櫃奔著100kW+去了。液體冷卻(液冷)因其卓越的散熱效率,成為下一代超節點的標配。無論是冷板式液冷還是浸沒式液冷,都能輕鬆應對超高熱密度。高效的冷卻不僅能保證晶片不因過熱而降頻(效能下降),還能延長硬體壽命,降低故障率。液冷技術雖然初始投資不菲,但其帶來的PUE改善和對更高功率密度的支援,使其成為未來資料中心的主流。
3. 網路系統:構建暢通無阻的“資料動脈”在超節點內部,GPU間能透過NVLink等技術高速互聯,但互聯的物理介質也需權衡:銅纜便宜、功耗低,但傳輸距離受限;光纜成本高、功耗稍大。而在超節點之間,以及超節點與儲存、外部網路之間,依然需要高速、低延遲的互聯技術。InfiniBand和高速乙太網是目前主流的選擇。如何設計高效的叢集網路拓撲,避免通訊瓶頸,是一門複雜的藝術。
群雄逐鹿:超節點技術現狀
主流技術趨勢概覽:
  • 供電:在機櫃間,技術趨勢是將伺服器電源集中到機櫃級,採用更高效率的集中供電單元,減少冗餘,降低成本。在機櫃內部,目前的超節點系統(如GB200 NVL72)使用48V直流母線槽(Busbar)取代傳統的12V供電。更高的電壓能減少轉換損耗,同時簡化設計。對供電系統的功耗、效率、溫度、備電狀態等引數進行精細化監控和管理也是重要趨勢。
  • 冷卻:直觸液冷(Direct Liquid Cooling, DLC),特別是冷板式液冷,是超高功率密度AI超節點使用的主流技術。它將冷卻液直接送到CPU、GPU等發熱大戶,散熱效率遠超風冷。後門熱交換器(RDHx)作為風冷資料中心向液冷方案轉型的過渡方案,也有較多應用。
  • 節點間網路互聯:InfiniBand憑藉其低延遲、高頻寬特性,又背靠NVIDIA的深厚軟硬體技術壁壘,長期是AI領域通訊方案的首選。以RoCE(RDMA over Converged Ethernet)為代表的高速乙太網憑藉其廣泛的生態系統和不斷提升的效能,也是AI領域的重要選擇。
巨頭們的“超節點答卷”:
英偉達 GB200 NVL72:行業風向標
  • 在一個液冷機櫃內,GB200 NVL72透過NVLink將36個Grace CPU和72個Blackwell GPU緊密整合,形成一個邏輯上的“巨型GPU”,擁有高達130TB/s的GPU間總頻寬和海量統一視訊記憶體。
  • NVIDIA憑藉其強大的硬體和CUDA生態,幾乎定義了AI超節點的遊戲規則。GB200 NVL72不僅是技術的集大成者,更是市場風向標。其極高的整合度和計算密度,以及在能效上的突破,使其成為構建頂級AI基礎設施的首選。
英偉達 GB200 NVL72 
來源:英偉達
華為 CloudMatrix 384:“大力出奇跡”與自主可控
  • CM384由384個昇騰910C 晶片構成,橫跨16個機櫃(12個計算櫃,4個網路櫃),採用全光互連的All-to-All網路。
  • CloudMatrix 384代表了在當前地緣政治背景下,追求算力自主可控的戰略選擇。其設計思路是在單晶片效能可能存在差距時,透過“大力出奇跡”式的晶片規模,配合先進的系統級互聯,來實現具有國際競爭力的整體系統效能。當然,“大力出奇跡”也有代價,就是整個系統的功耗遠高於GB200 NVL72。
華為 CloudMatrix 384 
來源:華為
決勝未來:超節點的技術演進方向
超節點的技術仍在飛速發展,以下幾個方向預示著未來的變革,也孕育著新的投資機遇:
1. 直流高壓輸電 (HVDC):為資料中心“心臟”注入強勁動力
資料中心內部供電正從傳統交流(AC)向400V/800V甚至更高電壓的直流(DC)轉變。市電以高壓交流電形式引入資料中心,需經變壓器降壓至適合使用的低壓。傳統UPS系統需多次進行AC-DC-AC轉換,而HVDC方案透過高壓輸電省去一次交直流轉換,市電經AC/DC整流直接輸出240V直流電,減少轉換損耗,顯著提升供電效率,直接降低電力成本。
2. 下一代液冷方案:與熱量的終極較量
隨著晶片功耗密度不斷重新整理上限,對冷卻技術的要求也水漲船高。除了主流的冷板式液冷,更前沿的方案正在湧現:
  • 微流控冷卻:在晶片表面蝕刻微通道,讓冷卻液直接流過熱源,實現極致的散熱效率和溫控精度。挑戰在於製造成本和微通道的可靠性。
  • 相變液冷:利用冷卻液在受熱時從液態變為氣態吸收大量潛熱的原理散熱。包括兩相浸沒式和直接到晶片的兩相系統。傳熱係數極高,但系統管理複雜。
  • 浸沒式液冷:將整個伺服器或發熱部件完全浸泡在不導電的冷卻液中。分為單相(液體不相變)和兩相(液體相變)兩種。散熱能力極強,能支援高密度節點部署,還能起到防塵防溼的作用。缺點在於浸沒式冷卻方案使用的冷卻液較為昂貴,設施改造投入大,並且維護流程較為複雜。
HVDC供電系統示意圖
來源:NTT Group
浸沒式液冷示意圖 
來源:Green Revolution Cooling
3. CPO光互聯 (Co-Packaged Optics):光聯萬物,突破I/O瓶頸
  • 隨著晶片算力飆升,晶片與晶片之間、晶片與網路之間的資料傳輸速率(I/O)成為新的瓶頸。CPO技術將光模組儘可能地靠近(甚至整合到)CPU/GPU/交換晶片的封裝內部,用光互連取代部分電互連。
  • CPO能提供超高的頻寬密度、更低的I/O功耗和更短的延遲。這不僅能提升現有系統效能,更有可能催生全新的系統架構,如資源解耦(計算、記憶體、儲存資源池化並透過高速光路互聯)。
  • 儘管CPO旨在降低I/O功耗,但光學元件本身也會發熱,並且有著敏感的工作溫度要求。將它們放置在已經非常熱的計算晶片附近,會產生複雜的熱管理挑戰。
Spectrum-X/Quantum-X交換機晶片 
來源:英偉達
結語
超節點不僅僅是一項技術革新,更是AI時代驅動算力飛躍的核心引擎。它不僅僅是更大、更強的伺服器,更是一系列尖端技術(高階晶片、高速互聯、先進製冷、高效供電)的集大成者,代表了AI資料中心架構的未來發展方向。
作為超節點領域的探索者,魔形智慧憑藉深厚的技術積累,為客戶打造領先的AI算力基礎設施。我們致力於與業界夥伴共同推動超節點技術的創新與應用,賦能千行百業的智慧化轉型。
END
👇半導體精品公眾號推薦👇
▲點選上方名片即可關注
專注半導體領域更多原創內容
▲點選上方名片即可關注
關注全球半導體產業動向與趨勢
*免責宣告:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察轉載僅為了傳達一種不同的觀點,不代表半導體行業觀察對該觀點贊同或支援,如果有任何異議,歡迎聯絡半導體行業觀察。
今天是《半導體行業觀察》為您分享的第4039期內容,歡迎關注。
推薦閱讀
『半導體第一垂直媒體』
即時 專業 原創 深度
公眾號ID:icbank 
喜歡我們的內容就點“在看”分享給小夥伴哦


相關文章