這項技術,大幅提高AI處理器效率

👆如果您希望可以時常見面,歡迎標星🌟收藏哦~
來源:內容來自techspot,謝謝。
隨著人工智慧和高效能計算持續推動對更強大資料中心的需求,整個行業正面臨一個日益嚴峻的挑戰:如何在不消耗不可持續的能源和水資源的情況下,為日益密集的伺服器機架進行冷卻。傳統的空氣冷卻系統曾經足以應對早期的伺服器硬體,但如今在現代AI基礎設施帶來的強大熱負載面前已瀕臨極限。
這一轉變在英偉達的最新產品中表現得尤為明顯。該公司的GB200 NVL72和GB300 NVL72機架級系統在計算密度上實現了重大飛躍,每個機架內集成了數十個GPU和CPU,以滿足萬億引數AI模型和大規模推理任務的效能需求。
但這種效能水平也帶來了高昂代價。典型的資料中心機架功耗在7至20千瓦之間(高階GPU機架平均為40至60千瓦),而英偉達的新系統每個機架則需要120至140千瓦——是傳統架構功耗的七倍以上。
如此劇增的功率密度使得傳統的空氣冷卻方式對這種高效能叢集而言已完全不再適用。空氣根本無法足夠快地帶走熱量,特別是在機架日益緊湊的背景下。
為了解決這一問題,英偉達採用了直觸式液冷系統——冷卻液透過直接安裝在GPU和CPU等最熱部件上的冷板迴圈流動。這種方式的熱傳導效率遠高於空氣冷卻,使得實現更密集、更強大的配置成為可能。
與傳統蒸發式冷卻(需要大量水來冷卻空氣或水迴圈)不同,英偉達的方式使用了封閉迴路的液體冷卻系統。在這種系統中,冷卻液不斷迴圈,不發生蒸發,從而幾乎杜絕了水的損耗,大大提高了用水效率。
據英偉達稱,其液冷設計比傳統冷卻方法的能效高達25倍,用水效率更是高出300倍——這一主張在運營成本與環境可持續性方面具有重要意義。
這些系統背後的架構也十分複雜。冷卻液吸收的熱量透過機架級的液-液換熱器(即冷卻液分配單元,CDU)轉移到資料中心的整體冷卻系統中。
這些由CoolIT、Motivair等合作伙伴開發的CDU可以支援高達2兆瓦的冷卻容量,足以應對高密度機架產生的巨大熱負載。此外,溫水冷卻還減少了對機械式冷水機的依賴,進一步降低了能源消耗和用水量。
然而,向直觸式液冷系統的過渡也帶來了挑戰。傳統資料中心強調模組化和易維護性,採用熱插拔部件以便於快速維修。而全封閉液冷系統則使這一模式更為複雜,因為開啟密封迴圈更換伺服器或GPU會有損壞整個冷卻迴路的風險。
為緩解這些問題,直觸式系統採用了防滴漏的快速斷開接頭,在保障可維護性的同時降低洩漏風險。不過,大規模部署液冷系統通常仍需對資料中心的物理基礎設施進行大幅改造,前期投入顯著。
儘管存在這些障礙,英偉達基於Blackwell架構的系統所帶來的效能提升,仍使得運營商紛紛推進液冷改造。英偉達已與施耐德電氣合作開發參考架構,加速高密度液冷叢集的部署。這些設計集成了CDU與先進的熱管理系統,可支援每個機架高達132千瓦的負載。

參考連結

https://www.techspot.com/news/107680-closed-loop-liquid-cooling-powers-nvidia-push-greener.html
END
👇半導體精品公眾號推薦👇
▲點選上方名片即可關注
專注半導體領域更多原創內容
▲點選上方名片即可關注
關注全球半導體產業動向與趨勢
*免責宣告:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察轉載僅為了傳達一種不同的觀點,不代表半導體行業觀察對該觀點贊同或支援,如果有任何異議,歡迎聯絡半導體行業觀察。
今天是《半導體行業觀察》為您分享的第4015期內容,歡迎關注。
推薦閱讀
『半導體第一垂直媒體』
即時 專業 原創 深度
公眾號ID:icbank 
喜歡我們的內容就點“在看”分享給小夥伴哦


相關文章