從資料中心看GB200NVL72價效比

提醒:請之前購買過全店打包架構師技術全店資料打包彙總(全)”的讀者,請憑藉購買記錄在微店留言免費獲取更新(傳送更新打包連結),後續所有更新均免費發放目前44本資料
獲取清單:
(持續更新中…)
資料中心網路知識全解(PPT)
人工智慧基礎知識全解(含實踐)
CPU基礎知識全解(PPT)
GPU基礎知識全解(PPT)
從提供雲服務的CSP廠商的角度來講,考慮整體集群系統的計算效率、能耗關係,因此對產品和解決方案能否提供更好的TCO(總體擁有成本;Total Cost of OwnershipTCO=一次性硬體投入CapEx+營運成本Opex)較為關注。
TCO可結合算力租賃價格和利用率等因素,計算得出的ROI(投資回報率,Return on InvestmentROI=(營收 – TCOTCO)。
CSP等廠商角度看,TCOROI表現如何是CSP等廠商考慮是否建設資料中心新叢集和建設叢集大小的重要考慮因素。覆盤英偉達的產品升級思路來看,公司產品系列從單GPU晶片效能升級到推出系統級解決方案平臺,產品線也在朝著為客戶降低資料中心的TCO的角度而升級。
英偉達產品和解決方案預計比競爭對手GPU帶來更好TCO當前資料中心面臨不同廠商供應的GPU選擇、同GPU廠商之間不同代際以及不同產品形式(如8卡伺服器和Rack方案)的多種選擇。GPU廠商之間的競爭已經從在單卡能力上的競爭升級為對AI集群系統的算力、網路通訊能力以及能耗效率的提升。
TCO視角下,GB200 提升資料中心價效比
GB200 NVL72有利於降低AI叢集功耗和TCO液冷GB200 NVL72機架可減少資料中心的碳足跡和能源消耗。液冷增加了計算密度,減少了佔地面積,並促進了與大型NVLink域架構的高頻寬、低延遲GPU通訊。根據Nvidia Blackwell白皮書,與同規模H100相比,GB200 NVL72的成本和能耗最多可降低25倍。
過去,訓練一個1.8萬億引數的模型,需要8000Hopper GPU15MW的電力,在2萬個BlackwellGPU(使用GB200 NVL72,約278Rack)就能完成這項工作,耗電量僅為4MW,即約為原有功耗的1/4
伺服器製造等級按整合度從低到高可分為Level 1-Level 1212個等級。根據AMAX定義,伺服器製造等級從Level 1(零部件製造,包括未塗漆的零部件和一體成型的零部件)Level 6(將主機板整合到機箱外殼中並進行上電測試。整合主機板/機箱組合,包括零件,但缺少 CPU、記憶體、硬碟驅動器、網絡卡等元件)再到L9 (將 CPU和記憶體整合到具有測試功能的伺服器準系統中),再到整機制造Level 10
Level 10級別指ODM廠商需要完成伺服器的組裝,完整的系統和元件級測試,配有作業系統/軟體整合,並作為完整伺服器解決方案交付。此前通用伺服器產業鏈的交付形式多為L6L10;最高等級的Level 12指多機架(Rack)等級的整合,包括完整的軟體和網路功能測試、驗證和最佳化。大部分伺服器ODM企業一般提供從Level 1-Level 10的製造能力,少部分伺服器ODM企業可提供Level 11(單個機架)甚至Level 12的產品和服務
GB200按照整機櫃形式出貨對ODM廠商提出更高要求。英偉達釋出GB200NVL機櫃級解決方案,相比傳統的八卡單伺服器方案,機櫃級方案在基於NVLinkScale-Up、系統級最佳化,降低TCO和能耗水平等方面優勢更為明顯。英偉達作為AI資料中心方案的領導者和定義者之一,推動者機櫃級解決方案成為AI應用的主流形式之一。
GB200NVL時代,我們預計雲服務商、NCP、品牌商等客戶會直接下伺服器訂單,出貨則以整機的形式來進行。在這種情況下,擁有提供整體解決方案的能力成為了ODM廠商獲取訂單的關鍵能力之一。
此外,由於單機櫃的價值量遠高於此前的八卡DGX/HGX形式的伺服器價值量,在buy and sell模式下,承接Rack需要撬動的資金規模更大,對ODM廠商的現金流合營運能力提出了更高的要求,因此規模越大、營運能力越強的廠商越具有優勢。
免責申明:本號聚焦相關技術分享,內容觀點不代表本號立場,可追溯內容均註明來源,釋出文章若存在版權等問題,請留言聯絡刪除,謝謝。
推薦閱讀
更多架構相關技術知識總結請參考“架構師全店鋪技術資料打包(全)”相關電子書(44本技術資料打包彙總詳情可透過“閱讀原文”獲取)。
溫馨提示:
掃描二維碼關注公眾號,點選閱讀原文連結獲取架構師技術全店資料打包彙總(全)電子書資料詳情



相關文章