

獲取清單:
(持續更新中…)
資料中心網路知識全解(PPT)
人工智慧基礎知識全解(含實踐)
CPU基礎知識全解(PPT)
GPU基礎知識全解(PPT)
在 GB200 和 B200 釋出僅 6 個月後,英偉達又推出了一款全新的 GPU,名為 GB300 和 B300。這次看似常規升級的背後,實則暗藏玄機。
B300 GPU 是基於臺積電 4奈米工藝節點的全新流片,對計算晶片進行了最佳化設計。相比於B200,其效能的提升主要在以下兩個方面:
-
算力:FLOPS效能提升50%;功耗增加200W(GB300和B300 HGX的TDP分別達到1.4KW和1.2KW,前代則為1.2KW和1KW);架構改進和系統級增強,例如CPU和GPU之間的動態功率分配(power sloshing)。 -
記憶體:HBM容量增加50%,從192GB提升至288GB;堆疊方案從8層HBM3E升級為12層;針腳速率保持不變,頻寬仍為8TB/s。
記憶體的改進對於 OpenAI O3 這類大模型的訓練和推理至關重要,因為隨著序列長度的增加,KVCache也在增長,這限制了關鍵批處理大小和延遲。下圖展示了英偉達當前幾代 GPU 在處理 1k 輸入令牌和 19k 輸出令牌時的效能提升情況,這與OpenAI的o1和o3模型中的思維鏈(CoT)模式相似。

從 H100 到 H200,增加了更多、更快的記憶體:
-
由於記憶體頻寬的增加(H200為4.8TB/s,H100為3.35TB/s),在所有可比較的批處理大小下,互動性普遍提高了 43%。 -
由於 H200 可以執行更大的批處理大小,每秒生成的令牌數是H100的3倍,從而使成本降低了約3倍。這一差異主要是由於KV快取限制了總批處理大小。
更大的記憶體容量帶來的好處是顯著的:
-
推理模型的請求和響應等待時間過長會帶來糟糕的使用者體驗。如果可以提供更快的推理時間,將增加使用者使用和付費的傾向。 -
3 倍的成本差異是巨大的。 -
最強大和最具差異化的模型可以比能力稍差的模型收取更高的費用。前沿模型的毛利率超過 70%,而在面臨開源競爭的落後模型上,毛利率低於 20%。
當然,英偉達並不是唯一一家能夠增加記憶體容量的公司。ASIC 也可以做到這一點,事實上,AMD 可能處於有利地位,因為他們的記憶體容量比英偉達更高,比如MI300X 的記憶體容量為 192GB,MI325X 的記憶體容量為 256GB,MI350X 的記憶體容量為 288GB……不過,黃仁勳手上還握有NVLink 這一利器。
當我們轉向採用 GB200 NVL72 和 GB300 NVL72 的英偉達系統時,其效能和成本效益得到顯著提升。NVL72在推理應用中的核心價值在於,它能夠實現72個GPU以超低延遲協同作業,並共享記憶體資源。這也是全球唯一一款集全連線交換(all-to-all switched connectivity)與全規約運算(all reduce)能力於一身的加速器系統。
英偉達的 GB200 NVL72 和 GB300 NVL72 對實現許多關鍵功能至關重要:
-
更高的互動性使得每個思維鏈的延遲更低。 -
72 個 GPU 分散 KVCache,以實現更長的思維鏈,提高智慧。 -
與典型的 8 GPU 伺服器相比,批處理擴充套件性更好,降低了成本。 -
可以對同一問題進行更多樣本搜尋,以提高準確性和模型效能。
採用NVL72帶來的經濟效益提升了10倍以上,這一優勢在長推理鏈的應用場景中尤為顯著。此外,NVL72還是目前市場上唯一能夠在大批次處理下,將推理長度擴充套件到10萬以上令牌的解決方案。
對於 GB200,英偉達提供配備齊全的 Bianca 主機板,該主機板集成了Blackwell GPU、Grace CPU、512GB LPDDR5X記憶體以及整合在同一PCB上的電壓調節模組VRM。此外,還配套提供了交換機托盤和銅質背板。然而,隨著GB300的釋出,供應鏈結構及產品配置作出了重大調整。

對於 GB300,英偉達不再提供完整的 Bianca 主機板,而是提供搭載在“SXM Puck”模組上的 B300、BGA 封裝的 Grace CPU ,以及由美國初創企業Axiado提供的基板管理控制器(HMC)。
最終客戶將需要直接採購計算板上的其他元件,而第二級記憶體將從焊接式LPDDR5X改為可更換的LPCAMM模組,美光將成為這些模組的主要供應商。至於交換機托盤和銅質背板則保持不變,繼續由英偉達提供。

轉向 SXM Puck 為更多 OEM 和 ODM 廠商參與計算托盤製造打開了大門,以前只有緯創和富士康工業網際網路(FII)能夠製造 Bianca 計算板。這一轉變對緯創在ODM領域的業務造成了顯著影響,導致其Bianca主機板的市場份額大幅下降。相比之下,富士康工業網際網路透過獨家生產SXM Puck及其插座,成功彌補了Bianca主機板業務上的損失。英偉達目前正在積極尋找Puck和插座的其他供應商,但目前尚未有確定的新訂單落地。
另一個重大轉變是在電壓調節模組(VRM)方面。雖然 SXM Puck 上仍保留一些 VRM 元件,但大部分板載 VRM 還是由超大規模製造商/OEM 直接從 VRM 供應商處採購。
英偉達在 GB300 平臺上配備了 800G ConnectX-8 NIC,在 InfiniBand 和乙太網上提供兩倍的scale out頻寬。由於上市時間複雜性以及決定不在Bianca主機板上啟用PCIe Gen 6技術,英偉達前段時間取消了 GB200 的 ConnectX-8。
相較於上一代ConnectX-7,ConnectX-8具有多項顯著優勢,除了雙倍頻寬外,它還擁有 48 個 PCIe 通道(而非 32 個 PCIe 通道),從而支援空冷MGX B300A等創新性架構設計。此外,ConnectX-8 還支援 SpectrumX,而在之前的 400G 產品中,SpectrumX 需要藉助效率較低的Bluefield 3 DPU。
受GB200和GB300釋出延遲的影響,大量訂單轉向了英偉達價格更高的新一代GPU。近期,所有超大規模雲服務商均已決定採用GB300。這一決定的部分原因在於GB300提供了更高的FLOPS算力和更大的視訊記憶體容量,但同樣重要的是,客戶能夠享有更多的系統定製自主權。
由於上市時間緊迫以及機架、冷卻和供電密度方面的重大變化,超大規模雲服務商無法在伺服器層面對 GB200 做太多改動。因此,Meta不得不放棄從博通和英偉達多源採購網絡卡的希望,轉而完全依賴英偉達。同樣,谷歌也放棄了自家網絡卡,轉而採用英偉達的產品。
對於擁有數千人團隊、習慣於在CPU、網路直至螺絲和鈑金等各個環節都嚴格最佳化成本的超大規模雲服務商而言,這一情況著實難以接受。
最典型的例子是亞馬遜,由於其選擇了次優配置,導致總擁有成本(TCO)超出了參考設計的預期。具體來說,亞馬遜採用了PCIe交換機和效率較低的、需要風冷散熱的200G Elastic Fabric Adaptor NIC,這使得它無法像Meta、谷歌、微軟、甲骨文、xAI和Coreweave等公司那樣部署NVL72機架。由於亞馬遜的內部網絡卡方案,它不得不採用NVL36,由於背板和交換機元件的增加,使得每個GPU的成本更高。總的來說,受限於定製化的不足,亞馬遜的配置方案未能達到最優狀態。
GB300為超大規模雲服務商提供了定製主機板、冷卻系統等能力。這一靈活性使得亞馬遜能夠打造構建自己的定製主機板,將原先採用風冷的元件(例如Astera Labs PCIe交換機)整合到水冷系統中。隨著越來越多的元件轉向水冷設計,加之預計在2025年第三季度K2V6 400G網絡卡將實現大規模量產,亞馬遜有望重新採用NVL72架構,並顯著提升其TCO效率。
然而,超大規模雲服務商面臨著一個重大挑戰,即需要進行大量的設計、驗證和確認工作。這無疑是他們有史以來所設計的最為複雜的平臺之一(谷歌的TPU系統除外)。SemiAnalysis觀察到,由於設計進度相對滯後,微軟可能是最晚部署GB300的企業之一,他們在第四季度仍在採購GB200。
原文連結:
https://semianalysis.com/2024/12/25/nvidias-christmas-present-gb300-b300-reasoning-inference-amazon-memory-supply-chain/
來源:SDNLAB



免責申明:本號聚焦相關技術分享,內容觀點不代表本號立場,可追溯內容均註明來源,釋出文章若存在版權等問題,請留言聯絡刪除,謝謝。
推薦閱讀
更多架構相關技術知識總結請參考“架構師全店鋪技術資料打包(全)”相關電子書(44本技術資料打包彙總詳情可透過“閱讀原文”獲取)。
溫馨提示:
掃描二維碼關注公眾號,點選閱讀原文連結獲取“架構師技術全店資料打包彙總(全)”電子書資料詳情。

