高效能GPU伺服器架構分析(上篇)

請之前購買過全店打包架構師技術全店資料打包彙總(全)”的讀者,請憑藉購買記錄在微店留言免費獲取後續所有更新均免費發放目前44本資料
獲取清單:
……
資料中心網路知識全解(PPT)
人工智慧基礎知識全解(含實踐)
CPU基礎知識全解(PPT)
GPU基礎知識全解(PPT)
(持續更新中…)
在大規模模型訓練的領域中,構建高效能GPU伺服器的基礎架構通常依託於由單個伺服器搭載8塊GPU單元所組成的集群系統。這些伺服器內部配置瞭如A100、A800、H100或H800等高效能GPU型號,並且隨著技術發展,未來可能還會整合{4, 8} L40S等新型號GPU。下圖展示了一個典型的配備了8塊A100 GPU的伺服器內部GPU計算硬體連線拓撲結構示意圖。
本文將依據上述圖表,對GPU計算涉及的核心概念與相關術語進行深入剖析和解讀。

PCIe交換機晶片

在高效能GPU計算的領域內,關鍵元件如CPU、記憶體模組、NVMe儲存裝置、GPU以及網路介面卡等透過PCIe(外設部件互連標準)匯流排或專門設計的PCIe交換機晶片實現高效順暢的連線。歷經五代技術革新,目前最新的Gen5版本確保了裝置間極為高效的互連效能。這一持續演進充分彰顯了PCIe在構建高效能計算系統中的核心地位,顯著提升了資料傳輸速度,並有力地促進了現代計算叢集中各互聯裝置間的無縫協同工作。

NVLink概述

NVLink定義

NVLink是英偉達(NVIDIA)開發並推出的一種匯流排及其通訊協議。NVLink採用點對點結構、串列傳輸,用於中央處理器(CPU)與圖形處理器(GPU)之間的連線,也可用於多個圖形處理器之間的相互連線。與PCI Express不同,一個裝置可以包含多個NVLink,並且裝置之間採用網格網路而非中心集線器方式進行通訊。該協議於2014年3月首次釋出,採用專有的高速訊號互連技術(NVHS)。
該技術支援同一節點上GPU之間的全互聯,並經過多代演進,提高了高效能計算應用中的雙向頻寬效能。

NVLink的發展歷程:從NVLink 1.0到NVLink 4.0

NVLink技術在高效能GPU伺服器中的演進如下圖所示:

NVLink 1.0

  • 連線方式:採用4通道連線。
  • 總頻寬:實現高達160 GB/s的雙向總頻寬。
  • 用途:主要用於加速GPU之間的資料傳輸,提升協同計算效能。

NVLink 2.0

  • 連線方式:基於6通道連線。
  • 總頻寬:將雙向總頻寬提升至300 GB/s。
  • 效能提升:提供更高的資料傳輸速率,改善GPU間通訊效率。

NVLink 3.0

  • 連線方式:採用12通道連線。
  • 總頻寬:達到雙向總頻寬600 GB/s。
  • 新增特性:引入新技術和協議,提高通訊頻寬和效率。

NVLink 4.0

  • 連線方式:使用18通道連線。
  • 總頻寬:進一步增加至雙向總頻寬900 GB/s。
  • 效能改進:透過增加通道數量,NVLink 4.0能更好地滿足高效能計算和人工智慧應用對更大頻寬的需求。
NVLink 1.0、2.0、3.0和4.0之間的關鍵區別主要在於連線通道數目的增加、所支援的總頻寬以及由此帶來的效能改進。隨著版本迭代,NVLink不斷最佳化GPU間的資料傳輸能力,以適應日益複雜且要求嚴苛的應用場景。

NVSwitch

NVSwitch是NVIDIA專為滿足高效能計算和人工智慧應用需求而研發的一款交換晶片,其核心作用在於實現同一主機內部多顆GPU之間的高速、低延遲通訊。
下圖呈現了一臺典型配置8塊A100 GPU的主機硬體連線拓撲結構。
下圖展示的是浪潮NF5488A5 NVIDIA HGX A100 8 GPU組裝側檢視。在該圖中,我們可以清楚地看到,在右側六個大型散熱器下方隱蔽著一塊NVSwitch晶片,它緊密圍繞並服務於周圍的八片A100 GPU,以確保GPU間的高效資料傳輸。

NVLink交換機

NVLink交換機是一種由NVIDIA專為在分散式計算環境中的不同主機間實現GPU裝置間高效能通訊而設計製造的獨立交換裝置。不同於集成於單個主機內部GPU模組上的NVSwitch,NVLink交換機旨在解決跨主機連線問題。可能有人會混淆NVLink交換機和NVSwitch的概念,但實際上早期提及的“NVLink交換機”是指安裝在GPU模組上的切換晶片。直至2022年,NVIDIA將此晶片技術發展為一款獨立型交換機產品,並正式命名為NVLink交換機。

HBM(高頻寬記憶體)

傳統上,GPU記憶體與常見的DDR(雙倍資料速率)記憶體相似,透過物理插槽插入主機板並透過PCIe介面與CPU或GPU進行連線。然而,這種配置在PCIe匯流排中造成了頻寬瓶頸,其中Gen4版本提供64GB/s的頻寬,Gen5版本則將其提升至128GB/s。
為了突破這一限制,包括但不限於NVIDIA在內的多家GPU製造商採取了創新手段,即將多個DDR晶片堆疊整合,形成了所謂的高頻寬記憶體(HBM)。例如,在探討H100時所展現的設計,GPU直接與其搭載的HBM記憶體相連,無需再經過PCIe交換晶片,從而極大地提高了資料傳輸速度,理論上可實現顯著的數量級效能提升。因此,“高頻寬記憶體”(HBM)這一術語精準地描述了這種先進的記憶體架構。

HBM的發展歷程:從HBM1到HBM3e

頻寬單位解析

在大規模GPU計算訓練領域,系統性能與資料傳輸速度密切相關,涉及到的關鍵通道包括PCIe頻寬、記憶體頻寬、NVLink頻寬、HBM頻寬以及網路頻寬等。在衡量這些不同的資料傳輸速率時,需注意使用的頻寬單位有所不同。
在網路通訊場景下,資料速率通常以每秒位元數(bit/s)表示,且為了區分發送(TX)和接收(RX),常採用單向傳輸速率來衡量。而在諸如PCIe、記憶體、NVLink及HBM等其他硬體元件中,頻寬指標則通常使用每秒位元組數(Byte/s)或每秒事務數(T/s)來衡量,並且這些測量值一般代表雙向總的頻寬容量,涵蓋了上行和下行兩個方向的資料流。
因此,在比較評估不同元件之間的頻寬時,準確識別並轉換相應的頻寬單位至關重要,這有助於我們全面理解影響大規模GPU訓練效能的資料傳輸能力。
文章來源:
https://community.fs.com/cn/article/unveiling-the-foundations-of-gpu-computing1.html
相關閱讀:
請之前購買過全店打包架構師技術全店資料打包彙總(全)”的讀者,請憑藉購買記錄在微店留言免費獲取(PDF閱讀版本)。後續所有更新均免費發放目前44本資料)。


免責申明:本號聚焦相關技術分享,內容觀點不代表本號立場,可追溯內容均註明來源,釋出文章若存在版權等問題,請留言聯絡刪除,謝謝。
推薦閱讀
更多架構相關技術知識總結請參考“架構師全店鋪技術資料打包(全)”相關電子書(44本技術資料打包彙總詳情可透過“閱讀原文”獲取)。
全店內容持續更新,現下單“架構師技術全店資料打包彙總(全)”一起傳送“伺服器基礎知識全解(終極版)和“儲存系統基礎知識全解(終極版)pdf及ppt版本,後續可享全店內容更新“免費”贈閱,價格僅收259元(原總價499元)。
溫馨提示:
掃描二維碼關注公眾號,點選閱讀原文連結獲取架構師技術全店資料打包彙總(全)電子書資料詳情



相關文章