高效能GPU伺服器架構分析（上篇）

請之前購買過全店打包“架構師技術全店資料打包彙總(全)”的讀者，請憑藉購買記錄在微店留言免費獲取，後續所有更新均免費發放（目前44本資料）。

獲取清單：

人工智慧晶片技術深度分析

InfiniBand架構和技術實戰總結(第二版)

Infiniband技術規範和協議解析

人工智慧晶片技術深度分析

儲存系統基礎知識全解（PDF）

儲存系統基礎知識全解（PPT版）

伺服器基礎知識全解(終極版)

SSD快閃記憶體技術基礎知識全解

……

資料中心網路知識全解（PPT）

人工智慧基礎知識全解（含實踐）

CPU基礎知識全解（PPT）

GPU基礎知識全解（PPT）

（持續更新中…）

在大規模模型訓練的領域中，構建高效能GPU伺服器的基礎架構通常依託於由單個伺服器搭載8塊GPU單元所組成的集群系統。這些伺服器內部配置瞭如A100、A800、H100或H800等高效能GPU型號，並且隨著技術發展，未來可能還會整合{4, 8} L40S等新型號GPU。下圖展示了一個典型的配備了8塊A100 GPU的伺服器內部GPU計算硬體連線拓撲結構示意圖。

本文將依據上述圖表，對GPU計算涉及的核心概念與相關術語進行深入剖析和解讀。

PCIe交換機晶片

在高效能GPU計算的領域內，關鍵元件如CPU、記憶體模組、NVMe儲存裝置、GPU以及網路介面卡等透過PCIe（外設部件互連標準）匯流排或專門設計的PCIe交換機晶片實現高效順暢的連線。歷經五代技術革新，目前最新的Gen5版本確保了裝置間極為高效的互連效能。這一持續演進充分彰顯了PCIe在構建高效能計算系統中的核心地位，顯著提升了資料傳輸速度，並有力地促進了現代計算叢集中各互聯裝置間的無縫協同工作。

NVLink概述

NVLink定義

NVLink是英偉達（NVIDIA）開發並推出的一種匯流排及其通訊協議。NVLink採用點對點結構、串列傳輸，用於中央處理器（CPU）與圖形處理器（GPU）之間的連線，也可用於多個圖形處理器之間的相互連線。與PCI Express不同，一個裝置可以包含多個NVLink，並且裝置之間採用網格網路而非中心集線器方式進行通訊。該協議於2014年3月首次釋出，採用專有的高速訊號互連技術（NVHS）。

該技術支援同一節點上GPU之間的全互聯，並經過多代演進，提高了高效能計算應用中的雙向頻寬效能。

NVLink的發展歷程：從NVLink 1.0到NVLink 4.0

NVLink技術在高效能GPU伺服器中的演進如下圖所示：

NVLink 1.0

連線方式：採用4通道連線。
總頻寬：實現高達160 GB/s的雙向總頻寬。
用途：主要用於加速GPU之間的資料傳輸，提升協同計算效能。

NVLink 2.0

連線方式：基於6通道連線。
總頻寬：將雙向總頻寬提升至300 GB/s。
效能提升：提供更高的資料傳輸速率，改善GPU間通訊效率。

NVLink 3.0

連線方式：採用12通道連線。
總頻寬：達到雙向總頻寬600 GB/s。
新增特性：引入新技術和協議，提高通訊頻寬和效率。

NVLink 4.0

連線方式：使用18通道連線。
總頻寬：進一步增加至雙向總頻寬900 GB/s。
效能改進：透過增加通道數量，NVLink 4.0能更好地滿足高效能計算和人工智慧應用對更大頻寬的需求。

NVLink 1.0、2.0、3.0和4.0之間的關鍵區別主要在於連線通道數目的增加、所支援的總頻寬以及由此帶來的效能改進。隨著版本迭代，NVLink不斷最佳化GPU間的資料傳輸能力，以適應日益複雜且要求嚴苛的應用場景。

NVSwitch

NVSwitch是NVIDIA專為滿足高效能計算和人工智慧應用需求而研發的一款交換晶片，其核心作用在於實現同一主機內部多顆GPU之間的高速、低延遲通訊。

下圖呈現了一臺典型配置8塊A100 GPU的主機硬體連線拓撲結構。

下圖展示的是浪潮NF5488A5 NVIDIA HGX A100 8 GPU組裝側檢視。在該圖中，我們可以清楚地看到，在右側六個大型散熱器下方隱蔽著一塊NVSwitch晶片，它緊密圍繞並服務於周圍的八片A100 GPU，以確保GPU間的高效資料傳輸。

NVLink交換機

NVLink交換機是一種由NVIDIA專為在分散式計算環境中的不同主機間實現GPU裝置間高效能通訊而設計製造的獨立交換裝置。不同於集成於單個主機內部GPU模組上的NVSwitch，NVLink交換機旨在解決跨主機連線問題。可能有人會混淆NVLink交換機和NVSwitch的概念，但實際上早期提及的“NVLink交換機”是指安裝在GPU模組上的切換晶片。直至2022年，NVIDIA將此晶片技術發展為一款獨立型交換機產品，並正式命名為NVLink交換機。

HBM（高頻寬記憶體）

傳統上，GPU記憶體與常見的DDR（雙倍資料速率）記憶體相似，透過物理插槽插入主機板並透過PCIe介面與CPU或GPU進行連線。然而，這種配置在PCIe匯流排中造成了頻寬瓶頸，其中Gen4版本提供64GB/s的頻寬，Gen5版本則將其提升至128GB/s。

為了突破這一限制，包括但不限於NVIDIA在內的多家GPU製造商採取了創新手段，即將多個DDR晶片堆疊整合，形成了所謂的高頻寬記憶體（HBM）。例如，在探討H100時所展現的設計，GPU直接與其搭載的HBM記憶體相連，無需再經過PCIe交換晶片，從而極大地提高了資料傳輸速度，理論上可實現顯著的數量級效能提升。因此，“高頻寬記憶體”（HBM）這一術語精準地描述了這種先進的記憶體架構。

HBM的發展歷程：從HBM1到HBM3e

頻寬單位解析

在大規模GPU計算訓練領域，系統性能與資料傳輸速度密切相關，涉及到的關鍵通道包括PCIe頻寬、記憶體頻寬、NVLink頻寬、HBM頻寬以及網路頻寬等。在衡量這些不同的資料傳輸速率時，需注意使用的頻寬單位有所不同。

在網路通訊場景下，資料速率通常以每秒位元數（bit/s）表示，且為了區分發送（TX）和接收（RX），常採用單向傳輸速率來衡量。而在諸如PCIe、記憶體、NVLink及HBM等其他硬體元件中，頻寬指標則通常使用每秒位元組數（Byte/s）或每秒事務數（T/s）來衡量，並且這些測量值一般代表雙向總的頻寬容量，涵蓋了上行和下行兩個方向的資料流。

因此，在比較評估不同元件之間的頻寬時，準確識別並轉換相應的頻寬單位至關重要，這有助於我們全面理解影響大規模GPU訓練效能的資料傳輸能力。

文章來源：

https://community.fs.com/cn/article/unveiling-the-foundations-of-gpu-computing1.html