GPU詳解之NVLink基礎與結構

隨著 AI 技術的飛速發展,大模型的引數量已經從億級躍升至萬億級,這一變化不僅標誌著 AI 的顯著提升,也對支援這些龐大模型訓練的底層硬體和網路架構提出了前所未有的挑戰。為了有效地訓練這些複雜的模型,需要依賴於大規模的 GPU 伺服器叢集,它們透過高速網路相互連線,以便進行快速、高效的資料交換。
但是,即便是最先進的 GPU 也可能因為網路瓶頸而無法充分發揮其計算潛力,導致整個算力叢集的效能大打折扣。這一現象凸顯了在構建大規模 GPU 叢集時,僅僅增加 GPU 數量並不能線性增加叢集的總體算力。相反,隨著叢集規模的擴大,網路通訊的額外開銷也會成倍增加,嚴重影響計算效率。
在這種背景下,算存互連(即計算與儲存之間的連線)和算力互連(即計算單元之間的連線)的重要性變得日益突出。這些互連技術是實現高效大規模平行計算的關鍵,它們確保資料可以迅速在處理單元和儲存裝置間傳輸,最大限度地減少通訊延遲,提高整體系統效能。

PCIe 互聯技術

PCIe 是一種高速序列計算機擴充套件匯流排標準,廣泛應用於連線伺服器中的 GPU、SSD 等裝置。它透過提供高頻寬和低延遲的資料傳輸,支援了複雜計算任務的需求。然而,隨著計算需求的不斷增長,PCIe 的頻寬可能成為限制因素。
英偉達的 NVLink 技術則為 GPU 之間提供了更高速度的資料交換能力,其傳輸速度遠超傳統的 PCIe 連線,使得資料在 GPU 之間的傳輸更加高效。此外,NVSwitch 技術進一步擴充套件了這種能力,允許多達數十個 GPU 之間實現高速、高頻寬的直接連線。這種先進的互連技術極大地提高了大規模 GPU 叢集處理複雜模型時的資料交換效率,降低了通訊延遲,從而使得萬億級別的模型訓練成為可能。
在英偉達推出其創新的 NVLink 和 NVSwitch 互聯技術之前,構建強大計算節點的常規方法是透過 PCIe 交換機將多個 GPU 直接連線到 CPU,如下圖所示。這種配置方式依賴於 PCIe 標準,尤其是 PCIe 3.0 版本,它為每個通道提供了大約 32GB/s 的雙向頻寬。雖然這在當時被視為高效的資料傳輸方式,但隨著 AI 和機器學習領域的快速發展,資料集和模型的規模呈指數級增長,這種傳統的 GPU-CPU 互聯方式很快成為了系統性能提升的瓶頸。
隨著新一代 GPU 效能的顯著提升,它們處理資料的能力大幅增強,但如果互聯頻寬沒有相應的提升,那麼這些 GPU 就無法充分發揮其效能潛力。資料傳輸速度不足意味著 GPU 在處理完當前資料之前,需要等待下一批資料的到來,這導致了計算效率的顯著下降。在這種情況下,即使是最先進的 GPU 也無法滿足日益增長的計算需求,限制了大規模平行計算系統的整體效能。
正是為了解決這一挑戰,英偉達開發了 NVLink 技術,它提供了比 PCIe 3.0 更高的資料傳輸速率,極大地減少了資料在 GPU 之間傳輸的時間。NVLink 透過提供更快的資料交換能力,使得多個 GPU 之間可以更高效地共享資料,從而提高了整體的計算效能和效率。

GPU 互聯架構

如圖所示,在現代 GPU 架構中,單個 GPU 內部包含了多個流多處理器(SM)核心,這些核心是實現平行計算的基石。透過 CUDA(Compute Unified Device Architecture)技術,開發者能夠編寫程式來驅動這些硬體單元並行執行復雜的計算任務。CUDA 不僅為程式設計師提供了一種高效的方式來利用 GPU 的並行處理能力,還極大地簡化了平行計算程式的開發過程。
而在 GPU 內部,工作任務被劃分並分配給每個圖形處理簇(GPC)和流多處理器(SM)核心。這種工作分配機制確保了 GPU 的計算資源得到充分利用,每個核心都在執行計算任務,從而實現了高效的並行處理。為了支援這種高速計算,GPU 通常配備有高頻寬記憶體(HBM),它為 GPC/SM 核心提供了快速訪問大量資料的能力,從而保證了資料密集型任務的高效執行。
HBM(High Bandwidth Memory)是一種堆疊式記憶體技術,它透過寬介面和高傳輸速率顯著提升了記憶體頻寬。這對於處理大規模資料集和複雜計算尤為重要,因為它確保了資料能夠迅速地供給到每個 GPC/SM 核心進行處理。此外,GPC/SM 核心之間能夠共享 HBM 中的資料,這一特性使得資料交換更為高效,進一步提升了整體的計算效能。
從上面可以看出,在現代 GPU 架構中,主要涉及 GPU 之間的通訊和資料交換通常涉及以下幾個方面:
GPU 間 PCle 互聯
  1. PCIe 通訊:當多個 GPU 在沒有專用高速互連技術(如 NVLink)的系統中協同工作時,它們之間的通訊通常是透過 PCI Express(PCIe)匯流排進行的。PCIe 是一種高速序列計算機擴充套件匯流排標準,用於連線主機板上的硬體裝置。但是,由於 PCIe 的頻寬有限,它可能成為 GPU 之間高速資料傳輸的瓶頸。
  2. 對 HBM 的訪問:如果一個 GPU 需要直接訪問另一個 GPU 的 HBM 記憶體,資料必須透過 PCIe 匯流排傳輸,這會受到 PCIe 頻寬的限制。這種通訊方式比 GPU 內部訪問 HBM 的速度慢得多,因為 PCIe 的頻寬遠低於 HBM 的記憶體頻寬。
  3. 透過 CPU 的排程:在沒有直接 GPU 對 GPU 通訊能力的系統中,CPU 充當資料交換的中介。CPU 負責在多個 GPU 之間分配和排程計算任務,以及管理資料在 GPU 和系統記憶體之間的傳輸。
這就使得 PCIe 的頻寬限制成為多 GPU 系統中的一個限制因素。特別是當工作負載需要頻繁的 GPU 間通訊時,在資料傳輸密集型的應用中,這種限制可能導致效能下降。
GPU 間 NVLink 互聯
NVLink 的出現為 GPU 間的互聯提供了一種革命性的方式,使得不同 GPU 之間的通訊和資料共享變得更加高效和直接。
透過 NVLink,GPU 的圖形處理簇(GPCs)可以直接訪問連線在同一系統中其他 GPU 上的高頻寬記憶體(HBM)資料。這種直接的記憶體訪問機制顯著降低了資料交換的延遲,並提高了資料處理的速度。同時,NVLink 支援多條鏈路同時操作,這意味著可以透過多條 NVLink 同時對其他 GPU 內的 HBM 資料進行訪問,極大地增加了頻寬和通訊速度。每條 NVLink 鏈路都提供了遠高於 PCIe 的資料傳輸速率,多條鏈路的組合使得整體頻寬得到了成倍增加。
此外,NVLink 不僅僅是一種點對點的通訊協議,它還可以透過連線到 GPU 內部的交換機(XBARs)來實現更復雜的連線拓撲。這種能力使得多 GPU 系統中的每個 GPU 都能以極高的效率訪問其他 GPU 的資源,包括記憶體和計算單元。而且,NVLink 並不是要取代 PCIe,而是作為一種補充和增強。在某些情況下,系統中可能同時使用 NVLink 和 PCIe,其中 NVLink 用於高速 GPU 間通訊,而 PCIe 則用於 GPU 與其他系統元件(如 CPU、儲存裝置)之間的通訊。這種設計允許系統根據不同的通訊需求靈活選擇最合適的技術,從而最大化整體效能和效率。
多GPU 間 NVLink 互聯
如上圖所示,NVLink 技術的引入不僅僅是為了加速 GPU 間的通訊,它還極大地擴充套件了多 GPU 系統的潛力。
  1. 多 GPU 互聯能力的提升:NVLink 極大地提高了多 GPU 之間的互聯能力,使得更多的 GPU 可以高效地連線在一起。這種增強的互聯能力不僅提升了資料傳輸的速度和效率,而且還使得構建大規模 GPU 叢集成為可能。在深度學習、科學模擬等領域,這意味著可以處理更復雜的問題,實現更高的計算效能。
  2. 單一 GPU 驅動程序的全域性控制:透過 NVLink,單個 GPU 驅動程序可以控制所有 GPU 的計算任務,實現任務的高效分配和管理。這種集中式控制機制簡化了多 GPU 系統的程式設計和使用,使得開發者能夠更容易地利用系統中所有 GPU 的計算能力,從而加速複雜計算任務的處理。
  3. 無干擾的 HBM 記憶體訪問:NVLink 還允許 GPU 在不受其他程序干擾的情況下直接訪問其他 GPU 的 HBM 記憶體。透過使用 LD/ST 指令和遠端直接記憶體訪問(RDMA)技術,資料可以在 GPU 之間高效地傳輸,極大地提高了記憶體訪問的速度和效率。這種無干擾的訪問機制對於需要大量資料交換的應用至關重要,因為它減少了資料傳輸的延遲,提高了整體的計算效能。
  4. XBAR 的獨立演進與頻寬提升:GPU 內部的交換機(XBAR)作為橋接器,可以獨立於 GPU 核心演進發展,提供更高的頻寬和更靈活的連線拓撲。這種設計使得 NVLink 不僅能夠支援當前的高效能計算需求,而且還具備了未來進一步擴充套件和提升效能的潛力。隨著 XBAR 技術的發展,我們可以期待 NVLink 將會支援更加複雜和高效的多 GPU 連線方案,進一步推動高效能計算的極限。
相關連結:

請之前購買過全店打包架構師技術全店資料打包彙總(全)”的讀者,請憑藉購買記錄在微店留言免費獲取(PDF閱讀版本)。後續所有更新均免費發放目前46本資料)。

免責申明:本號聚焦相關技術分享,內容觀點不代表本號立場,可追溯內容均註明來源,釋出文章若存在版權等問題,請留言聯絡刪除,謝謝。
推薦閱讀
更多架構相關技術知識總結請參考“架構師全店鋪技術資料打包(全)”相關電子書(46本技術資料打包彙總詳情可透過“閱讀原文”獲取)。
全店內容持續更新,現下單“架構師技術全店資料打包彙總(全)”一起傳送“伺服器基礎知識全解(終極版)和“儲存系統基礎知識全解(終極版)pdf及ppt版本,後續可享全店內容更新“免費”贈閱,價格僅收259元(原總價499元)。
溫馨提示:
掃描二維碼關注公眾號,點選閱讀原文連結獲取架構師技術全店資料打包彙總(全)電子書資料詳情


相關文章