GPU詳解:分散式訓練與NVLink發展

在進入大模型時代後,大模型的發展已成為 AI 的核心,但訓練大模型實際上是一項比較複雜的工作,因為它需要大量的 GPU 資源和較長的訓練時間。
此外,由於單個 GPU 工作執行緒的記憶體有限,並且許多大模型的大小已經超出了單個 GPU 的範圍。所以就需要實現跨多個 GPU 的模型訓練,這種訓練方式就涉及到了分散式通訊和 NVLink。當談及分散式通訊和 NVLink 時,我們進入了一個引人入勝且不斷演進的技術領域,本節我們將簡單介紹分散式通訊的原理和實現高效分散式通訊背後的技術 NVLink 的演進。
本文來自“GPU詳解:NVSwitch基礎和原理剖析”,所有資料都已上傳至智慧計算芯知識”星球。
分散式通訊是指將計算機系統中的多個節點連線起來,使它們能夠相互通訊和協作,以完成共同的任務。而 NVLink 則是一種高速、低延遲的通訊技術,通常用於連線 GPU 之間或連線 GPU 與其他裝置之間,以實現高效能計算和資料傳輸。
當前深度學習進入了大模型時代,即 Foundation Models。大模型,顧名思義主打的就是“大”,主要包括以下幾個方面:
  1. 資料規模大:大模型通常採用自監督學習方法,減少了資料標註,降低訓練研發成本,而大量的資料又可以提高模型的泛化能力和效能。
  2. 引數規模大:隨著模型引數規模的不斷增大,模型可以更好地捕捉資料中的複雜關係和模式,有望進一步突破現有模型結構的精度侷限。
  3. 算力需求大:大規模的資料和引數,使得模型無法在單機上執行和計算,這一方面要求計算硬體的不斷進步,另一方面也要求 AI 框架具有分散式並行訓練的能力。
所以說,為了解決上述問題我們需要引入分散式並行策略。

資料並行

資料並行(Data Parallel, DP)是一種常用的深度學習訓練策略,它透過在多個 GPU 上分佈資料來實現並行處理。在資料並行的框架下,每個 GPU(或稱作工作單元)都會儲存模型的完整副本,這樣每個 GPU 都能獨立地對其分配的資料子集進行前向和反向傳播計算。

模型並行

模型並行(Model Parallel, MP)通常是指在多個計算節點上分散式地訓練一個大型的神經網路模型,其中每個節點負責模型的一部分。這種方法主要用於解決單個計算節點無法容納整個模型的情況。模型並行可以進一步細分為幾種策略,包括但不限於流水並行(Pipeline Parallel, PP)和張量並行(Tensor Parallel, TP)。

AI 框架分散式

對於模型訓練來說,不管是哪一種並行策略其本質上包括將模型進行“縱向”或“橫向”的切分,然後將單獨切分出來的放在不同的機器上進行計算,來充分的利用計算資源。
在現在的 AI 框架中,通常都是採取的多種策略的混合並行來加速模型訓練的。而要支援這種多種並行策略的訓練模型,就需要涉及不同“切分”的模型部分如何通訊。
NVLink 和 NVSwitch 是英偉達推出的兩項革命性技術,它們正在重新定義 CPU 與 GPU 以及 GPU 與 GPU 之間的協同工作和高效通訊的方式。
  • NVLink 是一種先進的匯流排及其通訊協議。NVLink 採用點對點結構、串列傳輸,用於中央處理器(CPU)與圖形處理器(GPU)之間的連線,也可用於多個圖形處理器(GPU)之間的相互連線。
  • NVSwitch 是一種高速互連技術,同時作為一塊獨立的 NVLink 晶片,其提供了高達 18 路 NVLink 的介面,可以在多個 GPU 之間實現高速資料傳輸。
這兩項技術的引入,為 GPU 叢集和深度學習系統等應用場景帶來了更高的通訊頻寬和更低的延遲,從而提升了系統的整體效能和效率。

NVLink 發展

如上圖所示,從 Pascal 架構到 Hoppe 架構,NVLink 已經經過了四代的發展演進。在 2024 年的 GTC 大會上,英偉達釋出了 Blackwell 架構,其中 NVLink 再次更新,釋出了第五代 NVLink,其中互聯頻寬達到了 1800GB/s。每一層 NVLink 的更新,其每個 GPU 的互聯頻寬都是在不斷的提升,其中 NVLink 之間能夠互聯的 GPU 數,也從第一代的 4 路到第四代的 18 路。最新的 Blackwell 架構其最大互聯 GPU 數,仍是 18 路並未增加。
從上圖可以看出,在 P100 中每一個 NVLink 只有 40GB/s,而從第二代 V100 到 H100 每一個 NVLink 鏈路都有 50GB/s,透過增加了鏈路的數量使得整體頻寬增加。

小結與思考

  • 分散式通訊技術的關鍵作用:在 AI 大模型時代,分散式通訊技術如 NVLink 和 NVSwitch 對於實現跨多個 GPU 的高效資料傳輸和同步至關重要。
  • 並行策略的多樣化:資料並行和模型並行等分散式並行策略透過在多個計算節點上分佈模型或資料,有效提升了大規模 AI 模型訓練的效率和資源利用率。
  • NVLink 與 NVSwitch 的技術進步:隨著 NVLink 和 NVSwitch 技術的不斷演進,GPU 間的互聯頻寬和通訊效率顯著提升,為神經網路模型訓練和大規模平行計算提供了更強大的硬體支援。

請之前購買過全店打包架構師技術全店資料打包彙總(全)”的讀者,請憑藉購買記錄在微店留言免費獲取(PDF閱讀版本)。後續所有更新均免費發放目前46本資料)。

免責申明:本號聚焦相關技術分享,內容觀點不代表本號立場,可追溯內容均註明來源,釋出文章若存在版權等問題,請留言聯絡刪除,謝謝。
推薦閱讀
更多架構相關技術知識總結請參考“架構師全店鋪技術資料打包(全)”相關電子書(46本技術資料打包彙總詳情可透過“閱讀原文”獲取)。
全店內容持續更新,現下單“架構師技術全店資料打包彙總(全)”一起傳送“伺服器基礎知識全解(終極版)和“儲存系統基礎知識全解(終極版)pdf及ppt版本,後續可享全店內容更新“免費”贈閱,價格僅收259元(原總價499元)。
溫馨提示:
掃描二維碼關注公眾號,點選閱讀原文連結獲取架構師技術全店資料打包彙總(全)電子書資料詳情


相關文章