近期更新內容《SSD快閃記憶體技術基礎知識全解》和《人工智慧晶片技術深度分析》,隨著資料不斷增加,全店打包資料價格會略微上漲。
知識全解系列
(持續更新中…)
資料中心網路知識全解(PPT)
人工智慧基礎知識全解(含實踐)
CPU基礎知識全解(PPT)
GPU基礎知識全解(PPT)
前篇分享了"AI資料中心(AIDC)和IDC概念、指標等對比分析",隨著模型引數量的提高,其對算力和視訊記憶體都提出了更高的要求。以GPT3為例,千億引數需要2TB視訊記憶體,當前的單卡視訊記憶體容量不夠。即便出現了大容量的視訊記憶體,以現在單卡的算力也要 32 年才能完成訓練。為了縮短訓練時間,就需要採用多機多卡並行的方式,透過採用分散式訓練技術,對模型和資料進行切分,進而並行加速,將訓練市場縮短到周或天的級別(更多內容參考自“AI資料中心(AIDC)建設白皮書合集”)。
為了最大化分散式訓練的效能,就需要構建出一個計算能力和視訊記憶體能力超大的叢集,來應對大模型訓練中算力牆和儲存牆這兩個主要挑戰。
而聯接這個超級叢集的高效能網路直接決定了智算節點間的通訊效率,進而影響整個智算叢集的吞吐量和效能。要讓整個智算叢集獲得高的吞吐量,高效能網路需要具備低時延、高頻寬、長期穩定性、大規模擴充套件性和可運維等關鍵能力。

AIDC的網路選型
當前 AIDC 的大規模網路架構主要有兩種,一種是InfniBand網路,一種是 RoCE 網路,二者各有優勢。
InfniBand網路
InfniBand網路自從誕生以來就專注於高效能領域,當前市場主流的 IB 技術為 400Gbps 的 NDR。IB 網路是專門為超算叢集設計的網路,它有兩個特點:
原生無損網路 :InfniBand 網路採用基於 credit 信令機制來從根本上避免緩衝區溢位丟包。只有在確認對方有額度能接收對應數量的報文後,傳送端才會啟動報文傳送。依靠這一鏈路級的流控機制,可以確保傳送端絕不會發送過量,網路中不會產生緩衝區溢位丟包。
萬卡擴充套件能力 : InfniBand 的 Adaptive Routing 基於逐包的動態路由,在超大規模組網的情況下保證網路最優利用。
目前業內有大量萬卡規模超大 GPU 叢集的 IB 案例。
RoCE網路
RoCE(RDMA over Converged Ethernet)是在 InfniBand Trade Association(IBTA)標準中定義的網路協議,
允許透過乙太網絡使用 RDMA(Remote Direct Memory Access,遠端直接訪問記憶體)。簡而言之,它可以看作是RDMA 技術在超融合資料中心、雲、儲存和虛擬化環境中的應用。RoCE 網路的特點如下:
生態開放:RoCE 生態基於成熟的乙太網技術體系,業界支援廠商眾多。相比於 IB 交換系統,RoCE 網路不需要專用硬體,可以基於多廠商開放的硬體網絡卡 / 交換機等進行部署。同時業務的開通、運維與傳統乙太網技術一脈相承,配置、維護更為簡單。
速率更快:乙太網技術廣泛應用於資料中心網路、都會網路、骨幹網,當前速率可以靈活支援 1Gbps~800Gbps,未來有望演進至 1.6Tbps。與 IB 相比,在互聯埠速率和交換機總容量上更勝一籌。
成本較低:乙太網高階晶片經過多年的技術發展積累,其單位頻寬成本更具競爭力,交換機成本整體更低。

具體到實際業務層面,InfniBand 方案一般要優於 RoCE 方案,RoCEv2 是足夠好的方案,而 InfniBand 是特別好的方案,以下將從業務層面對比下這兩種方案。
業務效能方面,由於 InfniBand 的端到端時延小於 RoCEv2,所以基於 InfniBand 構建的網路在應用層業務效能方面佔優。但 RoCEv2 的效能也能滿足絕大部分智算場景的業務效能要求。
業務規模方面,InfniBand 能支援單叢集萬卡 GPU 規模,且保證整體效能不下降,並且在業界有比較多的商用實踐案例。
RoCEv2 網路能在單叢集支援千卡規模且整體網路效能也無太大的降低。
業務運維方面,InfniBand 較 RoCEv2 更成熟,包括多租戶隔離能力,運維診斷能力等。
業務成本方面,InfniBand 的成本要高於 RoCEv2,主要是 InfniBand 交換機的成本要比以太交換機高一些。
業務供應商方面,InfniBand 的供應商主要以 NVIDIA 為主,RoCEv2 的供應商較多。
AIDC的網路設計
面對 AIDC 對網路的高要求,通常情況下獨立建一張高效能網路來承載智算業務是最好的方案,可同時滿足高頻寬、無阻塞的需求。
高頻寬設計:當前大模型 AI 訓練中會涉及大量的資料互動,對頻寬有著極高的要求。目前智算伺服器主流配置是配置8 張 GPU,並預留一定數量的 PCIe 插槽用於網路裝置,視智算叢集的網路需求會配置 4 張 100Gbps 以上的網絡卡,極端情況下甚至會配置 8 張以上的 100Gbps 以上的網絡卡。尤其是針對 NVLink 機型,當前主流方案是按照 GPU:IB 網絡卡 1:1 的模式來配置網絡卡,這種情況下每臺機器會配置 8 張 HDR 甚至是 NDR 的網絡卡以滿足 AI 訓練中的高頻寬需求。
無阻塞設計:無阻塞網路設計的關鍵是採用 Fat-Tree(胖樹)網路架構。交換機下聯和上聯頻寬採用 1:1 無收斂設計,即如果下聯有 20 個 200Gbps 的埠,那麼上聯也有 20 個 200Gbps 的埠。此外交換機要採用無阻塞轉發的資料中心級交換機。當前市場上主流的資料中心交換機一般都能提供全埠無阻塞的轉發能力。
低延時設計AI-Pool:當前用於 AI 大模型訓練的叢集通常會採用支援 NVLink+NVSwitch 的 GPU 機型,這樣節點內不同編號的 GPU 間可藉助 NCCL 通訊庫中的 RailLocal 技術,可以充分利用主機內 GPU 間的 NVSwitch 的頻寬,基於此我們可以最佳化網路架構,將 8 個節點和 8 個接入交換機作為一組,構成 AI-pool,如此同一個組內不同節點的同編號GPU 之間通訊只需要經過 1 跳就可到達,從而大幅度降低通訊延遲。
智算胖樹網路設計
網路可承載的 GPU 卡的規模和所採用交換機的埠密度、網路架構相關。網路的層次多,承載的 GPU 卡的規模會變大,但轉發的跳數和時延也會變大,需要結合實際業務情況進行權衡。
當節點數量超過交換機的埠數時,為了保證節點之間無阻塞通訊,就需要組成胖樹架構,兩層胖樹架構如圖所示,圖中 N 代表單臺交換機的埠數。單臺交換機最大可下聯和上聯的埠為 N/2 個,即單臺交換機最多可以下聯 N/2 臺伺服器和 N/2 臺交換機。兩層胖樹網路可以接入 N*N/2 個節點。

對於採用 8 卡 NVLink+NVSwitch 機型的節點我們可以對二層胖樹進行最佳化,8 個節點為一組採用 AI-pool 的設計模式,如圖所示,採用該架構可最佳化節點間同編號 GPU 的通訊效率,最大可支援 N*N/2 張 GPU 卡互聯。

當三層網路架構中會新增匯聚交換機組和核心交換機組。三層胖樹架構如圖3-11所示,圖中N代表單臺交換機的埠數,每個組裡面的最大交換機數量為N/2。三層胖樹網路可以接入N*(N/2)*(N/2)=N*N*N/4個節點。

綜上,兩層胖樹和三層胖樹最重要的區別是可以容納的GPU卡的規模不同。以埠數為40的交換機為例,兩層胖樹架構最大可容納的GPU卡的數量是800張卡,三層胖樹架構最大可容納的GPU卡的數量是16000張卡。
來源:超雲AIDC基礎設施建設白皮書(2024)


免責申明:本號聚焦相關技術分享,內容觀點不代表本號立場,可追溯內容均註明來源,釋出文章若存在版權等問題,請留言聯絡刪除,謝謝。
推薦閱讀
更多架構相關技術知識總結請參考“架構師全店鋪技術資料打包(全)”相關電子書(44本技術資料打包彙總詳情可透過“閱讀原文”獲取)。
全店內容持續更新,現下單“架構師技術全店資料打包彙總(全)”一起傳送“伺服器基礎知識全解(終極版)”和“儲存系統基礎知識全解(終極版)”pdf及ppt版本,後續可享全店內容更新“免費”贈閱,價格僅收259元(原總價499元)。
溫馨提示:
掃描二維碼關注公眾號,點選閱讀原文連結獲取“架構師技術全店資料打包彙總(全)”電子書資料詳情。

