

提醒:更新下載,已領請忽略!
《伺服器基礎知識全解終極版(第二版)》、SSD快閃記憶體技術基礎知識全解(含PPT和PDF)近期完成更新(已領請忽略),請購買過“伺服器基礎知識全解(終極版)”和“架構師技術全店資料打包彙總(全)(46份)”的讀者,請在微店留言獲免費取更新。
本次主要更新內容:
-
1、CPU更新(Intel/AMD架構演進,國產CPU架構)
-
2、GPU更新(英偉達GPU架構,從Fermi到Hopper,Rubin Ultra)
-
3、記憶體技術、操作系統、儲存技術等更新
-
4、已知問題修正
-
5、更新內容40+頁PPT
傳統的雲資料中心網路一般是基於對外提供服務的流量模型而設計的,流量主要是從資料中心到最終客戶,即以南北向流量為主,雲內部東西向流量為輔。承載 VPC 網路的底層物理網路架構,對於承載智算業務存在如下挑戰。

有阻塞網路:考慮到並非所有伺服器都會同時對外產生流量,為了控制網路建設成本, Leaf 交換機的下聯頻寬和上聯頻寬並非按照 1:1 設計,而是存在收斂比。一般上聯頻寬僅有下聯頻寬的三分之一。
雲內部流量時延相對較高:跨 Leaf 交換機的兩臺伺服器互訪需要經過 Spine 交換機,轉發路徑有 3 跳。
頻寬不夠大:一般情況下單物理機只有一張網絡卡接入 VPC 網路,單張網絡卡的頻寬比較有限,當前較大範圍商用的網絡卡頻寬一般都不大於 200Gbps。
對於智算場景,當前比較好的實踐是獨立建一張高效能網路來承載智算業務,滿足大頻寬,低時延,無損的需求。
大頻寬的設計
智算伺服器可以滿配 8 張 GPU 卡,並預留 8 個 PCIe 網絡卡插槽。在多機組建 GPU 叢集時,兩個 GPU 跨機互通的突發頻寬有可能會大於 50Gbps。因此,一般會給每個 GPU 關聯一個至少 100Gbps 的網路埠。在這種場景下可以配置 4張 2*100Gbps 的網絡卡,也可以配置 8 張 1*100Gbps 的網絡卡,當然也可以配置 8 張單埠 200/400Gbps 的網絡卡。

無阻塞設計
無阻塞網路設計的關鍵是採用 Fat-Tree(胖樹)網路架構。交換機下聯和上聯頻寬採用 1:1 無收斂設計,即如果下聯有64 個 100Gbps 的埠,那麼上聯也有 64 個 100Gbps 的埠。
此外交換機要採用無阻塞轉發的資料中心級交換機。當前市場上主流的資料中心交換機一般都能提供全埠無阻塞的轉發能力。
低時延設計 AI-Pool
在低時延網路架構設計方面,百度智慧雲實踐和落地了基於導軌(Rail)最佳化的 AI-Pool 網路方案。在這個網路方案中,8 個接入交換機為一組,構成一個 AI-Pool。以兩層交換機組網架構為例,這種網路架構能做到同 AI-Pool 的不同智算節點的 GPU 互訪僅需一跳。
在 AI-Pool 網路架構中,不同智算節點間相同編號的網口需要連線到同一臺交換機。如智算節點 1 的 1 號 RDMA 網口,智算節點 2 的 1 號 RDMA 網口直到智算節點 P/2 的 1 號 RDMA 網口都連到 1 號交換機。
在智算節點內部,上層通訊庫基於機內網路拓撲進行網路匹配,讓相同編號的 GPU 卡和相同編號的網口關聯。這樣相同GPU 編號的兩臺智算節點間僅一跳就可互通。
不同GPU編號的智算節點間,藉助NCCL通訊庫中的Rail Local技術,可以充分利用主機內GPU間的NVSwitch的頻寬,將多機間的跨卡號互通轉換為跨機間的同GPU卡號的互通。

對於跨 AI-Pool 的兩臺物理機的互通,需要過匯聚交換機,此時會有 3 跳。

網路可承載的 GPU 卡的規模和所採用交換機的埠密度、網路架構相關。網路的層次多,承載的 GPU 卡的規模會變大,但轉發的跳數和時延也會變大,需要結合實際業務情況進行權衡。
兩層胖樹架構
8 臺接入交換機組成一個智算資源池 AI-Pool。圖中 P 代表單臺交換機的埠數。單臺交換機最大可下聯和上聯的埠為P/2 個,即單臺交換機最多可以下聯 P/2 臺伺服器和 P/2 臺交換機。兩層胖樹網路可以接入 P*P/2 張 GPU 卡。

三層胖樹架構
三層網路架構中會新增匯聚交換機組和核心交換機組。每個組裡面的最大交換機數量為 P/2。匯聚交換機組最大數量為 8,核心交換機組的最大數量為 P/2。三層胖樹網路可以接入 P*(P/2)*(P/2)=P*P*P/4 張 GPU 卡。
在三層胖樹組網中,InfiniBand 的 40 埠的 200Gbps HDR 交換機能容納的最多 GPU 數量是 16000。這個 16000GPU 卡的規模也是目前 InfiniBand 當前在國內實際應用的 GPU 叢集的最大規模網路,當前這個記錄被百度保持。

兩層和三層胖樹網路架構的對比
可容納的 GPU 卡的規模
兩層胖樹和三層胖樹最重要的區別是可以容納的 GPU 卡的規模不同。在下圖中 N 代表 GPU 卡的規模,P 代表單臺交換機的埠數量。比如對於埠數為 40 的交換機,兩層胖樹架構可容納的 GPU 卡的數量是 800 卡,三層胖樹架構可容納的 GPU 卡的數量是 16000 卡。

轉發路徑
兩層胖樹和三層胖樹網路架構另外一個區別是任意兩個節點的網路轉發路徑的跳數不同。
對於同智算資源池 AI-Pool 的兩層胖樹架構,智算節點間同 GPU 卡號轉發跳數為 1 跳。智算節點間不同 GPU 卡號在沒有做智算節點內部 Rail Local 最佳化的情況下轉發跳數為 3 跳。
對於同智算資源池 AI-Pool 的三層胖樹架構,智算節點間同 GPU 卡號轉發跳數為 3 跳。智算節點間不同 GPU 卡號在沒有做智算節點內部 Rail Local 最佳化的情況下轉發跳數為 5 跳。

典型實踐
不同型號的 InfiniBand/RoCE 交換機和不同的網路架構下所支援的 GPU 的規模不同。結合當前已成熟商用的交換機,我們推薦幾種物理網路架構的規格供客戶選擇。
Regular:InfiniBand 兩層胖樹網路架構,基於 InfiniBand HDR 交換機,單叢集最大支援 800 張 GPU 卡。
Large:RoCE 兩層胖樹網路架構,基於 128 埠 100G 資料中心以太交換機,單叢集最大支援 8192 張 GPU 卡。
XLarge:InfiniBand 三層胖樹網路架構,基於 InfiniBand HDR 交換機,單叢集最大支援 16000 張 GPU 卡。
XXLarge: 基於 InfiniBand Quantum-2 交換機或同等效能的乙太網資料中心交換機,採用三層胖樹網路架構,單叢集最大支援 100000 張 GPU 卡。

Large智算物理網路架構實踐
支撐上層創新應用和演算法落地的關鍵環節之一是底層的算力,而支撐智算叢集的算力發揮其最大效用的關鍵之一是高效能網路。度小滿的單個智算叢集的規模可達 8192 張 GPU 卡,在每個智算叢集內部的智算資源池 AI-Pool 中可支援 512張 GPU 卡。透過無阻塞、低時延、高可靠的網路設計,高效的支撐了上層智算應用的快速迭代和發展。
XLarge智算物理網路架構實踐
為了實現更高的叢集執行效能,百度智慧雲專門設計了適用於超大規模叢集的 InfiniBand 網路架構。該網路已穩定執行多年,2021 年建設之初就直接採用了 200Gbps 的 InfiniBand HDR 交換機,單臺 GPU 伺服器的對外通訊頻寬為1.6Tbps。
相關閱讀:
-
海思昇騰920晶片解析:達芬奇架構進化與AI算力躍遷 -
昇騰910 AI晶片技術全面概述 -
乾貨收藏:GPU引數詳解與主流產品對比分析 -
寒武紀AI晶片分析報告 -
智算中心網路常見組網拓撲分析 -
中國智算中心:佈局、分佈與發展態勢 -
SSD快閃記憶體技術基礎知識全解(終極版) -
昇騰310晶片引數及技術概述 -
InfiniBand,撼動不了乙太網? -
InfiniBand高效能網路設計概述 -
面向E級計算的4款高效能處理器概述 -
基於鯤鵬處理器的高效能計算實踐 -
高效能計算關鍵元件核心知識 -
一文全解高效能製造模擬技術 -
高效能計算:RoCE技術分析及應用 -
高效能計算:談談被忽視的國之重器 -
高效能計算:RoCE v2 vs. InfiniBand網路該怎麼選? -
高效能網路全面向RDMA進軍



免責申明:本號聚焦相關技術分享,內容觀點不代表本號立場,可追溯內容均註明來源,釋出文章若存在版權等問題,請留言聯絡刪除,謝謝。
推薦閱讀
更多架構相關技術知識總結請參考“架構師全店鋪技術資料打包(全)”相關電子書(46本技術資料打包彙總詳情可透過“閱讀原文”獲取)。
溫馨提示:
掃描二維碼關注公眾號,點選閱讀原文連結獲取“架構師技術全店資料打包彙總(全)”電子書資料詳情。

