AI網路中Scale-Up與Scale-Out到底有啥區別?

下載提醒:伺服器基礎知識全解終極版(第二版)儲存系統基礎知識全解(終極版)SSD快閃記憶體技術基礎知識全解(含PPT和PDF)近期完成更新(已領請忽略),請購買過架構師技術全店資料打包彙總(全)46份”的讀者,請在微店留言獲免費取更新。
相關閱讀:
100個DPU關鍵知識點(收藏版)
100個網路技術基礎知識(收藏版)
100個企業儲存基礎知識(收藏版)
100個GPU核心知識概述(收藏版)

在ICT領域,“擴充套件”(Scale)是一個高頻出現的技術概念,其核心目標是提升系統處理更大工作負載的能力。當前主流的擴充套件方式分為兩大類:縱向擴充套件(Scale-Up) 和橫向擴充套件(Scale-Out),這兩種技術路線在AI網路時代呈現出了協同演進的新趨勢。本文將從技術定義、核心差異、應用場景及實際案例等維度展開解析。
Scale-Up 和 Scale-Out的技術定義
  • Scale-Up:透過為單一系統疊加資源(如增加處理器速度、記憶體或儲存容量)來增強效能,本質是讓單個系統 “更強悍”。
  • Scale-Out:透過新增更多同構或異構系統構成分散式架構,藉助平行計算提升整體處理能力,依靠增加並行工作的獨立節點數量實現擴充套件。
網路架構示例
  • Scale-Up:機箱式交換機透過加裝線卡提升容量;
  • Scale-Out:多臺盒式交換機透過CLOS架構實現網路容量擴充套件。
在許多情況下,Scale-Up和Scale-Out可以結合起來構建更大、更高效的網路。
在AI計算網路中,Scale-Up網路與Scale-Out網路並存:
  • Scale-Up 是指 GPU 之間的高速互連,允許跨 GPU 記憶體讀/寫。
  • Scale-Out 是基於乙太網/InfiniBand的RDMA(如RoCE),實現GPU間遠端記憶體訪問。
Scale-Up 和 Scale-Out 網路之間的協同作用為當今的 AIGC 大型模型提供了動力。
Scale-Up 和 Scale-Out的核心差異
雖然兩者都旨在實現 GPU 間的記憶體級資料傳輸,但其設計目的和應用場景卻截然不同。隨著AI 大模型的興起,計算規模持續增長。單個 GPU 伺服器已無法滿足需求。平行計算成為必需,這帶來了通訊開銷、分割槽複雜性和程式設計挑戰。Transformer 及其注意力機制和前饋層對記憶體和計算資源提出了極高的要求。
理想情況下,若存在超級 GPU 晶片可獨立處理整個大模型,則無需擴充套件。但現實中需對模型進行拆分:
  • 高頻互動部分(如張量並行、專家並行):需要高速低延遲網路,即Scale-Up 網路(也稱為負載儲存或記憶體語義網路)。
  • 獨立並行部分(如流水線並行、資料並行):更適合採用成本效益更高、靈活性更強的方案,即Scale-Out 網路(利用乙太網並最佳化 RDMA,如 RoCE)。
儘管 RDMA 在一定程度上模擬了記憶體訪問,但其對頻繁的小記憶體讀寫支援並不理想,並非真正的記憶體語義網路。這種雙網路架構實現了效能與成本的平衡:Scale-Up 專注於極致效能,Scale-Out 則側重靈活性和經濟性。
在大規模模型訓練中,兩種網路均支援 GPU 間資料傳輸,但延遲差異顯著。
網路延遲是指資料在網路中傳輸的時間,包括:
  • 靜態延遲:相對固定,由物理設計和硬體效能決定。
  • 動態延遲:可變,受網路負載和頻寬利用率影響(如透過 UEC 最佳化的乙太網可降低動態延遲)。
Scale-Up :納秒級延遲的極致效能
這是一個支援直接 GPU 記憶體訪問的匯流排域網路。由於現代 GPU 時鐘頻率超過 1GHz(單週期小於 1 納秒),超低延遲至關重要。Scale-Up網路需實現亞微秒級甚至更低的延遲。為此,其設計需深度繫結具體應用需求,摒棄傳統傳輸層和網路層採用信用機制流量控制(Credit-Based Flow Control)和鏈路層重傳(Link-Layer Retransmission)保障可靠性。
同時,高速 SerDes 技術(如 PAM4 訊號、112Gbps/224Gbps DSP 架構)帶來了確定性延遲控制的挑戰。現有 RS (544, 514) 前向糾錯(FEC)方案可能在此速率下失效,需探索新的 FEC 方法以進一步降低延遲。
Scale-Out:毫秒級延遲與更高靈活性
相比之下,Scale-Out 網路天生具備更高的靈活性和多樣性,其設計借鑑了 OSI 模型等傳統分層網路架構,因此能支援廣泛的通訊和資料傳輸需求。儘管這種靈活性以犧牲延遲效能為代價,但也確保了網路可適應更廣泛的應用場景。
在Scale-Out 網路中,端到端延遲通常維持在 1-10 毫秒,確保使用者感知到系統響應的流暢性。對於 AI 和HPC中的計算密集型任務,儘管超低延遲並非必需,但穩定的低延遲仍是高效能的關鍵。Scale-Out 網路依託現有產業生態(如交換機和光模組),並透過 UEC和 GSE等技術最佳化來降低動態延遲,但由於架構本身的複雜性,靜態延遲仍相對較高。
總結來看,兩者的延遲目標差異顯著:Scale-Up網路致力於將往返時間(RTT)從亞毫秒級降至亞微秒級,強調極致低延遲;Scale-Out 網路則優先考慮靈活性和成本效益,提供適用於廣泛工作負載的毫秒級延遲。這種延遲效能的差異,正是它們在 AI、HPC 等高效能計算環境中扮演不同角色的核心原因。
Scale-Up與Scale-Out 能否統一?
由於設計理念、目標和實現方式的根本差異,將兩者融合並不現實:
• Scale-Out 網路源於傳統資料中心,用於連線地理分散的節點,實現高效遠端通訊,擅長遠端傳輸、異構裝置互聯和多樣化業務通訊。
• Scale-Up網路是一種較新的正規化,透過提升單裝置效能增強系統能力,這類高度整合的網路在有限物理空間內整合資源以實現顯著效能提升,且與業務邏輯深度耦合。
在 AI 和 AGI 時代,智慧計算網路的需求不斷升級。單純增強傳統資料中心網路的負載儲存能力,或嘗試用負載儲存技術擴充套件網路,均無法滿足縱向Scale-Up的需求。
兩者的設計前提不同,導致技術實現、效能和成本效益存在顯著差異。
從業務邏輯看,Scale-Up網路(如 NVLink)符合負載儲存語義,強調直接高速記憶體訪問;而Scale-Out網路(如 InfiniBand)基於訊息語義,側重靈活性和可擴充套件性。儘管某些技術規格可能看似相似,但這只是巧合,並不意味著它們具備融合或互換的潛力。
因此,由於技術理念、應用目標和業務邏輯的本質差異,Scale-Up與Scale-Out不應被強行結合,兩者在各自領域均扮演著不可或缺的角色,共同推動計算網路技術的發展。
案例分析:NVIDIA NVL72 如何實現 Scale-Up 和 Scale-Out?
2024 年 3 月,NVIDIA 推出 GB200 NVL72 超級節點,將 36 個 Grace CPU 和 72 個 Blackwell GPU 整合在單個液冷機櫃中,可提供最高 720 PFLOPs 的 AI 訓練效能或 1440 PFLOPs 的推理效能。其架構不僅克服了 H100/GH200 等前代產品的節點間頻寬瓶頸,還結合了 “GPU-GPU NVLink Scale-Up” 和 “節點間 RDMA Scale-Out”,為 EB 級資料處理和萬億引數模型訓練提供了可擴充套件的基礎設施。
1.  Scale-Up網路互連
在超級節點機櫃內,18 個計算托盤(Compute Tray)中的 72 個 B200 GPU 透過 NVLink 5 和銅纜實現全互連,並連線到 9 個交換機托盤(Switch Tray)中的 18 個 NVSwitch 晶片。
理論頻寬:
  • 每個 B200 GPU 支援 1.8 TB/s 雙向頻寬。
  • 每個計算托盤(4 個 GPU)提供 7.2 TB/s 總頻寬,所有計算托盤合計 129.6 TB/s 雙向頻寬。
  • 每個 NVLink 交換機以 7.2 TB/s 連線 4 個 GPU,一層交換機以 14.4 TB/s 連線 8 個 GPU,9 個交換機托盤合計以 129.6 TB/s 連線 72 個 GPU。
物理佈線:
  • 每個 B200 GPU 支援 18 條 NVLink 連線至 18 個 NVSwitch 晶片,實現 72 個 GPU 的全網格拓撲。
  • 每個計算托盤(4 個 GPU)需 72 對差分線,18 個計算托盤共需 5184 對差分線,即整個機櫃需 5184 根銅纜。
佈線介質:
系統採用電纜盒方案(基於銅纜互連)。在短距離傳輸場景中,銅纜相比光模組具有更高可靠性和更低成本,且佈線更簡單,因此直接銅纜連線已成為Scale-Up互連的主流方案。
簡而言之,NVL72 構建了大規模Scale-Up網路,實現了 GPU 間的高頻寬、低延遲通訊。
2.  Scale-Out網路互連
Scale-Out支援將 8 個 DGX GB200 NVL72 單元整合為一個超級 POD(SuperPOD),包含 576 個 B200 GPU。每個計算托盤中的 4 個 GPU 各配備一個 CX8 800Gbps RNIC(RDMA 網絡卡),連線至基於 InfiniBand RDMA 的Scale-Out網路。
3. NVL72 中Scale-Up與Scale-Out 的對比
  • 高頻寬:每個計算托盤透過 NVLink/NVSwitch 提供 7.2 TB/s 頻寬,而Scale-Out 連線僅提供 0.4 TB/s(4×800Gbps),Scale-Up頻寬是Scale-Out 的 18 倍。
  • 低延遲:銅纜消除了光模組 CDR 或 DSP 通常引入的近 100ns 延遲,同時降低了成本。
  • 大統一記憶體:藉助 NVLink 和 NVLink-C2C,機櫃內所有 GPU 可訪問彼此的 HBM 記憶體及 Grace CPU 的 DDR 記憶體,總計 13.5TB HBM 和 17TB LPDDR5X 系統記憶體。
總結
AI 大模型規模持續增長,對計算基礎設施提出了前所未有的需求。透過Scale-Up策略構建超高效能超級節點,再透過Scale-Out 將其延伸至叢集,已成為一種常見且高效的實踐。這種分層架構不僅滿足了現代 AI 對效能和可擴充套件性的需求,也為未來技術創新奠定了堅實基礎。
原文連結:https://naddod.medium.com/understanding-scale-up-vs-scale-out-in-ai-infrastructure-584723afb94d
來源:SDNLAB
相關閱讀:

請之前購買過全店打包架構師技術全店資料打包彙總(全)”的讀者,請憑藉購買記錄在微店留言免費獲取(PDF閱讀版本)。後續所有更新均免費發放目前46本資料)。

免責申明:本號聚焦相關技術分享,內容觀點不代表本號立場,可追溯內容均註明來源,釋出文章若存在版權等問題,請留言聯絡刪除,謝謝。
推薦閱讀
更多架構相關技術知識總結請參考“架構師全店鋪技術資料打包(全)”相關電子書(46本技術資料打包彙總詳情可透過“閱讀原文”獲取)。
溫馨提示:
掃描二維碼關注公眾號,點選閱讀原文連結獲取架構師技術全店資料打包彙總(全)電子書資料詳情


相關文章