

更新下載提醒:《資料中心網路基礎知識全解(精編版)》書店新增上新了。之前購買過“架構師技術全店資料打包彙總(全)”的讀者免費發放(請在發貨的彙總連結下載,已增至48本),或請憑藉購買記錄在微店留言獲取(PDF閱讀版本)。
其姊妹篇為《伺服器基礎知識全解(終極版 第二版)》、《儲存系統基礎知識全解(終極版)》,《SSD快閃記憶體技術基礎知識全解(終極版)》。
《資料中心網路基礎知識全解(精編版)》共150+頁,內容圖文並茂,深入全面,包括資料中心網路現狀和實踐;資料中心網路技術發展歷程;資料中心大二層網路及技術(如TRILL、VXLAN和NVGRE等);資料中心網路技術發展和融合,現代資料中心網路關鍵技術(重點介紹RDMA,IB & RoCE & RoCE v1/v2);資料中心網路常見拓撲架構(如CLOS/Fat-Tree、Dragonfly、2D/3D-Torus和Rail-Only)等。
據 IDC 資料,2022 年全球交換機市場規模為 3080 億元,同比增長 17%,預測 2022-2027 年CAGR 約為 4.6%;中國交換機市場規模為 591 億元,同比增長 9.5%,預計未來 5 年增速高於全球增速,穩定在 7%-9%。

1、交換機主流分類方式
交換機從不同角度可分為多種不同的型別,可按照應用場景、網路層次、管理型別、OSI 網路模型、埠速率、整機結構等方式進行分類。
-
按應用場景劃分:園區交換機、資料中心交換機
-
按網路層次劃分:接入交換機、匯聚交換機、核心交換機
-
按管理型別劃分:無管理型交換機、Web 管理型交換機、全管理交換機
-
按 OSI 網路模型劃分:二層交換機、三層交換機
-
按埠速率劃分:百兆交換機、千兆交換機、萬兆交換機、多速率交換機
-
按整機結構劃分:盒式交換機、框式交換機
2、交換機晶片及重要指標
乙太網交換機主要由晶片、PCB、光器件、插接件、阻容器件、殼體、電源、風扇等組成,晶片包含乙太網交換晶片、CPU、PHY、CPLD/FPGA 等,其中乙太網交換晶片和 CPU 是最核心部件。
乙太網交換晶片專為最佳化網路應用設計,是負責交換處理大量資料和轉發報文的專用晶片,晶片內部的邏輯通路由數百個特性集合組成,以確保晶片在協同工作的同時保持較強的資料處理能力,架構實現較為複雜;CPU 是用於管理登入、協議互動的控制的通用晶片;PHY 負責處理物理層資料。
交換機的交換效能主要取決於背板帶寬容量/包轉發率、交換容量、埠速率和埠密度。
背板頻寬是衡量交換機資料吞吐能力的重要指標,其值越大說明該交換機在高負荷下資料交換的能力越強。在全雙工工作模式下,當交換機的背板頻寬容量≥交換容量(=埠數×埠速率×2)時,才能實現線速轉發(無阻塞轉發),部分高階交換機採用無背板設計則需關注包轉發率。
一般來說,交換機擁有的埠速率越高則代表裝置的處理效能越強,適用於資料流量大的場景;擁有的埠密度越大,則代表著裝置的轉發能力越強,可連線裝置數量更多,組網規模更大。
乙太網交換機晶片是乙太網交換機中用於交換處理大量資料及報文轉發的專用晶片,相當於網路方面的ASIC,部分乙太網交換機晶片內部會整合 MAC 控制器和 PHY 晶片。
需要傳輸的資料包由物理埠進入乙太網交換晶片後,晶片的解析器首先對資料包進行欄位分析,為流分類做準備。透過安全檢測的資料包進行二層交換或三層路由,流分類處理器對匹配的資料包作出相應動作,將可以轉發的資料包根據802.1P 或 DSCP 放到不同佇列的 buffer 中,排程器根據優先順序或 WRR 等演算法進行佇列排程並執行流分類修改動作,最後從埠傳送該資料包。

典型乙太網交換晶片主要由介面模組、內容處理模組、進出口資料包修改模組、MMU 模組、L2 處理器(查閱 MAC 表)、L3 處理器(查閱路由表)、安全模組等模組組成,部分乙太網交換機晶片內部會整合CPU、MAC 控制器和 PHY 晶片。
交換機物理形態上,可以分為框式交換機和盒式交換機。框式交換機通常由一個機框和多個插槽組成,可以插入不同型別和數量的模組,如介面模組、主控模組、交換模組等,具有較高的靈活性和擴充套件性;而盒式交換機一般是一體化設計,介面數量和型別相對固定,部分盒式交換機介面採用模組化設計。框式交換機與盒式交換機的主要差異更多體現在內部構造與應用場景(OSI 使用層級)上。


3、交換機發展和技術演進
(1)從 OEO 到 OOO,全光交換機適配 AI 算力需求
目前基於 AISC 交換晶片的交換機,可以定義為 Optical to electrical to optical (OEO)packetcircuit switches,核心的報文交換轉發功能由 AISC 晶片完成。OEO 交換機收發都需要光電轉換來滿足訊號傳輸的要求。

2)英偉達高管加盟 Lightmatter 佈局全光交換
2024 年 7 月份,英偉達副總裁 Simona Jankowski 加盟晶片初創公司 Lightmatter 任首席財務官。近期Lightmatter 以 44 億美元的估值,其 Passage 光網際網路產品對 AI 算力網路的重要性得到市場的高度重視。

Passage 是一種利用光子進行晶片互連的技術,屬於 I/O 技術的一種。Lightmatter 的技術利用波導(wave guide)而非光纖在一個大的晶片間為各個不同種類的計算核心互連並傳輸資料,這提供了極高的並行互連頻寬。
(3)谷歌在資料中心網路大規模部署 OCS 交換機
Google 的資料中心網路一直有三個核心的理念:軟體定義網路(SDN)、Clos 拓撲結構、商用交換晶片。其中 CLOS 作為一種非阻塞的多級交換拓撲結構,由較小 radix 的交換晶片構成,可以擴充套件到任意大的網路,成為算力時代的主流架構。

Google 也是最早把 OCS 交換機規模引用的網際網路企業。為了解決不同代際的網路基礎設施靈活互聯的問題,在 Jupiter 網路架構中引入了 MEMS 型光開關(Optical Circuit Switch,簡稱 OCS)全光交換機應用。OFC2023 上,谷歌詳細介紹了其全新內部專案 Apollo,直接將 SP 層的 EPS 替換為 OCS,減少了網路中光電轉換環節。
4、交換機關鍵技術和標準
RDMA 允許高吞吐、低延遲的網路通訊,InfiniBand 和 RoCE 為 AIDC 主流方案。在傳統的 TCP/IP 通訊方式中,傳送和接受資料的過程中,都是在源端應用層資料從上向下逐層複製封裝,目的端從下向上複製和解封裝,需要 CPU 參與的次數多、速度較慢。遠端直接記憶體訪問 RDMA(Remote Direct MemoryAccess)技術將資料直接從一臺計算機的記憶體傳輸到另一臺計算機,無需雙方作業系統的介入,允許高吞吐、低延遲的網路通訊。目前,RDMA 有三種不同的硬體實現:InfiniBand、iWarp(internet WideArea RDMA Protocol)、RoCE(RDMA over Converged Ethernet),AIDC 主要使用 IB(InfiniBand)和 RoCE 網路兩種路線。
InfiniBand:專為高效能計算(HPC)和資料中心環境設計,提供高吞吐量和低延遲的資料傳輸。InfiniBand 具有高頻寬、低延遲、服務質量(QoS)和可擴充套件性,可以在網路內的伺服器、儲存系統和其他裝置之間實現快速、可靠且高效的資料傳輸。InfiniBand 的關鍵特性包括通道化架構、RDMA、訊息傳遞語義和交換式網路,這些特性使其在資料密集型應用中表現出色。儘管 InfiniBand 在效能上具有明顯優勢,但其成本相對較高,且主要侷限於特定的高效能計算領域。

RoCE:透過乙太網實現 RDMA 功能,分為 RoCEv1 和 RoCEv2。RoCEv2 在乙太網 TCP/IP 協議的 UDP 層實現,引入 IP 協議以解決可擴充套件性問題,並透過硬體解除安裝降低 CPU 利用率,適合大規模部署。相比於 InfiniBand,RoCEv2 效能上略遜一籌,但在成本上更具優勢,適用於需要高效能但預算有限的場景,如資料中心內部通訊、雲服務提供商等。
1)、RDMA 技術降低多卡間通訊時延
降低卡間通訊時間是分散式訓練中提升加速比的關鍵:為了縮短訓練時間,大模型訓練通常採用分散式訓練技術,分散式訓練系統的整體算力並不是簡單的隨著智算節點的增加而線性增長,而是存在加速比且小於 1,這是由於在分散式場景下,單次的計算時間包含了單卡的計算時間疊加卡間通訊時間。降低多機多卡間端到端通訊時延的關鍵技術是 RDMA 技術,該技術可以繞過作業系統核心。
RDMA 技術主要採用 IB 和 RoCEv2 方案:實現 RDMA 的方式有 InfiniBand、RoCEv1、RoCEv2、iWARP 四種。其中 RoCEv1 技術當前已經被淘汰,iWARP 使用較少。當前 RDMA 技術主要採用的方案為 InfiniBand 和RoCEv2 兩種。
IB 和 RoCEv2 可以降低時延:在 InfiniBand 和 RoCEv2 方案中,因為繞過了核心協議棧,相較於傳統TCP/IP 網路,時延效能會有數十倍的改善。在同叢集內部一跳可達的場景下,InfiniBand 和 RoCEv2 與傳統 IP 網路的端到端時延在實驗室的測試資料顯示,繞過核心協議棧後,應用層的端到端時延可以從50us(TCP/IP),降低到 5us(RoCE)或 2us(InfiniBand)。
2)、乙太網和 IB 各有千秋
InfiniBand 與 RoCEv2 對比:IB 能支援單叢集萬卡 GPU 規模,且保證整體效能不下降,時延小於 RoCEv2,但成本略高,供應商主要以英偉達為主,其市場份額超過 7 成。RoCE 方案的特點是通用性較強和價格相對較低。除用於構建高效能 RDMA 網路外,還可以在傳統的乙太網絡中使用。支援 RoCE 的交換機廠商較多,市場佔有率排名靠前的包括新華三、華為等。

乙太網發展勢頭強勁:根據 Dell‘OroGroup 預測,2025-2029 年,部署在用於加速伺服器的 AI 後端網路中的交換機支出將超過 1000 億美元。在供需利好因素的推動下,乙太網發展勢頭正盛,越來越多的大規模 AI 叢集將其作為主要架構。加速器種類的日益豐富推動了乙太網的應用,包括基於英偉達 GPU的大型叢集(如 xAI 的 Colossus)也選擇了乙太網進行部署,Dell‘OroGroup 預計 2027 年,乙太網將超越 InfiniBand。
英偉達面向 AI 打造強大的乙太網網路:2023 年 7 月,UEC(超乙太網聯盟)成立,其中成員包括 AMD、Arista、博通、思科、Meta 和微軟等,為 AI 網路構建一套完整的基於乙太網的解決方案。2024 年 7 月,英偉達也正式加入了 UEC,其釋出的 Spectrum-X 乙太網網路平臺已被業界廣泛使用,將 AI 網路效能提升至傳統乙太網的 1.6 倍,並計劃後續每年推出新的 Spectrum-X 產品,不斷提高 AI 乙太網網路效能。



溫馨提示:
掃描二維碼關注公眾號,點選閱讀原文連結獲取“架構師技術全店資料打包彙總(全)”電子書資料詳情。

