技術盛宴|多維度對比分析AIGC網路網絡卡雙上聯技術架構

AIGC(Artificial Intelligence Generated Content,生成式人工智慧)技術利用訓練有素的生成式模型來生成自然語言文字、影像、音訊等多樣化內容。在其網路架構中,網絡卡(Network Interface Card,NIC)扮演著至關重要的角色,作為連線計算機和網路的關鍵裝置。其主要職責包括將計算機產生的資料有效地傳送到網路中,並負責接收來自網路的資料。網絡卡裝置對於確保 AIGC 網路的高效能和可靠性具有重要意義,為資料傳輸和網路連線提供了可靠的基礎支援。
網絡卡雙上聯的產生原因
網絡卡雙上聯是一種架構,它將伺服器或網路裝置的兩個物理網絡卡同時連線到不同的網路上級裝置或交換機上。
在傳統的網絡卡單上聯架構下,無論是光纖還是交換機出現異常,都會導致AIGC訓練任務中斷,因訓練中斷將造成訓練成本增加和客戶品牌的負面影響。此外,交換機升級期間,AIGC訓練業務也需要提前遷移。這對使用者體驗、系統穩定性以及網路運維都帶來了很多問題。
相比之下,網絡卡雙上聯架構中,伺服器上的所有網絡卡的兩個埠分別連線到不同的交換機,並透過繫結這兩個埠形成一個bond埠來提供服務。這樣,當一個上聯鏈路或對應的接入層交換機出現故障時,流量可以切換到另一個埠,確保訓練任務不會中斷。
雙上聯架構設計避免了網絡卡單上聯接入交換機帶來的單點故障風險,極大提高了整體系統互聯的魯棒性。此外,這也為集群系統的交換機熱升級創造了條件,使得整體網路運維和功能迭代變得更加方便。
網絡卡雙上聯架構網路解決方案
以下是當前交換機支援的幾種網絡卡雙上聯架構解決方案:
網絡卡雙IP
網絡卡的每個埠分別配置2個不同的IP地址,透過網絡卡配置將流量分散不同的路徑。網絡卡對外虛擬為2個不同的網絡卡,天然複用交換機當前成熟的IP轉發特性。當其中1個埠或IP地址失效時,另一個埠/IP地址也可以繼續工作。
網絡卡雙IP是一種靈活且高效的網路配置方案,適用於多種應用場景。但部分集合通訊庫對於雙IP的支援度較差,且出現多QP效能下降的情況;此外該方案需要為網絡卡多分配1倍的IP地址,IP地址資源存在浪費。
去堆疊
去堆疊方案為我司提出的創新性解決方案。去堆疊方案是指網絡卡和交換機之間透過bond繫結為聚合口,網絡卡側對於ARP/ND實現broadcast,即2個埠同時傳送ARP/ND報文,使得2臺接入的交換機可以同時學習到網絡卡的ARP/ND,2臺接入交換機將ARP/ND轉換為BGP路由,向其他裝置通告BGP路由。
去堆疊可以保持業務接入方式不變,同時2臺交換機之間無需物理關聯,並且能很好適配網絡卡雙上聯接入。
去堆疊+雙平面
去堆疊+雙平面是在去堆疊方案的基礎上,將交換機劃分為不同的轉發平面,每個網絡卡雙上聯的不同埠對映至不同的網路平面。即2個網絡卡埠分別接入到不同的交換機,這2臺交換機分別接入到不同的平面。
採用去堆疊+雙平面的方案,網絡卡傳送端在bond埠傳送流量時只要保證流量均分至傳送側的兩個埠,那麼在接收側的接入層交換機也一定會收到均勻的網路流量,大幅度降低了雜湊極化的發生機率。
同時,基於雙上聯和雙平面接入的設計,使2層CLOS網路的單叢集最大拓展規模翻倍,獲得整叢集通訊拓撲簡化、降低時延、降低成本等收益。
M-LAG
M-LAG(Multichassis Link Aggregation Group,跨裝置鏈路聚合)是一種跨裝置鏈路聚合技術,透過2臺裝置連線組成雙活系統,控制平面互相獨立,交換機之間透過peer-link鏈路進行通訊和同步。M-LAG組的2臺裝置對外等效為1臺裝置,該等效裝置和下聯裝置之間透過聚合口互聯。
M-LAG架構具有高可靠性,如果一個交換機或鏈路發生故障,流量可以自動切換到其他正常工作的鏈路或交換機,從而確保網路的高可靠性和冗餘;此外還能使網路拓撲更加簡潔,多個物理鏈路在邏輯上看作一個鏈路,簡化了網路配置和管理。但是M-LAG是私有實現,同組M-LAG只能是相同廠商的裝置,跨組M-LAG裝置不存在此限制。
E-AP
E-AP ( Enhanced Aggregation Port )是一種跨裝置鏈路聚合技術,它是由多臺支援鏈路聚合的獨立裝置組成的系統。該系統可以等效成一臺裝置,與下聯裝置進行鏈路聚合,從而將鏈路可靠性提高到裝置級,以滿足高可用性場景的要求。當某條鏈路故障或者裝置故障時, E-AP將自動切換資料業務至E-AP組中其他可用的鏈路或裝置上,從而實現裝置級的可靠性。
E-AP透過私有協議通訊,無需額外增加裝置之間的互聯鏈路,就能支援網絡卡雙上聯架構。E-AP架構同樣具有高可靠性,能支援物理鏈路的冗餘備份,降低單點故障的風險。
VXLAN Multihoming
VXLAN Multihoming是指在VXLAN網路中,一個VXLAN例項(通常是一個租戶或一個虛擬網路)透過多個物理網路介面或多個不同的網路路徑連線到VXLAN網路,視為相同EVI接入,VXLAN例項表項透過BGP EVPN進行同步。利用VXLAN Multihoming架構技術,在網路中部署VXLAN虛擬網路,從而實現網絡卡雙上聯到不同交換機。
VXLAN Multihoming是RFC標準實現,為網路提供冗餘連線,支援網絡卡雙上聯。VXLAN Multihoming允許網路流量在多個鏈路之間進行分配,從而提高網路的吞吐量和效率;此外,VXLAN Multihoming具有較高的靈活性和擴充套件性。
方案比較
我們對不同方案進行了評估,綜合考慮了資源佔用情況、支援網絡卡規模、流量均衡、部署難度和運維難度等多個維度,每個方案都有其獨特的優勢和侷限性,選擇時應根據具體需求和現有資源進行權衡。
選擇最合適的網絡卡雙上聯方案需要綜合考慮網路架構的當前和未來需求,以及對效能、可靠性和成本的影響。透過仔細評估每個方案的優劣,可以為AIGC網路設計一個既高效又可靠的網路環境
銳捷網路,作為GenAI時代的全棧服務專家,致力於為企業提供覆蓋IaaS到PaaS的全棧產品及解決方案。我們的產品覆蓋高效能網路與GPU算力最佳化排程,旨在透過創新技術解決方案,幫助客戶實現生產效率的飛躍與運營成本的最佳化。我們堅信,透過我們的努力,能夠為客戶打造一個更加智慧、高效和可靠的未來。讓我們攜手,共同探索GenAI時代的每一個機遇。

相關閱讀


相關文章