AIGC浪潮之下,銳捷如何為算力網路注入“智慧”

當前,AI技術正在持續賦能產業變革。繼文字和影像之後,Sora的橫空出世讓AI浪潮席捲至影片領域,推動AI多模態領域的飛躍式發展。以AIGC為代表的業務應用正在重塑人類的學習路徑、工作模式乃至生活節奏,引領我們進入一個更為智慧、便捷的新時代。
AIGC時代,大模型引數量持續飆升,算力需求也隨之爆發式增長,這就要求網路能夠承載更大規模的GPU叢集。以GPT-4為例,其引數量已躍升至驚人的1.8萬億,訓練所需的算力更是高達4680P,只有萬卡叢集能夠提供足夠的算力支援,滿足大模型訓練的需求。
由於GPT-4擴充套件MoE引入了大量的All to All通訊,使機內和機間通訊的比例幾乎達到了1:1,機間All to All通訊是依靠交換機轉發進行傳輸,因此網路通訊對GPU利用率的影響越發明顯。這意味著,交換機需要升級到800G和1.6T的規格,以滿足大模型訓練過程中的超大頻寬需求。
此外,在構建大規模訓練叢集時,往往配備有數以萬計的高效能GPU,旨在支援並行處理多個複雜的模型訓練任務。這種多工並行環境極大地增加了流量的複雜性和動態性,對網路系統的負載均衡能力提出了前所未有的挑戰。因此,網路架構需要具備一定的靈活性和可擴充套件性,以應對不斷變化的流量需求。
銳捷AIGC智算中心網路 
支撐大規模算力叢集建設
面向下一代AI雲服務的智算中心網路建設,銳捷網路在去年推出了AI-Fabric智算中心網路解決方案和AI-FlexiForce智算中心網路解決方案,以其高吞吐、大頻寬、高可用的特性,可應用於大資料處理、機器學習、AIGC多種業務場景,助力客戶構建萬卡級別的智算中心網路,支撐AI業務快速發展。
銳捷網路AI-FlexiForce智算中心網路解決方案採用NCP+NCF為基礎模組橫向擴充套件的三級網路架構,並基於高效能晶片技術,透過將資料流切分成等長的Cell並負載到所有鏈路,提升網路頻寬利用率;基於VOQ+Credit的端到端流控機制實現與業務無關的無損自閉環網路,助力業務算力提升。
AI-FlexiForce方案透過創新性地應用鏈路負載和擁塞控制技術,根本性解決網路中的擁塞衝突問題,提升GPU之間通訊和計算效率,加速企業大模型應用的推出。同時,銳捷網路打造了分散式OS,意在實現分散式方案架構的統一管理基礎上,最大程度降低系統性風險,提升AI訓練網路的長期穩定執行。
▲銳捷網路資料中心網路事業群高階技術總監 權熙哲
為了適應客戶的普適性場景,銳捷網路在今年創新性地推出了AILB負載均衡解決方案,並從1.0版本持續迭代升級至2.0版本。憑藉其卓越的效能與靈活性,AILB方案實現了多工環境下不同模型間的資料通訊。權熙哲指出,“藉助AILB方案,客戶可以更好地完成端到端的鏈路選擇,實現端到端的高吞吐。”
基於GPU間有規律的傳輸流量特徵及Leaf/Spine之間1:1收斂的特徵,網路裝置以Leaf分組,為Leaf接入地所有網絡卡,自動預規劃全域性負載均衡路徑;主路由與其它等價路徑形成1主多備,AILB方案的快切技術,實現10ms內完成路徑切換。
據悉,AILB方案可以疊加單級PFC(防止“多打一”)構建無損Fabric,無需ECN端網對接,實現GPU網絡卡與外部網路解耦。AILB方案在16節點PerfTest測試中,頻寬利用率高達97.6%,其快速的Failover切換時間,保障訓練業務的連續性。該方案支援智算中心多租戶部署模式,適用於非Mellanox系列網絡卡。
目前,銳捷網路智算中心網路解決方案為跨行業通用型,不特定於某個單一行業,而是廣泛適用於AI大模型公司、政府行業、電力能源行業(如光伏企業)、IDC公司等等,為客戶提供更加專業的技術服務,助力他們應對市場挑戰,實現可持續發展。
400G交換機與LPO光模組
驚豔亮相MWC2024
在MWC2024展區,銳捷網路展出了RG-S6990-128QC資料中心交換機,以及高密度、低功耗的400G/800G LPO自研光模組,適用於資料中心、高效能計算網路、企業核心分佈層,為資料中心伺服器和交換機提供經濟高效的高速互聯。
▲400G/800G LPO光模組
RG-S6990-128QC交換機是銳捷網路面向高階資料中心和AIGC智算場景推出的新一代高效能、高密度盒式交換機。它採用先進的硬體架構設計,提供128個400GE埠,所有埠均支援線速轉發,轉發效能達到51.2Tbps,支援冗餘可插拔電源和風扇,支援AI-Fabric方案RALB和AILB負載均衡技術,提升AIGC智算場景下流量頻寬,縮短AI訓練時長。
權熙哲指出,“以51.2T晶片為基礎,這款交換機能夠提供128個400GE埠,支援高達1000張GPU卡的通訊規模。同時,高密度的介面設計使得單個交換機能夠連線更多伺服器,支援更大規模的伺服器叢集,滿足未來不斷增長的資料處理需求。”
400G-QDD-DR4-SM1310模組設計用於400G光模組,採用QSFP-DD封裝,MPO-12 APC接頭介面,使用波長1310nm,需配套單模光纖使用,最大傳輸距離為500m,可以實現功耗降低50%,LPO時延下降90%,成本降低15%,無需1分2跳線,規模增加一倍,仍可維持傳統佈線方案。
在成本方面,隨著400G LPO光模組的DSP晶片量產,其成本佔比已從早期的30%以上降至當前的10%左右,顯著提升了產品的價效比。對於更高速率的800G及1.6T光模組,銳捷雖面臨DSP晶片成本佔比較高的挑戰,但仍致力於透過技術創新與規模效應來降低成本。
權熙哲認為,“我們已正式釋出了400G與800G的LPO光模組,實現了整體功耗降低超過60%的顯著成效。具體而言,傳統光模組可能消耗高達15瓦的電力,而我們的LPO光模組僅需4~5瓦,極大提升了能效比。希望透過銳捷的交換機加線性光模組,給客戶提供一個極優的價效比。”
下半年,銳捷網路將推出800G及更高密度的交換機產品,同時,1.6T交換機及配套的線性光模組也在緊鑼密鼓的研發中,預計在未來兩年內面世。我們相信,透過不懈努力,銳捷能夠克服技術挑戰,推動光通訊領域向更高速率、更低功耗、更低成本的方向發展。
轉載來源:IT168

相關文章