公開課預告：大規模異構GPU叢集的互聯、運維與排程｜基流科技技術負責人敬陽主講

智算叢集是打造大模型的標配。為了支撐更多、更大規模的模型訓練與推理，智算叢集建設速度和規模正在飛速增長。

NVIDIA GPU是構建智算叢集的首選計算晶片，但是受產能不足、國際環境等複雜因素的影響，很難實現大規模採購，甚至一卡難求。這給智算叢集的構建帶來了一定的挑戰，但也給國產GPU廠商的產品應用落地提供了機會。

不同廠家的GPU在架構、通訊庫、軟體棧方面均存在巨大差異，如何實現不同架構GPU之間的互聯互通、高效穩定的通訊，以及有效的算力聚合與排程，是異構GPU叢集構建面臨的巨大挑戰。

為了應對上述問題，基流科技構建了面向異構GPU叢集的超互聯解決方案Helios，以及算力基礎設施監控運維平臺和大規模異構GPU算力排程平臺，能夠實現智算叢集中大規模異構GPU之間的高效互聯互通、運維管理和算力排程。

12月19日19:30，智猩猩智算叢集公開課第7期將開講，由基流科技技術負責人敬陽主講，主題為《大規模異構GPU叢集的互聯、運維與排程》。

本次公開課，敬陽老師首先會介紹大模型算力基礎設施的構成，並分析大規模異構GPU互聯的發展現狀以及面臨的挑戰。之後，敬陽老師將對基流科技面向異構GPU叢集的超互聯解決方案Helios，以及大規模異構GPU叢集的監控運維和算力排程平臺的設計與實現進行著重講解。最後，敬陽老師還將展示基流科技在智算叢集構建中的實踐案例。

第7期資訊

主題

《大規模異構GPU叢集的互聯、運維與排程》

提綱

1、大模型算力基礎設施概覽

2、大規模異構GPU互聯發展現狀與挑戰

3、面向異構GPU叢集的超互聯解決方案Helios解析

4、大規模異構GPU叢集的監控運維與算力排程

5、實踐案例

主講人

敬陽，基流科技技術負責人，北京航空航天大學碩士，高階工程師職稱，北京基流科技核心骨幹。參與編寫多項國際/國內發明專利和實用新型專利。曾任北京京東科技有限公司SDN高階研發工程師、Juniper亞太網路研發工程師等職位。在基流科技一起牽頭大規模異構GPU的NCCL互聯最佳化創新、RDMA網路的容錯增強，相關研發成果已成功在萬卡、4千卡及多個2千卡、千卡環境穩定應用。

直播時間

12月19日19:30-20:30

報名方式

有公開課直播觀看需求的朋友，可以新增小助手“瑞秋”進行報名。已新增過“瑞秋”的老朋友，可以給“瑞秋”私信，傳送“智算叢集07”進行報名。對於透過報名的朋友，之後將邀請入群進行觀看和交流。