
智算叢集是打造大模型的標配。為了支撐更多、更大規模的模型訓練與推理,智算叢集建設速度和規模正在飛速增長。
NVIDIA GPU是構建智算叢集的首選計算晶片,但是受產能不足、國際環境等複雜因素的影響,很難實現大規模採購,甚至一卡難求。這給智算叢集的構建帶來了一定的挑戰,但也給國產GPU廠商的產品應用落地提供了機會。
不同廠家的GPU在架構、通訊庫、軟體棧方面均存在巨大差異,如何實現不同架構GPU之間的互聯互通、高效穩定的通訊,以及有效的算力聚合與排程,是異構GPU叢集構建面臨的巨大挑戰。
為了應對上述問題,基流科技構建了面向異構GPU叢集的超互聯解決方案Helios,以及算力基礎設施監控運維平臺和大規模異構GPU算力排程平臺,能夠實現智算叢集中大規模異構GPU之間的高效互聯互通、運維管理和算力排程。
12月19日19:30,智猩猩智算叢集公開課第7期將開講,由基流科技技術負責人敬陽主講,主題為《大規模異構GPU叢集的互聯、運維與排程》。
本次公開課,敬陽老師首先會介紹大模型算力基礎設施的構成,並分析大規模異構GPU互聯的發展現狀以及面臨的挑戰。之後,敬陽老師將對基流科技面向異構GPU叢集的超互聯解決方案Helios,以及大規模異構GPU叢集的監控運維和算力排程平臺的設計與實現進行著重講解。最後,敬陽老師還將展示基流科技在智算叢集構建中的實踐案例。

第7期資訊
主 題

《大規模異構GPU叢集的互聯、運維與排程》
提 綱
1、大模型算力基礎設施概覽
2、大規模異構GPU互聯發展現狀與挑戰
3、面向異構GPU叢集的超互聯解決方案Helios解析
4、大規模異構GPU叢集的監控運維與算力排程
5、實踐案例
主 講 人
敬陽,基流科技技術負責人,北京航空航天大學碩士,高階工程師職稱,北京基流科技核心骨幹。參與編寫多項國際/國內發明專利和實用新型專利。曾任北京京東科技有限公司SDN高階研發工程師、Juniper亞太網路研發工程師等職位。在基流科技一起牽頭大規模異構GPU的NCCL互聯最佳化創新、RDMA網路的容錯增強,相關研發成果已成功在萬卡、4千卡及多個2千卡、千卡環境穩定應用。
直 播 時 間
12月19日19:30-20:30
報名方式
有公開課直播觀看需求的朋友,可以新增小助手“瑞秋”進行報名。已新增過“瑞秋”的老朋友,可以給“瑞秋”私信,傳送“智算叢集07”進行報名。對於透過報名的朋友,之後將邀請入群進行觀看和交流。
