
10月起,智猩猩晶片與算力教研組全新策劃推出「智猩猩智算叢集公開課」,聚焦叢集構建、網際網路絡、算力排程、儲存等關鍵技術。
目前,「智猩猩智算叢集公開課」前三期已順利完結。騰訊專有云首席架構師方天戟、矩向科技CEO黃朝波、雲脈芯聯產品總監孫偉三位主講人,分別以《智算叢集技術概述》、《智算中心融合算力排程》、《智算叢集網路互連技術創新應用與展望》為主題,進行了直播講解。
11月28日19:30,「智猩猩智算叢集公開課」第4期將開講,由益思芯科技解決方案副總裁唐傑主講,主題為《智算中心 AI Scale-Up 網路技術》。
智算叢集的規模越來越大,從最初的千卡、萬卡到今天的十萬卡。智算叢集規模飛速增長的同時,大家也開始關注如何保證超大規模的卡間高效協同,是充分發揮叢集計算效能的關鍵。這使得人們進一步認識到,對超大規模智算叢集的構建來說,智算網路已經成為與計算晶片同等甚至更重要的關鍵技術之一。
Scale-Out、Scale-Up是目前廣受關注的兩大智算網路技術。Scale-Out透過乙太網或Infiniband,實現GPU之間的RDMA功能,即所謂的前端網路。Scale-Up則用於GPU之間高速互連,可以實現跨GPU的記憶體讀寫,也稱後端網路。從本質上來看,Scale-Out、Scale-Up都是為了實現GPU之間記憶體方面的資料傳輸,那麼二者的本質區別是什麼?為什麼不能將二者合而為一呢?
本次公開課,唐傑老師首先會闡述AI智算網路為何要有Scale-Up/Out之分,之後會著重講解益思芯StarLink互聯技術要解決的問題,以及StarLink實現的技術特點和在智算中心實現StarLink互聯的技術路徑。

第4期資訊
主 題

《智算中心 AI Scale-Up 網路技術》
提 綱
1、AI智算網路為什麼要有Scale-Up/Out之分
2、StarLink互聯技術要解決的問題
3、StarLink實現的技術特點
4、在智算中心實現StarLink互聯的技術路徑
主 講 人
唐傑,益思芯科技解決方案副總裁,華東理工大學工學碩士,目前就職於益思芯科技上海有限公司,負責產品方案;主要構建以益思芯自主產權的P4為中心的資料中心虛擬網路加速加速方案,NVMe-oF 以及virtio-BLK/NVMe益思芯儲存方案的設計和驗證, Resnics自主開發的高速RDMA 網絡卡在算力網路的應用。在2022年加入益思芯之前,在FPGA廠商Xilinx主要負責資料中心的方案,積極投身軟硬體結合的方案設計和推廣。
直 播 時 間
11月28日19:30-20:30
報名方式
有公開課直播觀看需求的朋友,可以新增小助手“瑞秋”進行報名。已新增過“瑞秋”的老朋友,可以給“瑞秋”私信,傳送“智算叢集04”進行報名。對於透過報名的朋友,之後將邀請入群進行觀看和交流。
