公開課預告:OISA構建開放高效能GPU卡間互聯體系|中國移動研究院李鍇主講

10月起,智猩猩晶片與算力教研組全新策劃推出「智猩猩智算叢集公開課」,聚焦叢集構建、網際網路絡、算力排程、儲存等關鍵技術。
目前,「智猩猩智算叢集公開課」前四期已順利完結。騰訊專有云首席架構師方天戟、矩向科技CEO黃朝波、雲脈芯聯產品總監孫偉、益思芯科技解決方案副總裁唐傑四位主講人,分別以《智算叢集技術概述》、《智算中心融合算力排程》、《智算叢集網路互連技術創新應用與展望》、《智算中心 AI Scale-Up 網路技術》為主題,進行了直播講解。
12月4日19:30,智猩猩智算叢集公開課第5期將開講,由中國移動研究院網路與IT技術研究所技術經理李鍇主講,主題為《OISA構建開放高效能GPU卡間互聯體系》。
大模型的爆發,對智慧算力的需求指數級提升,叢集規模邁入萬卡、十萬卡級別。大模型的訓練嚴重依賴叢集內GPU之間頻繁的資料互動,帶來的龐大的通訊開銷導致叢集的有效算力無法隨GPU數量增加而線性增長,這也意味著互聯效能將是決定叢集規模擴充套件和效能提升的關鍵所在。
智算叢集互聯體系的構建需要GPU晶片、交換機、網絡卡、網路協議等軟硬體的緊密結合,技術體系複雜,難度極高。
為了應對GPU卡間互聯的頻寬和時延要求,中國移動聯合產業合作伙伴共同釋出OISA協議,旨在打造一個高效、智慧、靈活開放的GPU卡間互聯體系。OISA採用全向連線設計,能夠確保大規模GPU之間的對等通訊;同時,引入智慧感知設計,透過定義流量感知標籤,並結合流控和重傳機制,最佳化資料傳輸效率。在協議層面,OISA採用統一報文格式、多語義融合、多層次流控和重傳以及集合通訊加速等四大關鍵技術,能夠實現高速、低時延、無損和高可靠的GPU通訊。
本次公開課,李鎧老師首先會介紹智算及GPU卡間互聯的發展背景,並進一步分析為什麼要重塑GPU卡間互聯體系。之後,李鎧老師將著重講解如何利用OISA協議實現高效的GPU卡間互聯,並分享當前OISA的最新進展及下一步計劃。
第5期資訊
 主 題 
《OISA構建開放高效能GPU卡間互聯體系》
 提 綱 
1、智算及GPU卡間互聯背景
2、為什麼要重塑GPU卡間互聯體系
3、如何透過OISA實現高效互聯能力
4、當前OISA進展及下一步計劃
 主 講 人 
李鍇,中國移動研究院網路與IT技術研究所技術經理,主要職責集中在構建通用和智慧算力技術體系、NFV網路基礎設施以及先進計算等關鍵領域。致力於解決資料中心內部處理器、加速器、儲存器等核心元件之間的效率提升問題,特別強調透過採用開放的互聯技術來提高智算中心GPU卡間的資料傳輸效率和效能。以推動新型智算中心的創新,實現更高效、更靈活的資料處理。
 直 播 時 間 
12月4日19:30-20:30
報名方式
有公開課直播觀看需求的朋友,可以新增小助手“瑞秋”進行報名。已新增過“瑞秋”的老朋友,可以給“瑞秋”私信,傳送“智算叢集05”進行報名。對於透過報名的朋友,之後將邀請入群進行觀看和交流。

相關文章