公開課預告：大模型時代的智算GPU叢集｜阿里雲智慧集團智算叢集產品專家陳禕主講

智算叢集已成為大模型基建軍備競賽的標配。

在大模型訓練場景下，隨著模型引數規模從千億向萬億邁進，算力需求激增。同時，隨著大模型在不同領域的應用落地，推理算力需求也迎來爆發式增長。據中信建設證券資料顯示，2024年至2027年全球大模型推理的峰值算力需求量的年複合增長率為113%，遠高於訓練的78%。

為了應對不斷增長的算力需求，全球各地智算叢集建設正在如火如荼地進行之中，且規模也從早期的千卡、萬卡快速增長到十萬卡，甚至向百萬卡級別發展。但是，叢集規模的線性擴充套件並不直接等同於算力的線性提升。智算叢集要發揮出極致有效的算力，需要從卡間和節點間的網際網路絡、軟硬體適配、海量資料處理策略、運維保障等多個方面進行協同最佳化。

12月13日19:30，智猩猩智算叢集公開課第6期將開講，由阿里雲智慧集團智算叢集產品專家陳禕主講，主題為《大模型時代的智算GPU叢集》。

本次公開課，陳禕老師將從產業一線的角度，分享AI技術演進下的GPU叢集需求變化，並從Scale Up、Scale Out兩個層面，闡述叢集算力的擴充套件路徑。之後，陳禕老師還將重點講解大規模GPU叢集的效能最佳化方法，以及穩定性挑戰和最佳化實現，並對AI基礎設施2025年的發展趨勢進行展望。