頂級伺服器是“金字招牌”亞馬遜雲科技終究還是一個“多面手”

在一年一度的re:Invent大會上,亞馬遜雲科技釋出的新產品、新功能總會讓人有一種眼花繚亂的感覺。但是在這麼多年中,作為全球領先的雲服務商,亞馬遜雲科技幾乎不會把像伺服器機架這樣的大傢伙搬上主會場的舞臺(原因你懂得)。但是re:Invent 2024真的是一個例外。雖然之前的申請屢次被拒絕,但功夫不負有心人,亞馬遜雲科技高階副總裁Peter DeSantis最終還是破天荒地將此次大會最重磅的釋出之一,Amazon Trainium2演示所用的伺服器機架帶到了主舞臺上。
Amazon Trainium2及其相關係列基礎設施為代表的亞馬遜雲科技在單伺服器效能方面的超強表現,標誌著亞馬遜雲科技在縱向擴充套件領域實現了新的突破,同時也讓亞馬遜雲科技支援大規模生成式AI訓練和即時推理的底氣更足了!
超強算力“縱”“橫”開闔
算力是人工智慧的基礎。為了更好地支援生成式AI的訓練和推理,包括亞馬遜雲科技在內的國內外頭部雲服務商都加強了在算力晶片上的投入。眾所周知,早在十年前,亞馬遜雲科技就開啟了定製晶片之路,透過不斷加碼自研晶片,有力推動了其雲基礎設施能力的持續演進和提升,在全棧雲和AI服務領域全面開花。
從雲計算時代開始,到如今的生成式AI時代,平行計算的價值得以進一步凸顯。但實際上,效能的提升總是得益於縱向擴充套件與橫向擴充套件兩方面能力的交錯提升。當縱向擴充套件遇到了瓶頸,橫向擴充套件或許可以透過自身的優勢進行彌補,反之亦然。
1. Amazon Trainium2為何如此“銳利”?
Amazon Trainium2的釋出標誌著亞馬遜雲科技在伺服器縱向擴充套件方面又攀上一個高峰。資料分析和AI平臺巨頭Databricks就計劃藉助Trainium2為其Mosaic AI平臺的客戶提供更優的效能,同時將總體擁有成本降低30%。
眾所周知,Amazon Tranium晶片是專門針對AI進行設計的,提供Neuron核心介面Neuron Kernel Interface(NKI),開發者可以直接訪問裸機的Trainium晶片,編寫計算核心,從而最大程度地提升計算密集型工作負載的效能。隨著模型複雜度和資料量的快速增加,由於並行化自身的一些限制,使得單純擴大叢集規模已無法有效縮短AI訓練的時間;同時,即時推理的需求也超出了單例項架構的承載能力。這就要求單服務的效能在縱向擴充套件方面能夠穿透“天花板”。
為了把伺服器這根“矛”磨得更加銳利,亞馬遜雲科技都下了哪些功夫呢?
研究發現,當模型的引數規模達到某個臨界值時,其效能會有質的飛躍。在過去幾年,大語言模型的引數規模正從數億迅速增長到數千億,甚至是萬億級別。構建一個萬億引數的AI模型,你會需要什麼樣的伺服器?答案就是Amazon EC2 Trn2伺服器和Amazon EC2 Trn2 UltraServers超級伺服器。它們都是專為AI負載設計,可提供快速擴充套件能力。
Amazon EC2 Trn2伺服器是亞馬遜雲科技迄今為止最高效的AI伺服器。Amazon EC2 Trn2例項已正式可用,它配備16個Trainium2晶片,具有高達20.8 Petaflops浮點算力的效能,非常適合訓練和部署具有數十億引數的大型語言模型。與當前基於GPU的EC2 P5e和P5en例項相比,Amazon EC2 Trn2例項的價效比提升30%-40%。另外,Amazon EC2 Trn2 UltraServers透過64個Amazon Tranium2晶片協同工作,能夠提供比任何當前的Amazon EC2 AI伺服器高5倍的計算能力和10倍的記憶體。
通常,大模型推理有兩種工作負載——預填充與標記生成。預填充需要大量的計算資源,將輸入轉換成可以傳遞給下一個程序的資料結構;而標記生成對AI基礎設施的需求正相反,由於每次生成標記時,要從記憶體中讀取整個模型,所以會對記憶體匯流排產生大量需求,但只使用少量的計算。AI推理這種“既要又要”似乎給AI伺服器出了一個難題。但是,強大的AI伺服器總是能夠實現“雙贏”。實踐證明,藉助Amazon Bedrock新推出的延遲最佳化選項,使用者可以在各種領先的模型上獲得最佳推理效能。比如,Llama405B的預填充和標記生成的總響應時間更快;採用延遲最佳化的Claude3.5,其響應時間比標準的Claude3.5快60%。
當前,亞馬遜雲科技正藉助生態的力量,加速Trainium2的應用,深挖其行業價值。一方面,亞馬遜雲科技正與Anthropic攜手打造名為Project Rainier的EC2 UltraCluster,它包含數十萬顆Trainium2晶片,具備Anthropic目前用於訓練其領先的Claude模型的叢集5倍的計算能力。另一方面,亞馬遜雲科技透過提供一系列有效的工具,幫助使用者和開發者更好地發揮Trainium2的效能。比如Amazon Neuron SDK,它包括編譯器、執行時庫和工具,可以幫助開發者最佳化模型,以便更好地在Trainium2上執行;還可與JAX和PyTorch等熱門框架原生整合,使客戶在Trainium2上使用現有程式碼和工作流時只需進行少量程式碼修改。谷歌預計,隨著Trainium2的推出,JAX在機器學習社群的應用將顯著增加。
更令人振奮的是,亞馬遜雲科技新一代AI訓練晶片Amazon Trainium3將在2025年蓄勢待發。它是亞馬遜雲科技首款採用3奈米工藝製造的晶片,在效能、能效和密度上樹立了新的行業標杆。預計搭載Trainium3的UltraServers效能將是Trn2 UltraServers的4倍,從而讓模型的構建、迭代和部署再上一個新臺階。
2. AI時代,網路如何“破圈”?
從晶片到

AI伺服器再到伺服器叢集,亞馬遜雲科技透過縱向擴充套件與橫向擴充套件的有機結合,不斷打破計算效能記錄。

“在AI叢集的世界裡,時間就是金錢。”

亞馬遜雲科技高階副總裁‌Peter DeSantis如是說。而時間就“掌握”在高效能的晶片與高頻寬、低延遲的網路手中。

10p10u即頻寬10Pb/s、延遲低於10ms的最新一代AI網路架構,它已成為亞馬遜雲科技有史以來擴充套件最快的網路,在過去的12個月中安裝超過300萬條鏈路。10p10u擴充套件網路架構的創新之處在於:它將16根單獨光線電纜組成一個單一的聯結器,並在工廠完成組裝,使得線纜安裝上架的時間縮短54%;它還提供定製的光纖插頭和光纖電纜,能夠在機架到達資料中心前進行全面測試並驗證網路連線,縮減除錯佈線時間的同時,透過密封保護有效防止灰塵顆粒進入光纖介面。
另外值得一提的是,亞馬遜雲科技採用專為解決AI網路中光鏈路故障頻發、路由更新緩慢問題的SIDR(Scalable, Intent Driven Routing)全新網路路由協議。它兼具中央控制和最佳化及分散式的速度與彈性,在10p10u網路中可於1秒內恢復網路,顯著提升分散式AI訓練的可靠性和即時性,即使在網路發生故障時也能保持高效執行。
資料中心元件築起“高牆”
亞馬遜雲科技基礎設施服務副總裁Prasad Kalyanaraman表示:“亞馬遜雲科技透過持續推動基礎設施創新,致力於為全球客戶構建效能卓越、可靠、安全且可持續發展的雲。“
為了更好地支援生成式AI的落地,亞馬遜雲科技致力於打造頂級雲基礎設施,其中高效能、靈活擴充套件的晶片、網路顯然是亞馬遜雲科技的“長板”。但是就像眾所周知的“木桶理論”,水桶能裝多少水是由最短的那塊木板決定的。亞馬遜雲科技在所有關鍵的資料中心元件上都設定了“高標”。
首先,透過簡化電氣和機械設計,提高可用性。亞馬遜雲科技最佳化設計的資料中心基礎設施,其可用性高達99.9999%;簡化的系統將可能受到電氣問題影響的機架數量減少了89%。
其次,在冷卻、機架設計和控制系統等方面進行全面創新。
在冷卻方面,亞馬遜雲科技開發了一項先進的機械冷卻解決方案,即“液體到晶片”的冷卻系統,以最低的成本為客戶提供最佳的效能和效率。無縫整合空氣和液體冷卻功能的亞馬遜雲科技冷卻系統,可以更有力地支援包括Amazon Trainium2晶片系列、NVIDIA GB200 NVL72等機架級AI超級計算解決方案,以及亞馬遜雲科技的網路交換機和儲存伺服器等。
在支援高密度AI工作負載方面,亞馬遜雲科技透過資料與生成式AI驅動的軟體,能夠精確預測伺服器的最佳部署方式,進而最佳化資料中心的整體機架佈局,最大化電力的使用效率。亞馬遜雲科技在電力傳輸系統和工程上的突破,使得亞馬遜雲科技在今後兩年內能夠將機架功率密度提升6倍。這意味著在同等計算能力的情況下,使用者所需的資料中心數量將大幅減少。
基於自研的控制系統,亞馬遜雲科技的電氣與機械裝置透過監控、報警和運營流程的標準化,實現了即時診斷和故障排除。在提升控制系統冗餘度的同時,亞馬遜雲科技還有效簡化了系統的複雜性,進一步提升了雲基礎設施的可用性。
最後,透過技術創新實現了能效與可持續的雙提升。比如,由於採用了高效的冷卻系統,其機械能耗降低高達46%;透過採用規範的低碳鋼和低碳混凝土,並結合最佳化的結構設計,在減少鋼材使用量的同時,將混凝土的含碳量減少了35%;備用發電機採用可再生柴油,在其生命週期內可將溫室氣體排放量減少90%。
亞馬遜雲科技大中華區產品部總經理陳曉建表示:我們不僅在雲的核心服務層面持續創新,更在從晶片到模型,再到應用的每一個技術堆疊取得突破,讓不同層級的創新相互賦能、協同進化。”上述創新、最佳化的資料中心元件將在亞馬遜雲科技全球基礎設施中進行部署,覆蓋全球34個區域、108個可用區,從而開啟亞馬遜雲科技基礎設施全棧聯動的“新視界”。
往/期/回/顧
從科技賦能到價值引領,東莞證券可進化的信創雲建設啟示錄“智算”雄起 | 智算作業系統要“頂天立地”


相關文章