擁有20萬GPU的叢集建好了,只用了122天

👆如果您希望可以時常見面,歡迎標星🌟收藏哦~
來源:本文編譯自tomshardware,謝謝。
埃隆·馬斯克的 xAI 孟菲斯超級叢集一期專案剛剛達到滿負荷運營,現場變電站已投入運營並連線到主電網。據大孟菲斯商會稱,該站點將從孟菲斯電力、燃氣和水務局 (MLGW) 和田納西河谷管理局 (TVA) 獲得 150 兆瓦的電力。除此之外,xAI Colossus 超級計算機還擁有另外 150 兆瓦的 Megapack 電池作為備用電源,使其能夠在斷電或用電需求增加時持續供電。
馬斯克於去年 7 月首次啟動他的 AI 叢集,該叢集在單一架構上搭載了 10 萬塊 Nvidia H100 GPU。這臺 xAI 超級計算機的搭建速度非常快,公司只用了 19 天就將其投入執行——而 Nvidia 執行長黃仁勳表示,這通常需要四年時間。然而,如此快的速度意味著它不得不走一些捷徑,比如在沒有電網供電的情況下啟動,因此該站點使用了大量天然氣渦輪發電機來滿足其電力需求。初步報告稱,該站點內停放了 14 臺發電機,每臺輸出功率為 2.5 兆瓦,但一些居民最近抱怨說,附近發現了超過 35 臺渦輪機。
這一開發意味著該基地一期工程現在可以完全依靠田納西河谷管理局(TVA)的電力執行,TVA約60%的發電量來自水力發電、太陽能、風能和核能等可再生能源。因此,xAI現在將停用約一半曾臨時用於為Colossus專案供電的發電機——但另一半仍將保留,以滿足孟菲斯超級叢集二期工程的電力需求。
不過,我們預計這種情況不會持續太久,因為第二座變電站預計將於今年秋季投入使用,該變電站將提供另外150兆瓦的電力。這意味著Colossus變電站的總髮電量將達到300兆瓦,足以為30萬戶家庭供電。這是一個巨大的電力需求,此前曾有人擔心田納西河谷管理局(TVA)是否有足夠的發電能力來滿足這一需求。電力供應商已向各利益相關方保證,它能夠在不影響其他電力供應的情況下滿足這一需求。
Colossus 最初於 2024 年 7 月推出,搭載 10 萬塊 Nvidia H100 晶片,到 2025 年 2 月,其 GPU 數量將翻一番,達到 20 萬塊。據報道,馬斯克希望將孟菲斯超級叢集的 GPU 數量擴大到 100 萬塊,並且他已經在努力籌集資金,以實現這一夢想。然而,在同一地點部署如此多的 GPU 意味著需要更多的電力——希望田納西河谷管理局 (TVA) 能夠在不影響孟菲斯超級叢集附近居民電力質量的情況下滿足這一需求。
關於Colossus,我所知道的
埃隆·馬斯克對各科技領域的宏偉願景如今已聚焦於人工智慧 (AI),他創立了xAI公司,致力於 AI 開發。這項努力的核心是 Colossus,它是全球最強大的超級計算機之一,能夠徹底重新定義 AI 的能力。
Colossus 的誕生不僅標誌著馬斯克 xAI 的一項重要成就,也標誌著整個人工智慧社群的一項重要成就,該社群希望在該技術的應用中發揮主導作用。
xAI 由特斯拉和 SpaceX 執行長馬斯克於 2023 年中期正式成立,目標是 “發現現實世界是什麼樣的”。
根據其使命宣言,“xAI 是一家致力於構建人工智慧以加速人類科學發現的公司。我們的使命是增進我們對宇宙的集體理解。”
據馬斯克稱,他創立這家公司是因為他開始擔心不受監管的人工智慧的危險。xAI 的既定目標是利用人工智慧進行科學發現,但方式不具有剝削性。
xAI 超級計算機旨在推動從機器學習到神經網路的尖端人工智慧研究,計劃使用 Colossus 訓練大型語言模型(如 OpenAI 的 GPT 系列),並將框架擴充套件到自動機器、機器人和科學模擬等領域。
Colossus 於 2024 年 9 月在田納西州孟菲斯市啟動。該資料中心位於南孟菲斯工業園區內一處前伊萊克斯製造基地。
田納西河谷管理局 已批准向該電廠提供超過 100 兆瓦的電力。
Colossus 系統最初配備了 100,000 個 Nvidia H100 GPU,這使其成為世界上最重要的 AI 訓練平臺之一。
這些 GPU 在 19 天內完成部署,凸顯了 xAI 對快速擴充套件其 AI 基礎設施的關注。
考慮到配置如此廣泛的基礎設施通常需要數月甚至數年的時間,部署本身引起了媒體和資料中心/人工智慧行業的極大關注。
最初設定的 100,000 個 GPU 使其能夠達到高水平的處理能力,使 xAI 能夠以尖端速度處理高度複雜的 AI 模型。
鑑於當代人工智慧模型的複雜性和規模不斷增加,這種速度和效率至關重要,因為現代人工智慧模型需要輸入大量資料集並使用巨大的計算能力。
LLM 設計非常類似於“如果你建造它,他們就會來”的模型,其重點是利用可用的處理能力。
2024 年 11 月,xAI 宣佈將透過一筆數十億美元的交易將 Colossus 的容量提高一倍。
該公司計劃在未來幾年籌集 60 億美元,其中大部分來自中東主權財富基金。
它將涵蓋在現有 GPU 上新增 100,000 個 GPU 的成本,使現有 GPU 數量達到 200,000 個。
計劃中的升級將新增 Nvidia 的新款 Blackwell H200 GPU,其功能比最初推出的 H100 GPU 更加強大。
H200 GPU 在效能和效率方面提供了顯著的提升,並將使 xAI 能夠更快、更準確地訓練 AI 模型。
這些 GPU 針對深度學習和神經網路訓練進行了最佳化,因此非常適合 xAI 的大型 AI 專案。
據 Nvidia 稱,根據工作負載的不同,Blackwell GPU 的速度可比上一代 GPU 快 20 倍。
然而,Blackwell GPU 向客戶交付卻遇到了障礙。
由於 Nvidia 發現並修復了一些設計缺陷,下一代晶片的交付時間已經推遲了一個季度。
據報道,Nvidia 定製設計的伺服器機架中的 72 GPU 配置過熱,因此出現了新的延遲。
據雅虎財經報道,儘管尚未確認 GB200 的 2025 年交付是否會延遲,而且 Nvidia 也不願評論伺服器機架的最終設計是否已經完成,但該問題的宣佈導致 Nvidia 股價下跌近 3%。
這個更大的 Colossus 基礎設施將使 xAI 更容易構建和測試其 AI 模型(特別是 Grok LLM)。
它們旨在挑戰甚至超越目前占主導地位的人工智慧系統,例如 OpenAI 的 GPT-4 和谷歌的 Bard。
Colossus 與其他超級計算機的不同之處不僅在於其底層計算能力,還在於其量身定製的人工智慧基礎設施。
該系統旨在滿足人工智慧訓練的特殊需求——處理大量資料並執行必須並行化的高度先進的演算法。
據廣泛報道,戴爾科技和超微都與 xAI 合作打造了這臺超級計算機。
Nvidia H100 和 H200 GPU 的組合將使 Colossus 在速度和效率方面佔據明顯優勢。這些 GPU 還配備專用的張量核心,有助於加速深度學習演算法。
此外,這些 GPU 的記憶體頻寬足夠強大,可以有效處理訓練最新 AI 模型所需的大資料集。
Colossus 的主要構建模組是 Supermicro 4U 通用 GPU 液冷系統。
每臺4U伺服器配備8塊NVIDIA H100 Tensor Core GPU,為AI訓練任務提供強大的算力。
伺服器被組織成機架,每個機架包含八臺 4U 伺服器,每個機架總共 64 個 GPU。
每個 4U 伺服器之間都有一個用於液體冷卻的歧管,佔用 1U 的機架空間,每個機架的底座包含一個 4U CDU 泵送系統,提供冗餘冷卻和管理單元。
這些伺服器使用 NVIDIA 的 Spectrum-X 乙太網網路平臺進行互連,實現了 AI 訓練所必需的高頻寬、低延遲通訊。
每臺伺服器都配備多個 400GbE 連線,執行在支援 800 GBE 的電纜上,而不是Nvidia 也支援用於大規模部署的Infiniband 選項。
在當前架構中,叢集中的每個 GPU 都配備一個專用的 400 GB 網路介面卡,另外還有一個專用於伺服器的 400 GBE NIC,每個伺服器的潛在總頻寬為 3.6 TB。
每個陣列有 512 個 GPU(8 個機架,每個機架 64 個 GPU),總共有近 200 個陣列。
10 月份,NVIDIA 負責人黃仁勳宣佈,最初的 100,000 個 GPU 超級計算機僅用 19 天就搭建完成,而他所說的普通資料中心的建設過程通常需要四年時間。
那麼公司利用這些效能做什麼呢?
Grok 系列大型語言模型是 xAI 的重點關注物件。這類模型能夠解釋和建立類似人類的文字,就像 OpenAI 的 GPT 系列一樣。
由於 Colossus 的計算能力,Grok 模型應該比當前的語言模型更有效、更強大。
除了語言模型之外,xAI 還計劃探索其他 AI 應用,例如自動駕駛汽車、機器人技術和科學模擬。xAI 計劃透過 Colossus 挑戰 AI 在這些領域的能力。
例如,該公司正在探索在科學領域利用人工智慧尋找新材料、節約能源,甚至幫助尋找新藥。
(如果您認為所有這些能力都是為了讓特斯拉自動駕駛汽車成為現實,那麼還有一臺完全不同的 AI 超級計算機專門用於這項任務,即位於特斯拉 GigaTexas 工廠的擁有 50,000 個 GPU 的 Cortex AI 超級叢集。)
Colossus 還採用了所謂的“尖端冷卻系統”,確保 GPU 以最穩定、最佳的溫度執行,以實現穩定性和效能。
這一點尤其重要,因為如此大量的快速 GPU 會產生大量熱量。
對於這種型別的機架密度,最佳冷卻絕對至關重要,並且使 Blackwell 伺服器基礎設施因過熱而導致的潛在延遲變得更容易理解。
由於像 Colossus 這樣的客戶都急於大量推出下一代設計,因此冷卻系統從一開始就必須正常工作。
正如我們之前報道的那樣,許多供應商正在與 Nvidia 合作,專門為 Nvidia GPU 伺服器開發冷卻系統。
雖然我們已經報道了資料中心液體冷卻領域的許多供應商,但該領域另一家快速發展的公司Boyd上週宣佈,他們推出了一款產品,可以“藉助 Nvidia 的 GB200 NVL72 增強 AI 部署的簡易性和速度”。  這是為 72 GPU 叢集中的下一代 Blackwell GPU 設計的伺服器硬體。
Boyd 執行長 Doug Britt 指出,他們的液冷技術專為人工智慧設計,解決了如何冷卻這些高要求應用程式和硬體的問題,同時簡化了部署並使其更快地啟動和執行。Britt 補充道:
我們看到,下一代大型語言模型的引數已超過 1 萬億,需要先進的計算能力,例如 NVIDIA GB200 NVL72 平臺所提供的能力,而更高水平的冷卻技術則可進一步增強其效能。AI 系統架構師依靠 Boyd 冷卻技術,以最節能的方式有效擴充套件計算密度,而無需擴大資料中心和機架空間。
過去幾年,建立最有效的人工智慧系統的競爭日益激烈,谷歌、微軟和 OpenAI 大力投資超級計算機和人工智慧研究。
透過對 Colossus 的投資,xAI 具有潛在的競爭優勢,使其能夠快速訓練其 AI 模型,並可能比競爭對手更快地取得突破。
大規模模型訓練不僅縮短了構建新 AI 技術所需的時間,而且還可以幫助 xAI 深入研究由於計算限制而無法實現的新 AI 研究領域。
透過籌集資金來擴大 Colossus 的規模,xAI 正在為未來做好準備。新增的 10 萬塊 GPU 將使系統的物理容量幾乎翻倍,這將使 xAI 能夠應對更大的挑戰。
與此同時,Nvidia 聲稱 GB200 GPU 的效能提升遠超現有的 H100 部件,這並非簡單的數學意義上的效能提升。這可能會對 AI 社群產生深遠的影響,xAI 的發展將為重新定義 AI 技術的應用提供機會。
Colossus 專案並非一帆風順。為一個擁有 20 萬個 GPU 的系統提供冷卻和供電的成本非常高昂,尤其是在可持續性成為首要關注點的當下。
此外,馬斯克表示,他預計 Colossus 擴建所需的資金將依賴於主權財富基金,尤其是來自中東的基金。
該計劃受到了一些方面的批評,有人認為,外國擁有新的人工智慧技術可能會產生地緣政治後果,特別是如果它被應用於研究角色之外的實際用途。

參考連結

https://www.tomshardware.com/tech-industry/artificial-intelligence/musks-colossus-is-fully-operational-with-200-000-gpus-backed-by-tesla-batteries-phase-2-to-consume-300-mw-enough-to-power-300-000-homes
END
👇半導體精品公眾號推薦👇
▲點選上方名片即可關注
專注半導體領域更多原創內容
▲點選上方名片即可關注
關注全球半導體產業動向與趨勢
*免責宣告:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察轉載僅為了傳達一種不同的觀點,不代表半導體行業觀察對該觀點贊同或支援,如果有任何異議,歡迎聯絡半導體行業觀察。
今天是《半導體行業觀察》為您分享的第4028期內容,歡迎關注。
推薦閱讀
『半導體第一垂直媒體』
即時 專業 原創 深度
公眾號ID:icbank 
喜歡我們的內容就點“在看”分享給小夥伴哦


相關文章