
👆如果您希望可以時常見面,歡迎標星🌟收藏哦~
來源:內容編譯自nextplatform,謝謝。
在上週 Google Cloud Next 2025 大會的預釋出會以及隨後的主題演講中,谷歌高層不斷將“Ironwood” TPU v7p 系統與勞倫斯利弗莫爾國家實驗室的“El Capitan”超級計算機進行比較。他們一直搞錯了,這讓我們很惱火。
對於大型人工智慧系統進行這樣的比較是完全合理的,即使在一個案例(El Capitan)中,機器的主要目的是執行傳統的高效能計算(HPC)模擬和建模工作負載,而在另一個案例(Ironwood Pod)中,機器根本無法進行高精度浮點運算,實際上只是為了進行人工智慧訓練和推理而設計的。從某種意義上說,一臺同時使用CPU和GPU混合架構進行計算的機器,由於其廣泛的數值型別和計算精度以及廣泛的工作負載,更像是一臺通用機器,而且這種機器架構的價值在於它的多用途性。
但事實證明,勞倫斯利弗莫爾的 El Capitan 和阿貢國家實驗室的“Aurora”等百億億次級機器可以與使用定製 XPU 加速器構建的機器相媲美,並且由於美國政府能源部與超級計算機制造商達成的優惠交易,我們認為這些機器的價效比高於谷歌使用自有機器的費用,並且遠低於其向租用 TPU 訪問 AI 工作負載的客戶收取的費用。
以下是我們看到的圖表之一:

在這項數學計算中,谷歌將 El Capitan 的持續效能與 Ironwood pod 的理論峰值效能進行了比較,前者搭載 44,544 個 AMD“Antares-A”Instinct MI300A 混合 CPU-GPU 計算引擎,以 64 位浮點精度執行高效能 LINPACK (HPL) 基準測試,後者搭載 9,216 個 TPU v7p 計算引擎。
這是一個非常愚蠢的比較,谷歌的高層不僅應該更清楚這一點,而且他們也確實做到了。但或許更重要的是,效能只是問題的一半。你還必須考慮計算成本。高效能必須以儘可能低的成本實現,而沒有人比美國政府能源部在高效能計算 (HPC) 裝置上的優惠更划算。
在缺乏大量資料的情況下,我們對現代AI/HPC系統進行了價效比分析,其中許多系統基於CPU和GPU的組合,後者來自AMD或Nvidia,而CPU在原始計算方面並不那麼重要。請看下圖:

我們意識到,這種比較並不完美。谷歌和亞馬遜網路服務的定價包含三年的系統租賃費用,這當然也包括電力、冷卻、設施和管理成本。對於圖中所示的許多超級計算機,預算涵蓋了三到四年的設施、電力和冷卻費用,我們已盡力不包含任何非經常性工程 (NRE) 成本,這些成本用於使機器在現場執行和除錯。對於各種人工智慧機器,我們提供了機器大小和成本的估算(這些資訊無法獲取)。
所有估計值均以粗體紅色斜體顯示,對於目前無法做出估計的值,我們會用問號標記。
我們僅展示了採用 3D 環面互連技術,將 TPU 系統連線成相當大的 Pod 的 TPU 系統。上一代“Trillium” TPU v6e 系統也同樣如此,它只能在 2D 環面拓撲中擴充套件到 256 個計算引擎。
正如您所料,在過去四年中,儘管機器效能有所提升,但 FP64 高精度以及 FP16 和 FP8 低精度處理的成本卻有所下降。這當然是好事。但機器成本卻在快速上漲,以至於我們所謂的“能力級”AI 超級計算機現在要花費數十億美元。(想想上圖所示的 xAI“Colossus”機器,它是去年安裝的。)
在上表中,我們計算了在承諾使用折扣(CUD)下租用 Google TPU Pod 的成本。CUD 類似於 Amazon Web Services 的預留例項定價,併為長期承諾提供折扣。傳統的 HPC 超級計算機通常使用三年,有時甚至四年,因此這是一個很好的比較點。Ironwood TPU Pod 的預估定價假設 Google 採取了一定的激進策略,就像它從 TPU v4 Pod 過渡到 TPU v5p Pod 時一樣。
現在,讓我們來澄清一下。一個 Ironwood TPU v7p pod 在 FP16 解析度下的額定速度為 21.26 exaflops,在 FP8 解析度下則為 42.52 exaflops,是其兩倍。該 pod 擁有 1.69 PB 的 HBM 記憶體,我們估計其建造成本約為 4.45 億美元,三年的租金則超過 11 億美元。算下來,谷歌能夠以每萬億次浮點運算約 21 美元的價格使用一個包含 9,216 個 Ironwood TPU 的 Ironwood pod,而租用它的價格約為每萬億次浮點運算 52 美元。
El Capitan 計算機由惠普企業製造,耗資勞倫斯利弗莫爾實驗室 6 億美元,在 FP16 解析度下,峰值效能下每秒萬億次浮點運算的成本為 14 美元。由於英特爾在阿貢國家實驗室的“Aurora”計算機中減記了 3 億美元,因此該能源部實驗室僅為該 AI/HPC 系統支付了 2 億美元,這意味著其在 FP16 精度下每秒可執行 16.1 百億億次浮點運算,而每秒萬億次浮點運算的成本僅為 12 美元。Aurora 計算機的“Ponte Vecchio”GPU 與 El Capitan 的 MI300A ceepie-geepies和 Ironwood pod 的 TPU v7p 引擎不同,它們不支援 FP8 處理,但它們支援 INT8 處理,就像 3D 環面設定中使用的前兩代谷歌 TPU 一樣。
FP8 和 INT8 格式可以使任何擁有它的機器的價效比翻倍,並且它的工作負載可以利用它;FP4 可以在 Nvidia 的“Blackwell”GPU 上使用,並將新增到未來的 XPU AI 計算引擎中,使價效比再次翻倍。
為了簡單起見,我們將 HPC 的效能標準化為 FP64,將 AI 的效能標準化為 FP16,但添加了 FP8 或 INT8 處理的列。目前,公司將盡可能在訓練和推理過程中堅持使用浮點格式,最終將棄用 INT16、INT8 和 INT4 格式。
AWS P5 UltraCluster 是使用 Nvidia “Hopper” H100 GPU 構建的叢集的典範,這些叢集將在 2022 年末、2023 年全年以及 2024 年初投入使用。我們計算了租用一個包含 2 萬個 GPU 的叢集的成本,然後根據當時 H100 的市場價格和其他系統成本估算出購置成本。微軟 Azure 和谷歌雲構建類似的機器以及將其容量出租給終端使用者的成本大致相同。事實上,AWS 和微軟鎖定了 GPU 例項的價格,這可能合法,也可能不合法。
如果我們的估算準確,那麼 Ironwood 叢集對於谷歌而言,其構建成本和客戶租賃成本,大約只有效能相近的 H100 叢集的三分之一,而使用的計算引擎數量還不到後者的一半。(至少以插槽數量衡量是如此。)
但最後,讓我們明確一點。El Capitan 在 FP16 和 FP8 解析度下的效能比 Ironwood 的峰值理論效能高出 2.05 倍,而 Ironwood 的效能並非 El Capitan 的 24 倍。誠然,El Capitan 在 FP64 精度下擁有 2.73 exaflops 的峰值效能,而 Ironwood 卻沒有,而且 El Capitan 在 FP64 模式下的 HPL 效能為 1.74 exaflops。
我們目前還沒有El Capitan 的HPL-MxP 結果,但我們預計在 6 月份於漢堡舉行的 ISC 2025 大會上會公佈結果。HPL-MxP 使用大量混合精度計算,在 HPL 測試中收斂到與全 FP64 數學相同的結果,目前已實現約一個數量級的有效效能提升。這種混合精度的使用引領瞭如何針對低精度數學定製和提升實際 HPC 應用程式,從而在相同硬體上完成更多工作,或使用更少的硬體完成相同工作。
參考連結
https://www.nextplatform.com/2025/04/17/stacking-up-googles-ironwood-tpu-pod-to-other-ai-supercomputers/
END
👇半導體精品公眾號推薦👇
▲點選上方名片即可關注
專注半導體領域更多原創內容
▲點選上方名片即可關注
關注全球半導體產業動向與趨勢
*免責宣告:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察轉載僅為了傳達一種不同的觀點,不代表半導體行業觀察對該觀點贊同或支援,如果有任何異議,歡迎聯絡半導體行業觀察。

今天是《半導體行業觀察》為您分享的第4098期內容,歡迎關注。
推薦閱讀



『半導體第一垂直媒體』
即時 專業 原創 深度
公眾號ID:icbank
喜歡我們的內容就點“在看”分享給小夥伴哦

