谷歌迄今最強晶片,第七代TPU釋出

👆如果您希望可以時常見面,歡迎標星🌟收藏哦~

來源:內容編譯自google,謝謝。

今天,在 Google Cloud Next 25 大會上,谷歌隆重推出第七代張量處理單元 (TPU) Ironwood。它是我們迄今為止效能最高、可擴充套件性最強的定製 AI 加速器,也是首款專為推理而設計的加速器。十多年來,TPU 一直為 Google 最苛刻的 AI 訓練和服務工作負載提供支援,並助力公司的雲客戶實現同樣的目標。Ironwood 是谷歌迄今為止效能最強大、效能最強、能效最高的 TPU。它專為大規模支援思考和推理 AI 模型而設計。
Ironwood 代表著人工智慧及其發展基礎設施的重大轉變。它代表著從提供即時資訊供人類解讀的響應式人工智慧模型,到能夠主動生成洞察和解讀的模型的轉變。這就是我們所說的“推理時代”,屆時人工智慧代理將主動檢索和生成資料,以協作方式提供洞察和答案,而不僅僅是資料。
Ironwood 旨在支援生成式人工智慧的下一階段發展及其巨大的計算和通訊需求。它可擴充套件至 9216 個液冷晶片,並透過突破性的晶片間互聯 (ICI:Inter-Chip Interconnect) 網路連線,功率接近 10 兆瓦。它是Google Cloud AI 超級計算機架構的幾個新元件之一,該架構可協同最佳化硬體和軟體,以應對最苛刻的人工智慧工作負載。藉助 Ironwood,開發者還可以利用 Google 自己的Pathways軟體堆疊,可靠、輕鬆地利用數萬個 Ironwood TPU 的綜合計算能力。
下面我們將詳細介紹這些創新如何協同工作,以無與倫比的效能、成本和功率效率承擔最苛刻的培訓和服務工作負載。
Ironwood 的主要特點
Google Cloud 是唯一一家擁有十多年 AI 計算經驗的超大規模提供商,致力於支援尖端研究,並將其無縫整合到 Gmail、搜尋等數十億使用者的日常服務中。所有這些專業知識構成了 Ironwood 的核心功能。其主要功能包括:
1. 效能顯著提升的同時,更注重能效,使 AI 工作負載能夠更經濟高效地執行。Ironwood的每瓦效能是公司去年釋出的第六代 TPU Trillium 的兩倍。在可用功率成為 AI 功能交付制約因素之一的當下,谷歌為客戶工作負載提供了顯著更高的每瓦容量。谷歌先進的液冷解決方案和最佳化的晶片設計,即使在持續繁重的 AI 工作負載下,也能可靠地維持高達標準風冷兩倍的效能。事實上,Ironwood 的能效幾乎是我2018 年推出的首款雲 TPU 的 30 倍。
2. 高頻寬記憶體 (HBM) 容量大幅提升。Ironwood每晶片容量高達 192 GB,是 Trillium 的 6 倍,能夠處理更大的模型和資料集,減少頻繁資料傳輸的需求,並提升效能。
3. 顯著提升 HBM 頻寬,單晶片高達 7.2 TBps,是 Trillium 的 4.5 倍。如此高的頻寬確保了快速的資料訪問,這對於現代 AI 中常見的記憶體密集型工作負載至關重要。
4. 增強晶片間互連 (ICI) 頻寬。雙向頻寬提升至 1.2 Tbps,是 Trillium 的 1.5 倍,從而實現更快的晶片間通訊,促進大規模高效分散式訓練和推理。
據nextplatform介紹,TPU v7p 晶片是谷歌首款在其張量核心和矩陣數學單元中支援 FP8 計算的 TPU。之前的 TPU 支援 INT8 格式和推理處理,以及 BF16 格式和訓練處理。Ironwood 晶片還配備了第三代 SparseCore 加速器,該加速器首次亮相於 TPU v5p,並在去年的 Trillium 晶片中得到了增強。SparseCore 晶片最初的設計目的是加速推薦模型,這些模型利用嵌入來跨使用者類別進行推薦。Ironwood 晶片中的第三代 SparseCore 晶片中編碼了各種演算法,以加速金融和科學計算,但具體細節尚未透露。
從圖中我們可以看到, Ironwood 封裝的中心有兩個晶片組,這讓我們相信它不像之前的 TPU 那樣是單片式的。在我們看來,這些晶片的組合看起來比標線極限要大一些。它有 8 個 HBM 記憶體組,每側 4 個,如果今年出貨,估計是 HBM3E。這意味著每個堆疊有 8 個 DRAM 單元,每個 3 GB,總共 24 GB。
Iron Word 封裝包含一個位於計算晶片上方的中央晶片組,以及位於記憶體條上方沿頂部邊緣的另外兩個晶片組。這些無疑是用於晶片間互連 (ICI) 的 I/O 晶片,谷歌利用 ICI 將 TPU 晶片電連線到各個 Pod。更大的 TPU 聚合體則透過谷歌的“Jupiter”光路交換機進一步連線在一起。
Iron Word 的外觀如下:
與之前的 TPU 設計一樣,系統板上有四個 Ironwood TPU。我們正在努力弄清楚主機板上所有這些晶片的具體結構。我們覺得 TPU 系統板插在背板上,主機伺服器中可能有兩個這樣的 TPU,主機 CPU 也可能是其中之一,而主機 CPU 目前可能是谷歌自己的 Axion Arm 伺服器 CPU。Pod 中有一些網路介面用於連線 TPU。
Ironwood TPU 有兩種不同的配置:一種是適用於推理的 256 個計算引擎的 Pod,另一種是適用於訓練的 9,216 個計算引擎的 Pod。(如果您的推理任務非常龐大,我們認為它可以在更大的 Pod 上執行。)TPU Pod 採用 2D 或 3D 環面拓撲結構的 ICI,具體取決於規模。以下是前兩代採用更具可擴充套件性的 3D 環面拓撲結構的 TPU Pod 以及即將推出的 Ironwood Pod 的外觀:
Ironwood TPU v7p 的 pod 尺寸比上一代 TPU v5p pod 增加了 2.85%,雖然不算多,但還是值得一試。在相同的 BF16 解析度下,TPU v7p 晶片的 AI 訓練效能比 TPU v5p 提升了 5 倍,使用 INT8 或 FP8 資料型別的推理效能也同樣提升。(我們不確定是否存在 INT8 資料型別,但出於向下相容的考慮,我們推測應該存在。)對於 AI 訓練而言,FP8 資料型別可將訓練吞吐量翻倍,因此比 TPU v5p 中使用的 BF16 提高了 10 倍。Ironwood 封裝的 HBM 記憶體容量提高了 2 倍,記憶體頻寬也提高了 2.7 倍。
新晶片上的 ICI 互連頻寬提高了 12%,鏈路減少了三分之一,其中 TPU v7p 有四個 ICI 鏈路,執行速度為 1.34 Tb/秒,TPU v5p 有六個埠,執行速度為 800 Gb/秒。
以下是我們整理的更完整的 TPU 顯著特性表,我們盡力填補了空白:
如上圖所示,我們已盡力估算缺失資料,這些資料以紅色粗斜體顯示。我們還查閱了 TPU 手冊,並儘可能更新了 Trillium TPU v6e 的資料。順便說一句,谷歌正在與 Trillium 進行大量比較,Trillium 在 AI 推理方面表現不錯,但如果要比較 AI 訓練,那麼 TPU v5p 是更佳的基準。
於AI訓練而言,以下幾點至關重要。搭載8960個計算引擎的TPU v5p pod在INT8解析度下推理效能最高可達8.22 exaflops,在BF16解析度下訓練效能最高可達4.11 exaflops(僅為其一半)。最大的Ironwood pod擁有9216個計算引擎,在FP8(可能也包括INT8)下效能最高可達42.52 exaflops,在BF16解析度下訓練效能最高可達21.26 exaflops。這意味著單個系統映象的效能提升了5.17倍。透過OCS切換,谷歌可以在單個數據中心內整合10萬個TPU v7p計算引擎,就像它已經在Trillium TPU v6e裝置上所做的那樣。
我們不知道谷歌會如何定價 Ironwood 的容量。不過,我們肯定會盡快通知您。以上價格和相對價效比是去年夏天的。
谷歌喜歡將其與 TPU v2 進行比較,後者是其首款能夠同時進行訓練和推理的自主研發 AI 引擎,早在 2017 年 5 月就已釋出。基於 TPU v2 的計算能力在當年第三季度即可出租。當然,谷歌本身並不出售 TPU 或基於 TPU 的系統,也不允許第三方出售。
效能提升 3600 倍,每瓦效能提升 29.3 倍,這看起來令人印象深刻,而且在耗電 10 兆瓦的 Ironwood 大型機上實現如此高的效能似乎也情有可原。但我們需要做一些研究,才能弄清楚它與 Nvidia 系統相比如何。(這取決於你如何稱呼加速器記憶體域。)
我們很想知道 Google 安裝了多少 TPU 容量,Trillium 和 Ironwood 的安裝計劃是什麼,以及分配給 Google 內部使用和雲使用者使用的 TPU 容量各佔多少。
Ironwood,助力推理時代
據谷歌所說,Ironwood 旨在優雅地管理“思維模型”的複雜計算和通訊需求,這些模型涵蓋大型語言模型 (LLM)、混合專家模型 (MoE) 和高階推理任務。這些模型需要大規模並行處理和高效的記憶體訪問。具體而言,Ironwood 旨在在執行大規模張量操作的同時最大限度地減少晶片上的資料移動和延遲。在前沿領域,思維模型的計算需求遠遠超出了任何單個晶片的容量。我們設計了具有低延遲、高頻寬 ICI 網路的 Ironwood TPU,以支援全 TPU Pod 規模的協調同步通訊。
對於 Google Cloud 客戶,Ironwood 根據 AI 工作負載需求提供兩種尺寸:256 晶片配置和 9,216 晶片配置。
當每個 pod 擴充套件至 9,216 塊晶片,總計算能力達 42.5 百億億次浮點運算 (Exaflops) 時,Ironwood 支援的計算能力是全球最大超級計算機 El Capitan 的 24 倍以上,而後者每個 pod 的計算能力僅為 1.7 百億億次浮點運算 (Exaflops)。Ironwood 可提供處理最苛刻的 AI 工作負載所需的強大並行處理能力,例如超大規模密集 LLM 或具有訓練和推理思維能力的 MoE 模型。每個晶片的峰值計算能力可達 4,614 TFLOPs。這代表著 AI 能力的巨大飛躍。Ironwood 的記憶體和網路架構確保始終提供正確的資料,以支援如此大規模的峰值效能。
Ironwood 還配備了增強版SparseCore,這是一款專用加速器,用於處理高階排名和推薦工作負載中常見的超大嵌入。Ironwood 中擴充套件的 SparseCore 支援可以加速更廣泛的工作負載,包括從傳統的 AI 領域擴充套件到金融和科學領域。
Pathways 是 Google 自有的機器學習執行時,由 Google DeepMind開發,能夠跨多個 TPU 晶片實現高效的分散式計算。Google Cloud 上的 Pathways 讓超越單個 Ironwood Pod 的遷移變得簡單,能夠將數十萬個 Ironwood 晶片組合在一起,從而快速推進新一代人工智慧計算的前沿技術。
“Ironwood 代表著推理時代的獨特突破,它提升了計算能力、記憶體容量、ICI 網路的進步和可靠性。這些突破,加上近兩倍的能效提升,意味著我們最苛刻的客戶能夠以最高的效能和最低的延遲完成訓練和服務工作負載,同時滿足計算需求的指數級增長。Gemini 2.5 和諾貝爾獎得主 AlphaFold 等領先的思維模型如今都在 TPU 上執行。我們迫不及待地想看到 Ironwood 在今年晚些時候正式釋出後,由我們的開發者和 Google Cloud 客戶帶來哪些 AI 突破。”谷歌總結說。
參考連結
https://blog.google/products/google-cloud/ironwood-tpu-age-of-inference/
https://www.nextplatform.com/2025/04/09/with-ironwood-tpu-google-pushes-the-ai-accelerator-to-the-floor/
END
👇半導體精品公眾號推薦👇
▲點選上方名片即可關注
專注半導體領域更多原創內容
▲點選上方名片即可關注
關注全球半導體產業動向與趨勢
*免責宣告:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察轉載僅為了傳達一種不同的觀點,不代表半導體行業觀察對該觀點贊同或支援,如果有任何異議,歡迎聯絡半導體行業觀察。
今天是《半導體行業觀察》為您分享的第4090期內容,歡迎關注。
推薦閱讀
『半導體第一垂直媒體』
即時 專業 原創 深度
公眾號ID:icbank
喜歡我們的內容就點“在看”分享給小夥伴哦


相關文章