最近真是 AI 圈的大年三十初一初二初啊。。。。。
各個大廠都爭先恐後的整花活!
谷歌最近的大動作是釋出了 Gemini 2.0 嘛!2.0 比 1.5 版本快一倍,而且是原生的多模態大模型,能輸入和生成語言、聲音、圖片、影片等。
只能說非常牛,小瑤灰常好奇究竟咋做到的,然後就去扒了下訓練背後的故事,結果!小瑤發現谷歌真正牛的是用來訓練 Gemini 2.0 的晶片 Trillium!即第 6 代 TPU,比上一代 TPU 5e 效能提升可以說非常非常顯著了!
-
訓練效率提高 4 倍以上 -
推理吞吐量提高 3 倍 -
能源效率提高 67% -
每塊晶片的峰值計算效能顯著提升 4.7 倍 -
高頻寬記憶體 (HBM) 容量加倍- -
晶片間互連 (ICI) 頻寬加倍 -
單個 Jupiter 網路結構中有 10 萬個 Trillium 晶片 -
每美元可將訓練效能提高 2.5 倍,每美元可將推理效能提高 1.4 倍
這些硬體上的進步都給 AI 訓練帶來了實打實的好處!包括了:
-
擴充套件 AI 訓練工作負載 -
訓練 LLM,包括密集模型和混合專家 (MoE) 模型 -
推理效能和收集排程 -
嵌入密集型模型 -
提供訓練和推理價效比
要讓像 Gemini 2.0 這樣的多模態大語言模型加速訓練,首先需要更大規模的資料和更強大的計算資源。
Trillium 的技術可以視為一名超級助手:它將龐大而複雜的計算任務分散到眾多主機中,並透過高速 Jupiter 資料中心網路 緊密相連。這種協同工作就好像將 256 個晶片聚合成一個緊密合作的“大家族”。
在加速訓練的過程中,Trillium 藉助名為 “TPU 多切片(TPU multi-slicing)” 的技術,使得大規模訓練變得更加高效。與此同時,還有一個名為 “Titanium” 的系統,它能從主機介面卡到網路架構層面全面支援動態任務解除安裝,確保整個資料中心的執行更加順暢。
在實際應用中,Trillium 在一個由 12 個這樣的“大家族”構成、共計 3072 個晶片的環境中,實現了 99% 的擴充套件效率;在一個更大的 24 個“家族”、共 6144 個晶片的部署中,也依然達到 94% 的擴充套件效率。這意味著,即便是在訓練如 GPT3-175b 這樣超大規模的模型時,無論是在單一資料中心還是跨資料中心環境中,Trillium 都能以極高的效率推動模型訓練程序。
官方連結:https://cloud.google.com/blog/products/compute/trillium-tpu-is-ga
快來和小瑤一起來看看具體的提升!

擴充套件效率大提升!
如下圖所示,即使使用 1 片 Trillium-256 晶片的 Trillium-256 晶片艙作為基線,在擴充套件到 24 個晶片艙時,仍然能夠達到超過 90% 的擴充套件效率。

在訓練 Llama-2-70B 模型時,谷歌測試表明,Trillium 從 4 片 Trillium-256 晶片艙擴充套件到 36 片 Trillium-256 晶片艙時,幾乎實現了線性擴充套件,擴充套件效率達到了 99%

還有一個更直觀的看法就是,將 Trillium TPU 與 Google 前代產品(v5p)對比一下!
在下面的圖表所示,在 12-pod 規模下,Trillium 的擴充套件效率達到了 99%,與同等規模的 Cloud TPU v5p 叢集(總峰值浮點運算次數)相比遙遙領先。

擅長訓練密集型和專家混合(MoE)模型!
像 Gemini 這樣的大語言模型(LLM)本身就具有數十億個引數,先天強大且複雜。要高效訓練這些密集型的大模型,不僅需要雄厚的計算能力,還離不開軟硬體協同最佳化的解決方案。
Trillium 在訓練諸如 Llama-2-70b 和 gpt3-175b 這類極其龐大的 LLM 時,相較於上一代 Cloud TPU v5e 能實現高達 4 倍 的加速效能。
如下圖所示:

此外,除了傳統的“大模型”之外,採用 專家混合(MoE) 架構的大語言模型正日趨流行。
這類架構由多個“專家”神經網路組成,每個專家擅長處理特定的任務領域。然而,與訓練一個單一、龐大的模型相比,對這些專家進行有效協同與管理,無疑提高了訓練的複雜性。
即便如此,Trillium 在訓練 MoE 模型 時也依舊展現出強大的效能提升,如下圖所示,相比上一代 Cloud TPU v5e 能快上 3.8 倍。

推理效能與排程最佳化大升級!
面對越來越重要的多步推理(multi-step inference)需求,具有更高處理效率的加速器變得至關重要。
Trillium 加速並優化了 AI 模型的部署,因此它在影像擴散模型和密集型大語言模型的推理效能上均表現出色。
如下圖所示,相較 Cloud TPU v5e,使用 Trillium 對 Stable Diffusion XL (SDXL)進行推理時,每秒影像吞吐量提升超過 3 倍;在 Llama2-70B 的推理中,每秒 Token 吞吐量提升近 2 倍。

嵌入密集型模型
隨著第三代 SparseCore 的引入 Trillium ,其在處理嵌入密集型模型(embedding-heavy models)時的效能提升了 2 倍,在 DLRM DCNv2 模型上的效能更是提升了 5 倍。
SparseCore 是為嵌入密集型工作負載打造的資料流處理器架構,能夠靈活適應多樣化的計算需求。它擅長處理動態且資料相關的操作,例如散佈-收集(scatter-gather)、稀疏段求和(sparse segment sum)以及分割槽(partitioning),從而在動態資料環境中保持高效運轉。
因此,Trillium 現在不僅在規模和效能上滿足訓練當今最大 AI 工作負載的需求,還注重最佳化每美元效能。
在實際訓練中,相較於 Cloud TPU v5e,Trillium 在訓練密集型 大語言模型(如 Llama2-70b 和 Llama3.1-405b)時,可實現高達 2.1 倍 的效能提升;而與 Cloud TPU v5p 相比,則可獲得 2.5 倍 的效能提升。
在 Trillium 上生成 1000 張影像的成本比 Cloud TPU v5e 離線推理降低 27%,比 Cloud TPU v5e 在 SDXL 上的伺服器推理成本降低 22%。這意味著使用者可以在保證高效能的同時,以更合理的投入獲得更高的產出。

結語
在目前人工智慧創新不斷攀升的時代,Trillium 再次證明了谷歌雲在 AI 基礎設施領域的獨特優勢。
而谷歌不僅能擴充套件至數十萬顆晶片的龐大規模,更能借助軟硬體協同最佳化,讓 Trillium 成為行業新標杆。
不得不說。。底蘊深厚的老牌大廠自有其過人之處,谷歌仍是那個讓人心服口服的科技巨頭!


