谷歌深夜甩出AI晶片猛獸!最強TPU算力暴漲,能跑推理模型,記憶體大飆升

谷歌稱AI已迎來“推理時代”。
作者 |  陳駿達
編輯 |  心緣
芯東西4月10日報道,今天,在谷歌雲Next大會上,谷歌釋出第七代TPU晶片Ironwood。谷歌機器學習、系統和雲AI副總裁兼總經理Amin Vahdat稱,Ironwood是谷歌迄今為止最強大、最節能的TPU,專為支援思考、推理類模型的大規模應用而設計
每塊Ironwood晶片的峰值算力為4614 TeraFLOPS(第六代TPU晶片Trillium的5倍),記憶體高達192GB(Trillium的6倍);HBM頻寬達到7.2 Tbps(Trillium的4.5倍);其每瓦峰值算力為29.3 TeraFLOPS,是Trillium的2倍多。
透過晶片間互連(ICI)網路,Ironwood實現1.2 Tbps的晶片間雙向頻寬,最高可擴充套件至9216個液冷晶片組成的Pod,總算力達42.5 ExaFLOPS,是目前世界上最大超算El Capitan算力的24倍
對於谷歌雲客戶,Ironwood提供兩種尺寸:256晶片配置和9216晶片配置。開發者還可以利用谷歌的Pathways軟體堆疊,管理數萬個Ironwood TPU的綜合計算能力。全面推出的Cluster Director允許使用者部署和管理具有計算、儲存和網路功能的大型加速虛擬機器叢集。
谷歌稱,Ironwood代表著AI及其基礎設施的發展迎來重大轉變,從提供即時資訊供人類解讀的響應式AI,轉變為主動生成解讀的AI模型,迎來“推理時代”
Ironwood旨在“優雅地管理”思考模型複雜的計算和通訊需求,包括大語言模型(LLM)、混合專家模型(MoE)和高階推理任務等這些需要大規模並行處理和高效的記憶體訪問的場景。
具體而言,Ironwood能在執行大規模張量操作的同時,最大限度地減少晶片上的資料移動和延遲。
由於頂級思維模型的計算需求遠遠超出了任何單個晶片的容量,谷歌為Ironwood TPU配備了低延遲、高頻寬的ICI網路,以支援全TPU Pod規模的協調同步通訊。
Ironwood還配備了增強版SparseCore專用加速器,可用於處理高階排名和推薦任務中常見的超大嵌入。增強版SparseCore可以加速更多領域的任務,從傳統的AI任務擴充套件到金融和科學等領域。
大會現場,谷歌雲宣佈他們將很快推出A4X和A4 VMs(虛擬機器),由英偉達GB200 NVL72和B200 Blackwell GPU提供算力支援,谷歌雲也將成為首批提供Vera Rubin GPU的雲服務廠商。
英偉達創始人兼CEO黃仁勳特地為谷歌雲Next大會錄製了一段影片,他稱英偉達與谷歌雲的“超級合作伙伴關係”涵蓋了每一層面的計算,英偉達將與谷歌雲一起推出加密計算服務,面向全球的高監管與高風險行業客戶。
Ironwood的釋出正值AI晶片領域的競爭不斷加劇。儘管英偉達在該領域處於領先地位,但包括亞馬遜和微軟在內的科技巨頭也在紛紛推出自己的內部解決方案。亞馬遜透過AWS提供了Trainium、Inferentia和Graviton處理器,而微軟則為其Cobalt 100AI晶片提供Azure例項。
隨著AI與行業、場景的整合越來越深入,谷歌正透過對Ironwood等推理場景專用硬體的投資,為這一未來做好準備。


相關文章