公眾號記得加星標⭐️,第一時間看推送不會錯過。

人工智慧(AI)模型呈指數級增長,目前已達到萬億引數,這揭示了傳統單晶片圖形處理單元(GPU)架構在可擴充套件性、能源效率和計算吞吐量方面的顯著侷限性。晶圓級計算已成為一種變革性的正規化,它將多個小晶片整合到一塊單片晶圓上,以提供前所未有的效能和效率。Cerebras晶圓級引擎(WSE-3)擁有4萬億電晶體和90萬個核心,特斯拉的Dojo每個訓練晶片擁有1.25萬億電晶體和8,850個核心,這些平臺都體現了晶圓級AI加速器滿足大規模AI工作負載需求的潛力。
本綜述對晶圓級AI加速器和單晶片GPU進行了全面的比較分析,重點關注它們在高效能AI應用中的相對效能、能源效率和成本效益。同時,也探討了臺積電(TSMC)的晶圓上晶片封裝技術(CoWoS)等新興技術,該技術有望將計算密度提高多達40倍。
此外,本研究還討論了關鍵挑戰,包括容錯、軟體最佳化和經濟可行性,深入探討了這兩種硬體正規化之間的權衡和協同作用。此外,還討論了新興的AI硬體趨勢,包括三維(3D)整合、光子晶片和先進半導體材料。本綜述旨在透過評估它們的優缺點,為可擴充套件和節能AI計算的開發提供資訊。未來的展望概述了未來5到10年內預計的關鍵進展,這些進展將塑造下一代AI硬體。

圖1. Cerebras、NVIDIA、Google和特斯拉在AI硬體發展中的關鍵里程碑時間線 (1993-2024)
上圖是AI硬體主要平臺按時間順序演進,突出顯示了四家領先公司的重要釋出和產品:Cerebras 的里程碑(黃色)包括晶圓級引擎 WSE-1 (2019)、WSE-2 (2021) 和 WSE-3 (2024) 的釋出,以及公司在2015年的成立。NVIDIA 的貢獻(綠色)涵蓋了從 GeForce 256 (1999) 到最近的 Blackwell B100/B200 GPU (2024),其中包括 Tesla V100、A100、H100 和 RTX 4090 等知名架構。Google 的 TPU 系列(藍色)展示了從2015年初始開發到2024年 TPU v6e 的 successive 代次。Tesla(紅色)於2021年宣佈其 Dojo 系統,從而進入AI硬體領域。這條對比時間線突顯了行業領導者在高效能AI加速器方面不斷加速的創新。
引言
在當今技術創新的時代,人工智慧(AI)已成為科學和工業領域的一股變革力量。大規模AI模型的開發徹底改變了問題解決方式,例如AlphaFold2精準預測人類蛋白質結構、AlphaTensor在矩陣乘法演算法上的進步以及DGMR增強天氣預報能力等突破性成就,都例證了AI驅動解決方案在應對全球挑戰方面無與倫比的力量。
然而,AI模型的快速發展伴隨著計算需求的指數級增長。AI模型的大小已從數百萬引數增長到數十億引數,在不久的將來,其目標將是萬億甚至更多。這種爆炸式增長在訓練這些模型所需的計算能力與傳統硬體架構的能力之間造成了巨大的差距。值得注意的是,僅在過去兩年中,大型模型所需的計算能力就增加了1000倍,遠遠超過了硬體改進的翻倍速度。這種差異凸顯了對創新計算模型以滿足新興AI技術需求的迫切性。
為了應對這些挑戰,晶圓級計算應運而生,成為一種突破性的替代方案。與依賴單個晶片或分散式叢集的傳統架構不同,晶圓級計算利用先進的封裝和現場縫合技術,將多個小晶片整合到一塊單片晶圓中。這種方法提供了前所未有的計算能力、頻寬密度和整合效率,標誌著高效能計算領域的一次正規化轉變。Cerebras晶圓級引擎(WSE)和特斯拉Dojo等開創性平臺,都彰顯了晶圓級系統的顯著發展。
圖1展示了AI硬體發展的時間程序。2019年,Cerebras推出了WSE-1,擁有40萬個核心和1.2萬億個電晶體。兩年後,WSE-2在此基礎上將電晶體數量翻倍至2.6萬億,並將核心數量增加到85萬個。WSE-2的佔地面積為46,000平方毫米,仍然是迄今為止建造的最大的處理器,專門設計用於滿足機器學習工作負載的極端記憶體頻寬需求。2024年,Cerebras推出了WSE-3,透過比其前身更多的AI最佳化核心、更快的記憶體和更高的片上頻寬,進一步推動了該領域的發展。WSE-3擁有90萬個核心、4萬億個電晶體,能夠支援24萬億個引數。類似地,特斯拉的Dojo於2021年宣佈並隨後實施,代表了一種獨特的晶圓級計算方法。Dojo設計為百億億次級平臺,將晶圓級整合與分散式可擴充套件性相結合,以處理特斯拉內部的機器學習工作負載,同時保持對未來AI模型的通用性。透過在整個晶圓尺寸的互連上整合異構元件,Dojo展示了跟上機器學習快速發展需求的能力。
這些系統透過最佳化晶片間頻寬、減少互連開銷以及實現核心和記憶體的密集整合,提供了數量級更高的效能。例如,WSE-3憑藉其4萬億個電晶體和90萬個核心,展示了在單個單片平臺中處理超大規模機器學習工作負載的可行性。同時,特斯拉的Dojo突顯了晶圓級系統在分散式AI訓練中的適應性,平衡了可擴充套件性和可程式設計性,以滿足不斷變化的計算需求。
晶圓級計算具有幾個顯著優勢,使其成為高效能計算領域的變革性解決方案。一個顯著的優勢是其卓越的頻寬密度,這顯著增強了晶片間通訊。例如,特斯拉的Dojo系統每個晶片邊緣實現了2 TB/s的驚人頻寬,其每個訓練晶片擁有1.25萬億個電晶體和8,850個核心,每個ExaPOD超級計算機中結合了超過100萬個核心和3,000個D1晶片。Dojo系統擁有僅100納秒的超低晶片間延遲,這反映了其緊密整合的晶片架構,而NVIDIA H100圖形處理單元(GPU)在BFloat16精度下單次併發請求的延遲約為12毫秒。這凸顯了晶圓級系統在最大程度減少AI硬體通訊延遲方面的卓越整合效率。與傳統系統不同,晶圓級晶片實現了更高的密度和緊湊性。例如,單個特斯拉Dojo訓練晶片在緊湊的佔地面積內集成了25個晶片,而使用傳統晶片實現同等功能將需要超過10倍的物理面積。此外,晶圓級計算透過最大程度地減少互連開銷來增強可程式設計性,從而實現細粒度資料通訊和高效資源分配。這種減少的開銷簡化了GPU叢集等分散式架構的管理,並促進了計算資源的有效利用。
新興趨勢表明晶圓級計算將取得進一步的進步。到2027年,臺積電(TSMC) 有望推出利用其先進封裝技術——晶圓上晶片-基板(CoWoS) 的晶圓級整合,並將用其生產特斯拉的下一代 D2晶片。這種創新方法類似於他們對特斯拉D1晶片的處理方式,涉及將預先測試過的邏輯晶片連線到矽基板上。這種方法更關鍵的部分是,高頻寬記憶體(HBM)將連線到嵌入高密度互連和垂直連線(稱為矽通孔(TSVs))的矽基板上。邏輯晶片可以利用臺積電的三維(3D)晶片技術,稱為整合晶片系統(SoICs),以進一步提升效能。臺積電預計這種全晶圓級整合將提供比現有系統高出40倍的計算能力,整合相當於超過40個光罩的矽面積,並容納超過60個HBM,從而實現前所未有的計算密度和效率水平。
儘管晶圓級計算具有變革性的前景,但作為一項新興技術,它也面臨著一些嚴峻挑戰。這些挑戰包括架構可擴充套件性、容錯性、封裝良率和軟體最佳化。解決這些問題需要一種綜合方法,即整合跨堆疊設計方法、尖端封裝策略和創新執行模型,以充分釋放晶圓級系統的潛力。
本文全面回顧了晶圓級計算,綜合了現有技術的見解並探索了未來的發展方向。我們旨在彌合學術研究與工業實踐之間的鴻溝。我們的目標是為讀者提供對這一新興領域的基本原理、成就和侷限性的全面理解。透過這樣做,我們希望激發在尋求可擴充套件、節能和高效能計算解決方案方面的進一步進步和合作。
現有的AI訓練硬體晶片
隨著AI模型複雜性和規模的增長,傳統計算架構在效率和可擴充套件性方面面臨侷限。新興的硬體技術旨在透過提供改進的效能、能源效率和針對AI工作負載的專業能力來應對這些挑戰。表1解釋了用於AI訓練的現有硬體晶片。新興的AI硬體晶片正在徹底改變計算工作負載,在效率、可擴充套件性和處理能力方面取得了進步。Cerebras、特斯拉(Tesla)、谷歌(Google)、AMD 和 英偉達(NVIDIA) 等公司正在設計具有獨特架構的尖端處理器,以滿足AI訓練和推理日益增長的需求。這些晶片在尺寸、電晶體數量、散熱機制、記憶體頻寬和特定應用方面各不相同,各自在AI計算的不同方面表現出色。


Cerebras WSE-3 於2024年推出,作為最大的AI晶片之一脫穎而出,其面積達46,225平方毫米,包含4萬億個基於5奈米節點構建的電晶體。它擁有90萬個核心和驚人的21 PB/s記憶體頻寬,採用晶圓級整合和3D記憶體技術,以實現超大規模AI訓練和科學模擬。先進的液體冷卻對於管理如此龐大處理單元的巨大熱量輸出至關重要。
特斯拉Dojo D1晶片 於2022年釋出,採用不同的方法,透過小晶片實現模組化可擴充套件性。每個晶片尺寸約為645平方毫米,在7奈米節點上擁有1.25萬億個電晶體。特斯拉的晶片每個tile擁有8,850個核心,每個die的記憶體頻寬為2 TB/s,專門為大規模AI訓練而設計,尤其是在自動駕駛領域。它利用直接液體冷卻來消散其高熱密度產生的熱量。
Graphcore的IPU-GC200 於2020年推出,是一款AI晶片,尺寸約為800平方毫米,包含236億個基於7奈米節點構建的電晶體。它具有1,472個核心和47.5 TB/s的記憶體頻寬,使其成為頻寬最高的AI處理器之一。其可重構架構和基於事件的處理能力使其非常適合深度學習、自然語言處理(NLP)和Transformer模型,利用細粒度並行性實現高效的AI計算。與此同時,SambaNova的RDU 於2024年推出,專注於用於AI推理和企業AI應用的可重構資料流架構。這些處理器優先考慮業務環境中的效率,採用風冷而非高功率液冷。
谷歌的Tensor Processing Unit (TPU) v6e 於2024年釋出,專門用於谷歌雲中的大型AI模型訓練。它尺寸約為700平方毫米,在5奈米節點上構建,實現了3.2 TB/s的記憶體頻寬,並採用液體冷卻來處理TPU pod的高工作負載。
AMD的MI300x 於2023年推出,集成了CPU和GPU架構。這種混合方法優化了AI工作負載,在5奈米節點上利用1530億個電晶體,記憶體頻寬達5.2 TB/s。透過OAM標準實現的被動散熱確保了AI模型訓練和高效能計算的有效熱管理。
英特爾的Habana Gaudi3 於2024年推出,是分散式AI訓練和雲端工作負載的另一個關鍵參與者。它採用5奈米工藝構建,尺寸約為900平方毫米,由64個核心組成,記憶體頻寬為3.7 TB/s。它支援風冷和液冷,使其成為資料中心的多功能解決方案。展望未來,臺積電 正在開發預計採用3奈米工藝的先進AI晶片。這些晶片將結合晶圓級整合、EUV光刻和基於光子學的設計,以支援大規模AI訓練和高效能計算。
Mythic模擬矩陣處理器-1076 於2021年釋出,採用獨特的模擬計算方法,集成了記憶體和計算功能,實現了能源效率高的AI推理。由於其低功耗,它依賴被動散熱,特別適用於邊緣AI應用。同樣,英特爾的Loihi 2神經形態晶片 於2021年推出,針對低功耗事件驅動型AI處理進行了最佳化。它基於14奈米節點構建,由128個非同步神經元核心和6個嵌入式微處理器核心組成,非常適合即時AI、機器人技術和邊緣AI。
英偉達的Grace Hopper超級晶片 於2024年推出,集成了GPU和CPU架構,在5奈米工藝上尺寸約為1,100平方毫米。它使用NVLink-C2C進行高效能工作負載,專門針對大規模語言模型訓練。相比之下,富士通的Digital Annealer 於2018年推出,是一款基於7奈米節點構建的量子啟發式AI晶片。它專注於組合問題求解和AI模型調優,採用可重構架構和風冷。
在比較這些晶片時,Cerebras WSE-3 在尺寸和核心數量方面無可匹敵,而AMD的MI300x 在電晶體密度方面處於領先地位。Graphcore的IPU-GC200 擁有最高的記憶體頻寬,達47.5 TB/s,顯著超越其他AI晶片。這些處理器之間的散熱解決方案各不相同,Cerebras、特斯拉、谷歌和英偉達使用先進的液冷,而像Mythic的模擬處理器和英特爾的神經形態Loihi 2等節能晶片則依賴被動或風冷來最大程度地降低功耗。可擴充套件性和AI訓練效能在不同架構之間也有所差異。Cerebras和谷歌的TPU v6e專注於大規模AI訓練,而特斯拉的Dojo系統則實現了AI加速的模組化擴充套件。AMD、英偉達和英特爾的混合CPU-GPU設計旨在透過結合兩種架構的優勢來最佳化AI計算。
對比分析:
晶圓級引擎(WSE)與GPU叢集
大規模AI模型訓練日益增長的需求推動了專用硬體平臺的進步。本節將詳細比較它們的效能指標,包括計算吞吐量、延遲、能效和可擴充套件性,以突出它們各自的優缺點。透過研究這些因素,我們旨在確定每種技術在大規模AI訓練中的最佳用例。表2總結了WSE和GPU叢集的關鍵效能指標,提供了對其能力的全面概述。
效能指標
AI訓練晶片GPU硬體的效能通過幾個關鍵指標進行評估,這些指標決定了其處理大規模AI工作負載的效率和能力。每秒浮點運算次數(FLOPS) 是一個基本基準,表示GPU在深度學習中必不可少的矩陣密集型操作的原始計算能力。記憶體頻寬 同等重要,它決定了資料訪問和處理的速度,直接影響訓練效率。延遲 和 吞吐量 等指標評估GPU處理大資料負載和模型並行性的效率,從而影響即時效能。功耗效率(以每瓦效能衡量)隨著AI模型複雜性和規模的增長變得越來越重要。此外,互連頻寬 和 軟體最佳化 影響多個GPU在分散式訓練環境中協作的良好程度。
大規模AI模型訓練速度評估
AI硬體的最新進展顯著提高了訓練大規模AI模型的效率。Cerebras的WSE-3 和 NVIDIA的H100 GPU 代表了該領域的兩項尖端技術。這些創新突出了應對現代AI工作負載帶來的計算挑戰的不同方法。
Cerebras WSE-3 展示了單片架構在AI模型訓練方面的潛力。WSE-3覆蓋整個矽晶圓(46,225平方毫米),集成了4萬億個電晶體、90萬個AI最佳化核心和44 GB片上SRAM(表2)。這種架構實現了無縫的片上通訊,消除了傳統多晶片系統相關的晶片間延遲和瓶頸。WSE-3在FP16下進行AI模型訓練時,峰值效能達到125 PFLOPS(表2),並支援訓練高達24萬億引數的AI模型,無需進行模型分割槽。這種能力使其獨特地適用於以簡化和高效的方式處理超大型模型。WSE-3的一個關鍵優勢是其能效。透過避免互連開銷,WSE-3最大程度地減少了能量損耗,使其在大型工作負載方面高效。例如,在碳捕獲模擬中,WSE-3的速度比NVIDIA H100快210倍,凸顯了其在特定應用中的潛在優勢。與依賴分層記憶體架構(可能產生處理瓶頸)的傳統GPU不同,WSE的設計使其85萬個核心能夠獨立執行,直接訪問本地記憶體,顯著提高了計算吞吐量。
然而,WSE-3的單片設計限制了其在單個晶圓之外的可擴充套件性,並且其專用架構需要定製的軟體生態系統,例如Cerebras軟體開發工具包(SDK)。儘管它支援PyTorch和TensorFlow,但缺乏原生CUDA相容性。Cerebras開發了一種無矩陣方法來解決基於有限體積的線性系統,利用其SDK實現的資料流架構。這種方法消除了儲存大型雅可比矩陣的需要,顯著減少了記憶體需求,同時提高了計算效率。當部署在WSE-2系統上時,這種方法在單個節點上使用FP16實現了1.217 PFLOPS的峰值效能,證明了其在加速大規模模擬方面的有效性。
相比之下,英偉達(NVIDIA)的H100 GPU 基於Hopper架構,為大規模AI訓練提供了一種模組化和分散式的方法。每個H100 GPU提供60 TFLOPS的FP64計算能力,適用於高效能計算(HPC),並具有動態程式設計指令,可將效能提高多達7倍。H100透過Transformer引擎等創新技術針對大型語言模型(LLM)進行了最佳化,從而加速基於Transformer的工作負載。英偉達的DGX H100 等系統利用八個相互連線的H100 GPU,提供超過1 ExaFLOP的FP8 AI效能。然而,基於H100系統的分散式特性引入了通訊開銷。儘管NVLink(每個GPU 900 GB/s)和HBM3記憶體(3.35 TB/s)可以減輕延遲,但對於超大型模型,GPU間的通訊仍然可能減慢訓練速度。
此外,H100對先進並行技術的依賴,將工作負載分配到各個GPU上,隨著模型尺寸的增加,會引入複雜性和潛在瓶頸。儘管存在這些挑戰,H100受益於成熟的軟體生態系統(例如CUDA、cuDNN、TensorRT、TensorFlow、PyTorch)和卓越的模組化,使其適用於廣泛的AI應用。其功耗效率創新,如HBM3記憶體和NVLink,值得關注,儘管該系統需要額外的散熱解決方案來管理互連GPU產生的熱量。
Cerebras WSE-3 和 NVIDIA H100 代表了大規模AI訓練的互補解決方案。WSE-3憑藉其單片架構和節能設計,在處理超大型模型方面表現出無與倫比的速度和簡潔性。例如,WSE-3無需分割槽即可訓練萬億引數模型的能力,為特定用例提供了顯著優勢,例如由2,048個WSE-3系統組成的叢集,有可能加速Meta的700億引數Llama 2 LLM的訓練,僅需一天即可完成,比Meta現有AI訓練叢集快30倍,後者大約需要30天。即使在16位精度下,WSE-3執行Llama 3.1 80億引數模型時,每秒可生成超過1,800個tokens,而效能最佳的基於H100的例項每秒只能生成超過242個tokens。然而,卓越的效能伴隨著高昂的成本。一個Cerebras WSE系統大約需要200萬至300萬美元。與NVIDIA GPU相比,Cerebras系統的實際應用並不廣泛。
迄今為止,Cerebras WSE系統已部署在阿貢國家實驗室,以在短時間內探索更多想法,梅奧診所也已與Cerebras系統啟動了為期多年的戰略合作,開發多模態LLM,旨在改善患者預後和診斷。來自三家實驗室(桑迪亞、勞倫斯利弗莫爾和洛斯阿拉莫斯國家實驗室)的研究人員與Cerebras系統合作,在分子動力學和計算科學方面取得了前所未有的速度。Cerebras與AI公司G42合作,在美國德克薩斯州達拉斯的Condor Galaxy 3-5設施和美國明尼蘇達州明尼阿波利斯的Condor Galaxy 6-9設施開發了一個由64個WSE-3系統組成的叢集。這項舉措是一個更大的九階段專案的一部分,該專案已分別在FP16下實現了20和32 ExaFLOPS的計算效能。
與此同時,英偉達的H100 提供分散式架構和Transformer引擎,使其成為通用AI工作負載的首選,包括LLM和HPC。據英偉達報告,H100 GPU在MLPerf中為大規模訓練時間效能樹立了新基準,在各種工作負載(包括新的LLM訓練任務)中實現了創紀錄的速度。由於其多功能性、成熟的生態系統和卓越的模組化,它已被微軟、Meta、谷歌雲、戴爾科技、慧與科技、聯想、超微、亞馬遜網路服務、谷歌雲、微軟Azure、甲骨文雲、CoreWeave、Lambda和特斯拉等主要科技和汽車公司廣泛採用。
這些發展凸顯了WSE和GPU的互補優勢。雖然WSE在處理最大模型方面具有無與倫比的速度和簡潔性,但H100等GPU為廣泛的AI應用提供了多功能性、成熟的生態系統和卓越的模組化。
WSE與GPU叢集之間的
延遲和吞吐量差異
高效能AI和機器學習需要專用硬體來滿足訓練LLM日益增長的需求。為了滿足這些要求,WSE和GPU叢集已成為兩種主要的架構,每種都有獨特的優勢和權衡。本節探討WSE(重點關注Cerebras WSE-3和特斯拉Dojo訓練晶片)和GPU叢集(NVIDIA H100和谷歌Trillium TPU v6e)之間的延遲和吞吐量差異。
WSE-3的設計旨在透過消除多晶片之間的資料傳輸需求來最大限度地減少延遲,這在GPU叢集中很常見。這種單片架構實現了大規模並行和核心之間的低延遲通訊。根據 Cerebras 的說法,與傳統的GPU叢集相比,WSE-3 訓練大型模型的時間最多可快2倍。
特斯拉的Dojo訓練晶片是另一個專門為AI訓練設計的晶圓級系統,特別是針對自動駕駛應用。這種晶圓級整合減少了通訊開銷。Dojo 的架構強調可擴充套件性和效率,重點在於降低分散式訓練場景中的延遲。特斯拉聲稱,Dojo 在單個機櫃中可實現 1.3 ExaFLOPS 的計算能力,擁有 1.1 TB/s 的互晶片頻寬和 10 TB/s 的片內雙向頻寬,使其成為目前最強大的AI訓練系統之一。
英偉達(NVIDIA)的H100 基於 Hopper 架構,是AI訓練中最強大的GPU之一,包括 18,432個CUDA核心和640個張量核心。此外,H100 配備了 NVLink 和 NVSwitch 系統,用於高速GPU間通訊。英偉達的GPU叢集旨在實現可擴充套件性,允許多個GPU在叢集中協同工作。然而,這會引入GPU之間的通訊延遲。根據英偉達的說法,對於大規模AI模型,H100 的訓練效能比其前身A100 快6倍。


谷歌(Google)的Trillium TPU v6e 是其TPU產品線中的最新成員,針對AI訓練和推理進行了最佳化,晶片峰值效能估計比上一代v5e提高了4.7倍,HBM容量增加了一倍。TPU旨在最佳化吞吐量,特別是針對大規模分散式訓練。此外,谷歌報告稱,Trillium TPU v6e的能效比上一代TPU提高了67%以上。
WSE-3 的單片設計消除了晶片間通訊,從而實現了片上資料移動的超低延遲。這對於需要核心之間頻繁通訊的工作負載尤其有利,例如訓練大型神經網路。據Cerebras稱,WSE-3與傳統GPU叢集相比,可將軟體複雜性降低高達90%,同時將即時生成式AI推理的延遲降低10倍以上。
Dojo 的晶圓級整合也透過最大限度地減少資料在處理單元之間傳輸的距離來降低延遲。然而,它對可擴充套件性的關注意味著在跨多個晶片擴充套件時會引入一些延遲。特斯拉已證明Dojo在即時自動駕駛車輛訓練任務中可以實現100納秒的晶片間延遲。
英偉達(NVIDIA)H100 提供了高效能,但其多GPU架構由於資料透過NVLink或PCIe在GPU之間傳輸而引入了通訊延遲。這種延遲可能成為大規模分散式訓練的瓶頸。英偉達透過NVLink 4.0解決了這個問題,它提供了每個GPU 900 GB/s的雙向頻寬,但延遲仍然高於晶圓級系統。
谷歌Trillium TPU v6e 針對吞吐量進行了最佳化,但當跨多個裝置擴充套件時,它們仍然面臨晶片間通訊延遲。谷歌透過高頻寬互連來緩解這個問題,但延遲仍然高於晶圓級系統。谷歌報告稱,Trillium TPU v6e在片上操作中實現了納秒級延遲,但晶片間延遲可能顯著更高。
比較延遲的表格(表3)已包含在內,其中提供了WSE和GPU叢集之間的片上和晶片間延遲。

從吞吐量角度來看,WSE-3的巨大核心數量和高記憶體頻寬使得AI訓練的吞吐量異常出色。其單片設計確保所有核心都能協同工作而不會出現瓶頸。Cerebras聲稱WSE-3在AI工作負載下可實現高達125 PFLOPS的峰值效能。
Dojo 的吞吐量針對特斯拉的特定工作負載(例如自動駕駛車輛訓練)進行了最佳化。其晶圓級設計允許高吞吐量,但專為特斯拉的用例量身定製。特斯拉報告稱,Dojo可以同時處理100萬個影片流,每個流以36幀/秒的速度執行,用於訓練自動駕駛模型。
H100 在吞吐量方面表現出色,特別是與英偉達的軟體堆疊(CUDA、cuDNN、TensorRT)結合使用時。它在多個GPU之間的可擴充套件性使其成為大規模訓練的理想選擇,儘管吞吐量可能會受到GPU間通訊的限制。英偉達聲稱,單個H100 GPU在使用FP64精度時可以實現高達60 TFLOPS的HPC。
TPU 專為分散式訓練場景而設計。谷歌的自定義互連和軟體最佳化確保了高效率,但吞吐量仍然受到需要跨多個晶片進行擴充套件的限制。谷歌報告稱,單個Trillium TPU v6e pod可以為大規模AI訓練提供ExaFLOP級效能。
表4顯示了峰值和實際AI訓練吞吐量,也提供了相應的WSE和GPU叢集的關鍵權衡。

晶圓系統憑藉其消除晶片間通訊和簡化程式設計的架構,為單晶圓工作負載提供了超低延遲和高吞吐量。Cerebras WSE-3 與傳統的基於GPU的系統相比,可提供顯著更低的延遲。這得益於其巨大的記憶體頻寬和緊密耦合的計算與記憶體架構,從而實現了單晶片上的高效流水線執行。每個晶圓區域處理一個token,並擁有足夠的記憶體頻寬來執行本地批處理大小為1,透過確保下一個區域在物理上相鄰,從而在流水線階段之間幾乎沒有延遲,保持低延遲。這種架構優化了矩陣乘向量操作的效能,並支援高單使用者速度和高多使用者吞吐量,消除了GPU系統中常見的延遲與吞吐量權衡。然而,它們在單晶圓之外的可擴充套件性、高製造成本和通用工作負載的靈活性方面面臨限制。相比之下,GPU叢集在多GPU擴充套件性方面表現出色,併為廣泛的應用提供靈活性,並由CUDA、TensorFlow和PyTorch等成熟的軟體生態系統支援。然而,GPU叢集由於GPU間通訊、吞吐量瓶頸和散熱要求而面臨更高的延遲。因此,每種架構都具有獨特的優勢和權衡,使其適用於AI和HPC中的不同用例。
架構差異
英偉達(NVIDIA)的Hopper架構遵循模組化方法,利用多個流式多處理器,這些處理器可以透過NVLink互連以構建可擴充套件系統,適用於包括AI、HPC和圖形在內的各種工作負載。相比之下,Cerebras的WSE 採用單片設計,一個巨大的單矽晶圓包含數十萬個AI最佳化核心,專門針對深度學習任務進行了最佳化。雖然Hopper的模組化允許跨多個GPU的靈活性和可擴充套件性,但它引入了互連開銷。WSE的單晶片架構最大程度地減少了通訊延遲,但由於晶圓尺寸而面臨物理可擴充套件性限制,使其在特定AI工作負載中效率極高,但在更廣泛的應用中通用性較差。
對比WSE的單片方法與GPU叢集的
分散式架構
在本節中,讀者將瞭解WSE系統與傳統GPU叢集的通用架構比較。架構差異顯著,主要受其設計原則、資料通訊方法和整合效率的影響。核心差異彙總在表5中。此外,圖2展示了關鍵特性的視覺比較(以Cerebras WSE-3和NVIDIA H100為例)。圖2A顯示了電晶體數量、核心數量和可擴充套件性的比較,而圖2B則說明了節點、效能和功耗的比較。


圖2. 晶圓級與傳統基於GPU的AI加速器對比分析
(A) Cerebras晶圓級引擎(WSE-3)與NVIDIA H100 GPU在電晶體數量、核心數量和可擴充套件性方面的比較。 WSE-3展現出顯著更高的電晶體密度和核心數量,這反映了其單片晶圓級設計,而H100在多個單元間提供更好的模組化可擴充套件性。(B) 工藝節點、計算效能和功耗的比較。 儘管兩個系統都使用相似的半導體工藝節點,但WSE-3提供明顯更高的計算效能,同時其功耗也顯著高於H100。這些比較突顯了不同AI硬體架構在原始效能和能源效率之間的權衡。
WSE旨在透過資料並行進行擴充套件,這與GPU叢集類似。這種方法避免了混合模型並行相關的複雜性,混合模型並行在將模型分發到不同晶片或系統時會引入顯著的延遲和開銷。透過保持單一架構模型,它簡化了執行模型,使管理和最佳化大型資料集和複雜神經網路的效能變得更容易。
WSE的架構旨在足夠大,可以在單個晶片上執行最大的AI模型,該晶片採用了一種稱為單片架構的設計(如Cerebras WSE-3中所示),其中整個矽晶圓作為一個單一的統一處理器執行。這種設計消除了對複雜晶片間通訊的需求,允許超高頻寬的片上通訊,晶圓上緊密互連的數萬億電晶體(表2),從而透過將所有操作保持在同一晶片內來提高效能。SRAM分佈在晶圓上,實現了片上記憶體計算,透過消除從晶片外部獲取和儲存資料的需要,大大減少了延遲。本地SRAM位於晶圓中(如圖3A所示),這使得每個核心都可以獨立處理其模型部分,而無需等待全域性記憶體。
此外,將數十萬個核心(表2)容納在單個單元中,可以在依賴密集矩陣操作的大型AI工作負載中表現出色。此外,晶圓級系統將計算和記憶體資源整合到單個晶圓上,消除了多晶片系統中固有的元件間資料移動和互連功率損耗帶來的能量開銷,從而實現了卓越的能源效率和每瓦更高的計算效能(如表9所示)。
儘管晶圓級架構具有所有這些優勢,但傳統上它們容易出現良率問題(晶圓內的電晶體缺陷)。然而,WSE 採用冗餘計算核心和容缺陷路由機制來繞過故障區域。WSE-3 使用一種名為 SwarmX96 的自定義互連結構,該結構可以動態地將資料路由到有缺陷的核心或互連周圍,同時隔離缺陷區域,並且路由結構會自動透過替代路徑重新路由資料,從而保持晶圓的整體功能。這確保了核心之間的通訊不會中斷。
相比之下,傳統的 GPU 架構依賴於分散式計算模型,其中多個獨立的 GPU(如 NVIDIA H100 和 AMD MI300X)透過名為 NVLink、PCIe 或外部網路基礎設施的高速互連(圖3B)連線在一起,從而導致更高的延遲和頻寬限制。雖然 NVSwitch 和 RDMA 等技術有助於減少瓶頸,但它們無法與 WSE 的直接晶圓內通訊相媲美。
與晶圓級系統不同,傳統 GPU 依賴於分層記憶體架構,將快速但有限的共享記憶體(如L1快取,也如圖3B所示)與高頻寬全域性記憶體(HBM3或GDDR6X)(表2)結合起來,需要頻繁跨節點進行資料傳輸,這可能在大規模訓練中引入記憶體頻寬瓶頸。由於傳統 GPU 系統是分散式的,單個 GPU 或節點的故障不會影響整個系統。冗餘自然地內建其中,允許將工作負載重新分配到正常執行的 GPU。
此外,隨著這些 GPU 橫向擴充套件,需要多個節點可以靈活擴充套件,這也會增加系統複雜性、功耗和散熱要求。由於網路、互連和節點同步,GPU 叢集的功耗變得很高,使能效成為資料中心面臨的關鍵挑戰。從積極的方面來看,GPU 在各種工作負載方面仍然具有通用性,而晶圓級架構在目標 AI 模型方面具有卓越的效率,以犧牲跨節點的可擴充套件性來換取無與倫比的片上效能。

圖3. WSE與傳統GPU的核心架構
(A) Cerebras晶圓級引擎(WSE)中處理元件的示意圖,突出顯示其高度並行、以記憶體為中心的設計。 每個核心集成了張量控制、SRAM、暫存器和融合乘加(FMAC)資料通路,所有這些都透過高頻寬片上互連連線,以實現晶圓上高效的資料移動。(B) NVIDIA傳統GPU架構(例如H100)的框圖,展示了流式多處理器(SMs)、核心、控制單元、記憶體層次結構(L1和L2快取)和高頻寬記憶體(HBM3)的組織方式。 該設計透過NVLink互連和全域性記憶體訪問強調模組化可擴充套件性,從而實現高效的多GPU配置。這些圖共同對比了晶圓級加速器的單片整合與GPU系統的模組化、多晶片可擴充套件性。
AI 硬體的選擇取決於特定的用例和每個系統的架構優勢。表6 總結了使用者案例建議。對於大規模 AI 模型訓練,特別是對於 LLM、NLP 和視覺模型,Cerebras WSE-3 是最佳選擇,因為它具有高 FP16 計算能力、片上記憶體和消除互連瓶頸的優點,使其在無需分割槽的情況下高效訓練大型模型。然而,對於涉及中小型模型的通用 AI 訓練,NVIDIA H100 更受歡迎,因為它具有通用性以及與 CUDA、TensorFlow 和 PyTorch 等行業標準 AI 軟體框架的無縫整合。在 HPC 和科學模擬中,雙精度(FP64)計算至關重要,NVIDIA H100 優於其他架構,使其成為物理學、金融和工程應用領域的理想選擇。此外,在資料中心等注重可擴充套件性的環境中,NVIDIA H100 在分散式計算叢集(DGX 和 SuperPODs)中表現出色,透過 NVLink 等先進互連技術確保高效的多節點處理。最後,在能效方面,Cerebras WSE-3 透過消除與 GPU 間通訊相關的能量損耗而具有關鍵優勢,使其成為優先考慮每瓦效能的大規模 AI 工作負載的更節能選擇。這些架構中的每一種都存在獨特的權衡,使得選擇過程高度依賴於工作負載要求和系統可擴充套件性需求。

晶圓級引擎(WSE):
Cerebras WSE-3 與特斯拉 Dojo 訓練晶片
1
架構效率、功耗和設計特性比較
表7 全面比較了 Cerebras WSE-3 和 特斯拉 Dojo 系統的效率、功耗和架構設計。

Cerebras WSE-3 採用晶圓級設計,將大約 4萬億個電晶體 和 90萬個AI最佳化核心 整合在一塊12英寸的矽晶圓上。這種架構實現了 44 GB 的大規模片上記憶體,顯著減少了互連瓶頸。單個 WSE-3 系統,佔用16個機架單元,功耗為 23 kW,並能夠擴充套件到 2,048個互連繫統。相比之下,特斯拉 Dojo 採用模組化架構,由多個較小的 D1晶片 組成,以 5×5 陣列排列在載片上。每個 D1 晶片包含 354個核心 和 500億個電晶體,每個晶片的功耗約為 600 W。一個完全填充的25晶片 Dojo Tile 功耗為 15 kW,一個10機架的 ExaPOD 系統功耗可達 1.8 MW。特斯拉聲稱其每瓦效能比之前的架構提高了 1.3倍,強調了其對各種AI工作負載的適應性,包括計算機視覺和自動駕駛應用。
詳細的架構分解進一步突出了這兩個系統截然不同的設計理念。Cerebras WSE-3(圖4A)展現出高度流線型的架構,針對深度學習工作負載進行了最佳化,主要依賴於本地SRAM和高效的融合乘加(FMAC)單元。每個計算核心的大部分都專用於SRAM儲存體,組織成6KB的段,並具有最少量的控制邏輯。這種配置反映了Cerebras專注於最大化大規模神經網路訓練中的矩陣密集型計算。資料移動透過可預測的、軟體編排的路徑從本地SRAM到FMAC單元進行控制,有效地最大限度地減少開銷並最大化吞吐量。

圖4. 特斯拉Dojo和Cerebras WSE-3的架構設計
(A) Cerebras WSE-3 核心架構。(B) 特斯拉 Dojo。(C) Cerebras WSE-3 引擎模組。(D) 特斯拉 Dojo D1 晶片tray。
相反,特斯拉Dojo架構(圖4B)採用類似CPU的流水線,包括分支預測器、L1指令快取和一個8寬解碼階段,能夠為標量(算術邏輯單元、地址生成單元)和向量(單指令、多資料、專用MatMul)執行單元提供指令。此外,Dojo具有更大的、類似快取的記憶體子系統,包括1.25 MB的SRAM以及多個載入和儲存路徑。雖然這種設計犧牲了一些原始的矩陣乘法密度,但它提供了更大的計算靈活性。Dojo核心能夠處理分支、整數算術和各種AI核心執行,使其成為一個更通用的AI加速器。
最終,Cerebras WSE-3 優先考慮矩陣密集型深度學習模型的原始計算吞吐量,將大部分硬體資源專門用於矩陣乘法單元。相比之下,特斯拉Dojo 在AI加速和更廣泛的執行流水線之間取得平衡,使其能夠支援更廣泛的AI工作負載和傳統深度學習之外的控制流任務。
2
冷卻技術
如前所述,Cerebras WSE-3 和 特斯拉Dojo D1訓練晶片 的功耗分別高達23千瓦和15千瓦,這意味著它們在負載下會產生大量熱量。因此,冷卻解決方案對於這些晶圓級系統來說是一個非常重要的考量點。秉承“一切皆在晶圓上”的理念,Cerebras 和特斯拉的散熱解決方案似乎都圍繞著直接整合到晶片上的液冷系統。由於晶片的尺寸,需要對冷卻的分配進行精確控制,以確保其與電源一起均勻地傳遞。實現這一點的最佳方法是使用液冷,這也正是兩家公司都選擇此作為其冷卻解決方案的原因。從這一點開始,Cerebras 和特斯拉的方法開始出現分歧。以下章節將詳細介紹每種方法。
1、WSE-3 的整合冷卻方法
Cerebras嚴格遵循其與最初系統 WSE-1 一同開發的冷卻解決方案。WSE-3 晶圓 被牢固地安裝在降壓電源模組和連線有歧管的冷卻板之間。歧管將水流導向冷卻板的背面,然後透過一個封閉的內部水迴圈冷卻晶圓。該水迴圈包含水-丙二醇混合物,這種混合物以其高效冷卻系統的能力而聞名,同時還能降低水的冰點並抑制系統中金屬的潛在腐蝕。電源從晶圓正面頂部供電,而熱量從底部散發。該系統由降壓電源模組、晶圓、冷卻板和歧管組成,被稱為引擎模組(圖4C)。
憑藉其整合設計,引擎模組直接向晶圓正面供電,以獲得所需的功率密度,並提供傳統封裝無法實現的均勻冷卻。透過這種獨特的封裝技術,WSE-3 能夠在一個緊湊、節能的系統中實現多個GPU叢集的效能。每個 WSE-3 系統中只有一個 WSE-3 晶片,這通常足以滿足先進的AI訓練需求。然而,對於超大規模專案或超大規模AI模型,多個 WSE-3 系統可以透過 Cerebras 的 SwarmX 互連 連結在一起,建立更強大的叢集。每個系統中的所有水泵和電源都是冗餘的,並且支援熱插拔,便於快速訪問和維護。
2、Dojo D1 晶片的整合冷卻方法
特斯拉似乎沒有像Cerebras那樣的引擎模組,但他們確實有一種類似地將晶圓“夾”在供電和冷卻板之間的冷卻方法。具體來說,每個 D1 晶片 都設計有冷卻通道,允許冷卻劑——即去離子水——均勻地流過晶片,有效地散發操作過程中產生的熱量。
這種液冷系統整合在晶片內部,透過均勻分佈冷卻劑到晶圓的整個表面,確保 D1 晶片保持最佳工作溫度。冷卻劑吸收晶片產生的熱量,然後透過熱交換器迴圈,將熱量從系統中排出。電源從晶片底部供電,熱量從頂部散發,這與 Cerebras 的頂部供電、底部冷卻的方法形成鮮明對比。每個包含25個 D1 晶片的晶片托盤(圖4D)以2×3陣列放置在供電模組上方,形成特斯拉所稱的“托盤”配置。
每個伺服器機櫃中有兩個trays,這意味著每個系統總共有12個Dojo晶片。無論是Cerebras還是特斯拉,兩種方法似乎都能有效地為其各自的晶片提供適量的電力和冷卻。
Cerebras WSE-3 和
特斯拉 Dojo 的製造工藝
Cerebras WSE-3 和特斯拉 Dojo AI 加速器均採用臺積電(TSMC)的先進半導體制造技術製造,利用不同的工藝節點和整合策略來最佳化效能、可擴充套件性和功率效率。
Cerebras WSE-3:
臺積電5奈米節點上的晶圓級製造
Cerebras WSE-3 採用臺積電專門為晶圓級AI加速器最佳化的定製 5奈米(N5)工藝製造。與傳統的基於晶片的設計不同,WSE-3是一個單一的、整體的晶圓,在一塊12英寸的矽晶圓上集成了大約 4萬億個電晶體 和 90萬個AI專用核心。這種晶圓級架構旨在消除晶片間通訊瓶頸並提高片上記憶體頻寬,達到 44 GB的SRAM容量。
WSE-3 的製造工藝遵循標準的 FinFET 製造流程,包括以下步驟:
-
晶圓準備:工藝始於一塊清潔的矽晶圓。
-
氧化:在晶圓上生長一層薄薄的二氧化矽(SiO2),作為絕緣層。
-
光刻:使用極紫外(EUV)光刻,用電晶體佈局圖案化光刻膠層。
-
刻蝕:刻蝕掉晶圓未受保護的區域,定義電晶體結構。在這種情況下,刻蝕是高度各向異性的,以建立FinFET的鰭狀結構。
-
沉積:沉積高介電常數介質和金屬柵極。臺積電主要將**二氧化鉿(HfO2)**用於高階晶片,儘管WSE-3是否專門採用這種材料尚不清楚。
-
離子注入和退火:引入摻雜劑以建立n型和p型區域,然後進行退火以啟用摻雜劑。
-
互連形成:使用銅-銅(Cu-to-Cu)混合鍵合在AI核心之間形成互連,增強訊號完整性和功率效率。
臺積電的5奈米FinFET工藝為p型電晶體引入了SiGe(矽鍺)通道,與7奈米(N7)基於Si的通道相比,提高了空穴遷移率和整體電晶體效能。這使得WSE-3能夠比上一代AI加速器實現更高的效率和更好的熱特性。
晶圓級設計的主要挑戰是良率管理,因為晶圓中的任何缺陷都可能損害效能。在設計中加入冗餘和在製造後重新配置電路是提高缺陷容忍度的常見策略。這些相同的策略也用於WSE-3,它結合了冗餘AI核心和容缺陷路由機制,可以動態地將資料重新路由到缺陷區域周圍。這透過其互連結構(他們稱之為 SwarmX)實現了WSE的穩健執行。
特斯拉 Dojo:
採用臺積電7奈米工藝的晶圓級系統
另一方面,特斯拉 Dojo 採用基於臺積電 7奈米(N7)工藝節點 的模組化片上系統(SoW)方法。
Dojo 的製造工藝遵循臺積電的 整合扇出(InFO)封裝技術,該技術增強了晶片間連線性並降低了互連功耗。製造步驟包括:
-
預測試邏輯晶片:每個 D1 晶片的製造過程與傳統晶片類似,但在整合前會單獨進行測試,以減少與缺陷相關的故障。
-
載片組裝:預測試的晶片被放置在載片上,作為結構基礎。
-
InFO 互連:臺積電的 InFO 封裝構建了高密度互連網路,使25個 D1 晶片能夠像一個處理器一樣工作。
-
填充空白處:晶片之間的空間用虛擬晶片填充,以增強結構完整性。
-
高密度互連製造:使用倒裝晶片技術形成可靠且高密度的互連,這種技術以其效能和熱管理能力而聞名。
為了應對與 Cerebras 相同的良率管理挑戰,特斯拉也有自己的互連結構,稱為 乙太網上的特斯拉傳輸協議(Tesla Transport Protocol over Ethernet,TTPoE),儘管它不如 SwarmX 那麼引人注目,但提供了類似的好處。
總而言之,Cerebras WSE-3 和 特斯拉 Dojo 代表了 AI加速 的兩種不同的製造策略。WSE-3 的晶圓級架構提供了無與倫比的片上頻寬和計算效率,得益於臺積電的5奈米工藝和銅-銅混合鍵合。然而,它在單個晶圓之外面臨可擴充套件性挑戰,並且需要先進的缺陷管理來確保良率效率。相反,特斯拉 Dojo 在臺積電7奈米工藝上採用的 SoW 設計利用模組化擴充套件,臺積電的 InFO 技術確保了跨多個 D1 晶片的高密度倒裝晶片互連。這種方法犧牲了一些原始計算密度,但提供了更大的靈活性和容錯能力。表8總結了兩種硬體之間的製造差異。最終,WSE-3 和 Dojo 之間的選擇取決於特定工作負載的需求,WSE-3 在深度學習訓練方面表現出色,而 Dojo 則為AI推理和自動駕駛工作負載提供了可擴充套件的、高頻寬處理能力。

晶圓級引擎(WSE)與GPU叢集的
能效比較
能源消耗是評估現代計算架構效率和實用性的關鍵因素。隨著計算需求的增長,最佳化能效在平衡效能和可持續性方面變得至關重要。晶圓級處理器和傳統GPU在功耗利用方面存在顯著差異,每種方法在計算效率方面都有其自身的優缺點。檢查每個計算任務的能耗可以深入瞭解這些架構在HPC和AI工作負載中如何高效執行。表9總結了不同WSE和GPU叢集之間能效的比較。

隨著計算需求的激增,能效已成為評估現代處理架構的關鍵因素。Cerebras WSE-3引入了一種新穎的能耗方法,在設計和效能上與傳統GPU形成對比。本分析深入探討了每個計算任務的能耗,將WSE-3與傳統GPU架構進行了比較。
Cerebras WSE-3:架構創新與能效
WSE-3是處理器設計上的一個巨大飛躍,具有90萬個AI最佳化計算核心和44 GB的片上SRAM,全部採用5奈米工藝技術製造。這種整合帶來了125 PFLOPS的峰值效能,能夠處理高達24萬億引數的AI模型。單片晶圓級設計最大限度地減少了晶片間通訊的需求,而這在多晶片系統中是常見的能效低下來源。透過將記憶體和計算本地化,WSE-3減少了資料移動,從而提高了每個任務的能效。
GPU架構中的能耗挑戰
GPU雖然設計用於高並行度,但本質上受限於其對透過高速互連連線的分散式處理單元的依賴。例如,NVIDIA H100在GPU間通訊方面消耗大量電力,導致大規模訓練工作負載中的能效低下。雖然其操作效率為7.9 TFLOPS/w,但GPU仍然是AI任務強大但能耗密集型解決方案。GPU中的記憶體層次結構需要HBM和處理核心之間頻繁的資料交換,進一步導致其整體功耗增加。與最佳化本地化資料處理的晶圓級晶片不同,GPU必須在管理資料移動方面消耗額外的能量,從而增加每個任務的能耗。
可擴充套件性與功率分配
WSE-3的統一架構確保了其龐大核心陣列的一致功率分配,消除了與多晶片互連相關的瓶頸。這種設計允許效能線性擴充套件,而能耗不會相應線性增加。然而,WSE-3不能超過半導體制造中使用的標準矽晶圓的尺寸。這種物理限制對可以整合到單個WSE-3處理器中的核心數量和片上記憶體量施加了上限。儘管WSE-3的設計最大限度地減少了傳統多晶片系統中存在的一些同步開銷,但隨著互連繫統數量的增加,功率分配、冷卻和資料一致性等挑戰變得更加突出。這些因素可能導致效能可擴充套件性收益遞減,並可能影響系統的整體能效。相比之下,基於GPU的系統擴充套件通常會導致非線性功率需求,這是由於同步多個處理單元的開銷所致。
計算工作負載中的能耗
WSE-3 在受益於最小化資料移動的工作負載(例如 AI推理 和訓練)方面表現出色。其架構能夠以更低的延遲和功耗執行大規模模型。例如,WSE-3 可以處理高達 24萬億引數 的AI模型,如果使用傳統的GPU叢集嘗試完成此壯舉,將需要巨大的能源資源。
Cerebras WSE-3 展示了處理架構的正規化轉變,透過其晶圓級設計優先考慮能效。透過整合前所未有的核心數量和片上記憶體,它比傳統的GPU設定降低了每個計算任務的能耗。隨著計算工作負載的複雜性不斷增長,採用像WSE-3這樣的架構對於實現可持續和高效的HPC將至關重要。
環境影響與考量,包括兩種架構的
碳足跡、熱量產生和冷卻要求
對高效能計算(HPC)和人工智慧(AI)日益增長的依賴引發了人們對能源消耗、冷卻需求和整體環境可持續性的日益關注。晶圓級引擎(WSE)的引入在計算效率方面取得了顯著進步;然而,它們的環境足跡,特別是與傳統GPU相比,需要進一步評估。本節將探討與WSE相關的能源消耗、冷卻基礎設施、碳排放和可持續性挑戰,同時評估它們對可持續計算的更廣泛影響。
能源消耗與碳足跡
計算對環境的影響主要來自系統執行期間的能源消耗以及與硬體製造相關的碳排放。資料中心目前約佔全球電力消耗的1%,且隨著AI和雲計算需求的增長,預計到2030年這一比例可能增至7%。儘管AI加速器效率的提高有助於減少能源浪費,但計算系統的整體碳足跡仍在持續上升,這主要歸因於硬體生產和部署的增加。
WSE的一個關鍵優勢是它們能夠直接在單個晶圓上儲存和處理整個AI模型,從而消除了能源密集型記憶體傳輸,而這正是傳統基於GPU架構中的主要低效率來源。Cerebras Systems 已證明,與微軟Azure雲平臺上的GPU相比,基於WSE的推理工作負載的成本可以降低三分之二,功耗可以降低六分之一。雖然這些改進表明運營能耗有所降低,但WSE仍然需要大量電力,其熱設計功耗高達10,000 W,與大型GPU叢集相當。
除了直接能源消耗,利用WSE的AI驅動型應用已應用於氣候建模、碳捕獲模擬和環境可持續性研究。研究表明,WSE加速的AI模型提高了碳捕獲建模的計算效率,顯著減少了執行大規模氣候模擬所需的時間和能量。雖然這些最佳化有助於可持續發展,但AI廣泛採用的更深層次影響也必須予以考慮。
冷卻要求與熱管理
WSE的高功率密度帶來了顯著的散熱挑戰。傳統風冷對於此類架構通常不足,因此需要採用液冷解決方案。例如,Cerebras WSE集成了利用水/丙二醇冷卻劑迴圈的液冷系統,每單元能夠散發高達15 kW的熱量。
微流體冷卻技術的進步為提高散熱效率提供了另一種方法。該技術在晶圓內部採用蝕刻的微通道,使冷卻劑直接流過計算元件,顯著降低了熱阻和外部冷卻所需的能量。實驗研究表明,微流體冷卻可以將WSE溫度保持在55.9°C以下,從而減輕熱效率低下的問題。然而,可擴充套件性挑戰和製造複雜性的增加限制了其在商業HPC系統中的廣泛採用。
冷卻基礎設施仍然是資料中心能源消耗的關鍵組成部分,冷卻系統幾乎佔總能源使用的40%。AI驅動的熱管理演算法的實施,結合直接晶片液冷技術的進步,使得冷卻效率逐步提高。然而,隨著計算能力的持續擴充套件,更積極的冷卻解決方案將是維持長期效率提升所必需的。
生命週期和製造碳足跡
雖然能效的提高減少了運營碳排放,但計算硬體的製造和處置仍然是全球碳排放的重要貢獻者。研究表明,硬體製造現在佔現代計算排放的大部分,高達86%的總碳足跡歸因於製造、組裝和供應鏈過程。高純度矽和稀土金屬等原材料的提取和加工需要能源密集型製造過程,這些過程依賴於大規模半導體制造設施。除了生產之外,環境影響還延伸到晶片封裝、分銷和最終處置,所有這些都導致電子廢物的日益積累。
最近為減少與製造相關的碳排放所做的努力包括延長硬體壽命以最大程度地降低週轉率,提高半導體元件的可回收性,以及整合節能晶片製造技術。公司也已開始探索低碳計算架構,這些架構採用加工要求較低的替代材料。
可再生能源在可持續計算中的作用
計算行業向可再生能源的轉型一直是主要科技公司的重點。谷歌和Meta等公司已實現資料中心運營100%使用可再生能源,有效減少了運營碳足跡。然而,製造對環境的影響基本保持不變,這強調了採取整體方法實現可持續計算的必要性。對資料中心碳強度分析揭示了可持續發展努力的區域差異。例如,美國資料中心報告的平均碳強度為每千瓦時380克二氧化碳,具體取決於能源來源。歐洲資料中心的碳強度較低(約295克二氧化碳/千瓦時),這是由於依賴可再生能源政策。包括中國臺灣和新加坡在內的東南亞資料中心的碳強度較高(約500-600克二氧化碳/千瓦時),這是由於對煤炭和天然氣的依賴。
透過自適應能源排程最佳化AI工作負載,即在可再生能源可用性最高時執行計算任務,是進一步減少排放的一種擬議策略。此外,減少對集中式資料中心依賴的去中心化計算框架可以減輕能源傳輸損耗並提高整體系統可持續性。
總的來說,WSE的部署標誌著HPC的變革性轉變,在計算效率方面提供了顯著的改進,同時也在能源消耗和可持續性方面帶來了新的挑戰。雖然WSE在AI推理任務中表現出顯著的能效提升,但其環境影響超出了運營效率,涵蓋了製造排放、冷卻基礎設施和資源消耗。為了應對這些挑戰並開發平衡效能、效率和環境責任的計算基礎設施,持續的研究和行業合作將是必要的。
硬體採購成本、功耗、冷卻要求和
效能指標比較
儘管 WSE-3 和 H100 等較新的系統已經問世,但 WSE-2 和 A100 仍然是衡量晶圓級 AI 處理器和基於 GPU 的加速器的廣泛使用的基準,為架構權衡提供了寶貴的見解。WSE-2 是一種晶圓級 AI 處理器,每套系統成本在 200 萬至 300 萬美元之間,而 A100 作為一種基於 GPU 的加速器,則顯著更經濟,根據配置不同,價格範圍在 8,000 至 20,000 美元之間。功耗是它們的主要區別之一:WSE-2 每單元消耗約 15 kW,需要先進的液體冷卻,而 A100 每塊 GPU 功耗約 400 W,通常採用空氣冷卻。
在效能方面,WSE-2 針對超過 120 萬億引數的模型進行了最佳化,消除了互連開銷,而 A100 提供了比前幾代產品 20 倍的效能提升,並支援多例項 GPU (MIG),實現靈活的工作負載管理。在可擴充套件性方面,WSE-2 專為超大規模 AI 工作負載設計,但缺乏模組化擴充套件能力,而 A100 在多 GPU 叢集(如 DGX SuperPOD)和雲服務中具有高度可擴充套件性。
製造挑戰也不同,WSE-2 的晶圓級設計存在缺陷容忍問題,需要冗餘核心和缺陷路由,而 A100 遵循傳統的基於晶片的方法,確保更高的良率和更易於更換。最終,WSE-2 在大規模深度學習應用中表現出色,而 A100 仍然是可擴充套件 AI 和 HPC 工作負載更實用和更廣泛採用的選擇。表 10 總結了 Cerebras WSE-2、Cerebras WSE-3、NVIDIA A100 和 NVIDIA H100 之間的主要區別,重點介紹了成本、功耗、冷卻要求、可擴充套件性和缺陷容忍度方面的差異。

硬體採購成本
獲取AI硬體的成本受到架構設計和預期應用場景等因素的影響。高效能的AI加速器,如Cerebras WSE-2和NVIDIA A100 GPU,由於其獨特的設計和能力,具有不同的成本結構。據報道,Cerebras WSE-2,這款晶圓級AI加速器,單個系統的價格在200萬美元到300萬美元之間。這個價格反映了其單片架構,該架構將整個矽片整合到一個AI處理器中,消除了晶片間通訊瓶頸,並優化了大規模深度學習工作負載。相比之下,廣泛用於AI和高效能計算(HPC)的NVIDIA A100 GPU有多種配置。40GB PCIe型號的價格約為8,000美元至10,000美元,而80GB SXM版本的價格在18,000美元至20,000美元之間。雖然WSE-2為極大規模AI模型提供了無與倫比的計算密度,但A100在需要可擴充套件、多GPU解決方案的機構中更具成本效益,這些方案可以部署在大型資料中心和雲服務中。
AI晶片市場正在快速增長,科技巨頭和初創公司都在進行大量投資。這個競爭激烈的市場環境正在推動創新,並可能隨著新型、更高效設計的開發而降低成本。AI硬體的能源消耗和環境影響也是關鍵因素。例如,基於ARM的單板計算機提供了比傳統x86和GPU架構更綠色且可能更具成本效益的替代方案,用於訓練機器學習演算法。AI模型的訓練成本正在增加,其中AI加速器晶片是最大的開支之一。這一趨勢表明,只有資金充裕的組織才有可能負擔得起未來最先進的AI硬體。AI硬體的獲取成本主要由架構設計、市場競爭和能源因素驅動。雖然像Cerebras WSE-2這樣的高效能系統由於其先進的架構而昂貴,但基於晶片單元的系統和基於ARM的計算機等替代設計提供了更具成本效益的解決方案。AI能力需求的增長繼續塑造市場,影響著AI硬體的開發和定價。
冷卻要求和基礎設施考慮
由於其高功率密度,Cerebras WSE-2需要先進的液冷系統來高效地散熱。晶圓級架構由於其密集的核心整合,產生了顯著的熱負載,迫使資料中心必須配備專門的冷卻基礎設施。相比之下,NVIDIA A100主要採用空氣冷卻,儘管一些資料中心配置也採用液冷以最佳化效能並減少熱限制。冷卻成本的影響因部署環境而異,WSE-2需要專門的冷卻系統,而A100可以部署在現有的空氣冷卻GPU叢集中。因此,在選擇這些架構時,必須考慮包括冷卻和能源支出在內的基礎設施總成本。這些進展表明,先進的冷卻系統,特別是液冷,對於管理現代資料中心中的高功率密度和熱負載至關重要,重點在於最佳化能源效率和效能。
效能指標和可擴充套件性
Cerebras WSE-2和NVIDIA A100都是先進的AI加速器,旨在增強深度學習和AI工作負載的效能和可擴充套件性。Cerebras WSE-2專注於消除多GPU互連開銷,而NVIDIA A100提供顯著的效能提升,並支援多例項GPU分割槽。WSE-2透過使用晶圓大小的晶片架構,設計用於處理極大規模的機器學習模型。它提供了獨特的功能,如精細粒度的資料流計算核心和專為機器學習訓練設計的互連繫統,這使其能夠在單一晶片上執行大型模型而無需進行分割槽。WSE-2的處理器透過解耦記憶體和計算來實現高吞吐量和高效擴充套件。
A100 GPU提供比其前身高出20倍的效能,具有第三代張量核心、非同步資料移動和改進的記憶體架構等增強功能。它在AI工作負載中實現了高效能,特別是透過其最佳化的張量核心,適用於混合精度算術運算。在可擴充套件性方面,WSE-2的架構透過使用資料並行性實現無縫擴充套件,避免了GPU叢集常見的複雜性和差的擴充套件效能。這是透過其獨特設計實現的,能夠高效地將計算和記憶體需求整合到單個晶片上。A100支援MIG分割槽,允許將單個GPU劃分為多個虛擬GPU,從而提高其在多樣化工作負載下的可擴充套件性。然而,它的效能擴充套件可能比較複雜,需要精心管理像非同步資料移動這樣的新架構特性。Cerebras WSE-2和NVIDIA A100都在AI和深度學習任務的效能和可擴充套件性方面取得了顯著進展。WSE-2憑藉其獨特的晶圓級架構,在處理大型模型方面表現出色,而A100則透過其多例項功能提供了顯著的效能提升和靈活性。它們各有優勢,WSE-2專注於消除互連開銷,而A100則透過創新的GPU功能提升效能。
缺陷容忍和製造產量考慮
晶圓級整合在缺陷容忍和製造產量方面提出了獨特的挑戰,這直接影響整體生產成本。Cerebras WSE-2作為一款單片晶圓級處理器,由於其大型矽片尺寸,面臨更高的製造缺陷風險。晶圓內的缺陷電晶體可能會降低整體晶片產量,需要內建冗餘機制來繞過故障區域。與此相反,NVIDIA A100採用傳統的單晶片設計,其中有缺陷的單元可以被丟棄或替換,從而提高生產產量並降低每個單位的製造風險。因此,NVIDIA的模組化方法提高了可擴充套件性和可用性,而Cerebras的晶圓級技術則優先考慮在增加製造複雜度的情況下實現峰值效能。在設計中加入冗餘並在製造後重新配置電路是提高缺陷容忍度的常用策略。這些方法可以利用晶圓中的無故障部分,提高產量,而無需進行昂貴的重構。利用軟體控制的開關連線晶圓中無故障的部分提供了低成本的連線和執行時故障容忍度,從而透過動態適應缺陷來提高產量。準確的產量預測模型,如廣義泊松分佈和負二項分佈,對於模擬過度分散的缺陷模式和改善產量估算至關重要。
在半導體制造中,準確預測產量和可靠性需要綜合模型,這些模型需要考慮缺陷聚集及其在晶圓探針和燒錄測試中的影響。這些模型的關鍵是深入理解缺陷的空間分佈,包括聚集模式和徑向變化,這對於精確的產量預測和有效的工藝改進至關重要。此外,穩定製造過程以最小化缺陷密度變化對維持高產量和降低生產成本至關重要。這些結合了缺陷建模和過程控制的方法,對於最佳化半導體制造至關重要。
晶圓級整合需要強大的缺陷容忍和產量增強策略,以應對製造和缺陷分佈的複雜性。冗餘、重新配置和先進的統計建模等技術對於提高產量和確保成本效益生產至關重要。準確的產量預測和過程穩定性是應對缺陷變異性挑戰的關鍵。
AI硬體的新興趨勢
3D整合
3D整合透過將記憶體直接堆疊在計算單元上,增強了處理速度並減少了延遲,改善了頻寬利用率,並最小化了資料移動。這項技術對於像圖形處理、個性化推薦系統和圖卷積網路(GCNs)這樣的記憶體和計算密集型應用特別有益。3D整合也被視為提高能源效率的突破。透過減少資料必須傳輸的距離,降低了功耗,使其成為對能源效率至關重要的移動裝置和伺服器系統的一個有吸引力的選擇。3D堆疊的計算記憶體(CIM)架構對於GCNs特別有效,因為GCNs既計算密集又記憶體密集。透過將輕量級計算單元整合到記憶體儲存區附近,像GCIM這樣的架構可以顯著減少處理延遲和資料傳輸開銷。對於基於深度學習的個性化推薦系統,使用3D堆疊DRAM的近記憶體處理(NMP)可以緩解記憶體頻寬瓶頸。像RecPIM這樣的架構利用3D堆疊記憶體的高儲存器級頻寬,實現了顯著的加速和能源節省。
3D堆疊DRAM架構非常適合以記憶體為中心計算系統,在記憶體密集型應用中,其效能優於傳統CPU和GPU。這些系統透過最大化資料頻寬利用率,可以實現高平行計算效能。3D整合的主要挑戰之一是處理不規則記憶體訪問,這可能導致資料移動效率低下。像GCNim這樣的解決方案透過採用混合計算模型和高效資料放置演算法來平衡工作負載,從而解決這一問題。雖然透過矽通孔(TSVs)提供了高頻寬,但其擴充套件性較差,這限制了其效能。需要創新架構來克服這些限制,充分發揮3D堆疊記憶體的潛力。隨著記憶體技術的擴充套件,可靠性和安全性問題(如RowHammer現象)變得更加突出。解決這些挑戰需要新的解決方案和架構,以確保資料完整性和系統穩定性。
總之,3D整合技術為在堆疊架構中結合計算和記憶體提供了一條有前景的路徑,可實現更快的處理速度和更低的延遲。然而,必須解決不規則記憶體訪問和TSV頻寬限制等挑戰,以充分發揮這項技術的潛力。
光子晶片
將光子晶片整合到AI加速器中是一種有前景的方法,可增強資料傳輸能力,與傳統電子系統相比,提供更高的頻寬和能效。該技術利用光線的獨特屬性,克服了電子資料傳輸的限制,特別是在AI日益增長的計算需求背景下。光子晶片在頻寬和延遲方面具有顯著優勢。使用光線實現高速資料傳輸,這對於需要快速處理大型資料集的AI應用至關重要。光子積體電路(PICs)透過波分複用(WDM)等技術實現高頻寬和低延遲,允許多個數據流透過單根光纖同時傳輸。
光子晶片的關鍵優勢之一是其能效。光學資料鏈接的能耗遠低於電子連結,某些系統可實現低至120 fJ/位的通訊能耗。這種效率透過光子和電子元件的密集整合實現,減少了資料傳輸所需的能量。光子加速器還利用非易失性儲存器和被動元件,進一步降低操作期間的功耗。
光子晶片通常與現有電子系統整合以提升效能。這種混合方法結合了兩者的優勢,利用光子技術進行資料傳輸,電子技術進行邏輯控制和資料儲存。矽光子技術與互補金氧半導體(CMOS)工藝的相容性促進了這種整合,實現了可擴充套件的製造。
為了最大限度地發揮光子晶片的潛力,創新架構正在開發中,例如時分複用動態光子張量核和光子神經網路加速器。這些架構採用定製的光子器件和先進的複用技術,以實現高計算效率和並行性,這對於處理複雜的AI任務至關重要。
儘管光子晶片具有諸多優勢,但仍面臨挑戰,例如光子器件尺寸較大和需要專用光學元件。解決這些問題需要電光材料和封裝策略方面的進步,以提高光子系統的效能和整合度。
高熵合金(High-entropy alloys)
高熵合金(HEAs)是一類由多種主要元素以近乎等摩爾分陣列成的新型材料。這些合金因其獨特的效能而備受關注,適用於多種應用,包括改善散熱和增強AI工作負載的晶片可靠性。HEAs具有優異的熱穩定性和高強度,使其成為高溫應用的理想選擇。與鎳基超合金不同,HEAs在高溫下仍能保持強度,使其成為替代傳統材料的強有力候選者。
HEAs提供卓越的耐腐蝕和抗氧化效能,這對於在惡劣環境下的可靠性至關重要。其獨特的微觀結構和相組成增強了這種韌性。例如,CoCrFeMnNi HEA在室溫下的屈服強度約為600 MPa,即使在低溫(77 K)下仍保持高延展性(約50%)。AlCoCrFeNi HEA的維氏硬度約為700 HV,遠高於傳統不鏽鋼(約200 HV)。某些HEAs(如AlCrFeNiTi)在1000°C時形成保護性氧化層,與傳統超合金相比具有更強的抗氧化性。CoCrFeNiTi等HEAs的磨損率約為2 × 10⁻⁵ mm³/Nm,遠低於常規鋼材。一些HEAs在高輻射環境中比傳統鋼材的空隙膨脹率低5–10倍。
HEAs以其高強度、硬度和優異的機械效能而聞名,即使在低溫下也是如此。這包括卓越的延展性和斷裂韌性,這些對於要求苛刻的應用中材料的耐久性和壽命至關重要。HEAs的高熱穩定性和導熱性增強了電子元件的散熱能力,確保AI工作負載的持續效能和可靠性。由於其機械魯棒性和對環境劣化的抵抗力,HEAs提高了AI應用中晶片的可靠性,降低了故障率並延長了使用壽命。
總之,高熵合金(HEAs)為開發滿足現代AI工作負載苛刻要求的材料提供了一條有前景的途徑。其獨特的效能,結合克服製造和設計挑戰的持續研究,使HEAs成為未來高效能計算(HPC)和電子領域的關鍵材料。
計算儲存一體化(CIM)
記憶體計算和計算儲存一體化(CIM)是新興的計算正規化,旨在克服傳統馮·諾伊曼架構的限制,特別是記憶體牆問題。這些方法將計算整合到記憶體單元中,顯著提高能效和吞吐量,特別適用於深度學習等資料密集型應用。這種方法透過直接在記憶體單元內執行計算,減少了在獨立處理單元和記憶體單元之間傳輸資料的需要。它利用記憶體裝置的物理屬性(如電阻切換)來原地執行計算任務。CIM正在探索多種記憶體技術,包括SRAM、RRAM和新興的二維(2D)材料。這些技術在速度、能效和可擴充套件性方面具有不同的優勢。CIM對深度學習工作負載尤其有益,可以顯著提高乘加運算的速度和能效,這是神經網路處理的核心組成部分。透過將計算整合到記憶體中,CIM可以更高效地處理大規模資料中心應用,降低資料移動相關的時間和能耗成本。CIM的主要挑戰之一是平衡能效與計算精度。記憶體中的模擬計算可能受到變異和非理想因素的影響,從而影響精度。隨著CIM技術的進步,向更小技術節點的擴充套件帶來了機遇和挑戰。特別是基於SRAM的數字CIM因其在先進節點上有效擴充套件的潛力而受到關注。未來的研究重點是開發能夠充分利用CIM潛力的架構,包括流水線模式和稀疏感知技術,以提升效能和效率。
總之,CIM技術為克服傳統計算架構的限制提供了一個有前景的方向,特別適用於需要高資料吞吐量和能效的應用。然而,精度、可擴充套件性和整合方面的挑戰仍是活躍的研究和開發領域。
新興硬體趨勢比較
在AI硬體的3D整合、光子晶片和高熵合金(HEAs)中,光子晶片可能是最昂貴的,原因有以下幾點。首先,其製造成本高,需要專門的半導體代工廠和精密的納米制造技術。此外,其材料和設計的複雜性增加了成本,因為它們依賴於矽光子、磷化銦和鈮酸鋰等特殊材料。此外,光子晶片的大規模生產受限,因為它們仍處於早期採用階段,缺乏大規模製造效率。最後,其專門的封裝和整合增加了成本,因為它們需要與電子元件共同封裝,增加了複雜性和總體費用。
在AI硬體的效率方面,光子晶片在AI工作負載中能效最高,因為它們使用光訊號而非電訊號,顯著降低了功耗和散熱。它們在超快資料傳輸和並行處理方面表現出色,非常適合高速計算。3D整合透過最小化記憶體和計算單元之間的資料移動瓶頸來提高效率,從而降低延遲並改善每瓦效能。同時,HEAs透過增強熱學和機械效率提高了硬體的耐用性和抗磨損能力,儘管它們對計算效率的直接提升有限。總體而言,光子晶片在功耗效率和速度方面表現最佳,特別適用於處理大規模計算的AI加速器。
先進半導體制造:
工藝節點縮放與現代正規化
工藝節點縮放的演變
半導體縮放的歷史軌跡,通常由摩爾定律概括,傳統上強調每個後續工藝節點在電晶體速度、能效和每電晶體成本方面的提升。然而,隨著行業發展到16奈米節點之後,縮放的動機和成果發生了變化。早期的節點,如7奈米和5奈米,在電晶體密度、動態功耗降低和每瓦效能提升方面帶來了顯著收益,但這些優勢在3奈米和2奈米節點上變得不那麼明顯。當代縮放努力優先考慮電晶體密度和異構整合,而不是單純提升開關速度或電源效率。
在這些先進節點上,僅靠尺寸縮小已無法保證效能和功耗的縮放。漏電流增加、工藝變異性和互連寄生效應等因素削弱了較小几何尺寸的傳統優勢。相反,現代半導體進步依賴於架構創新和系統級最佳化。環繞柵極(GAA)和互補場效應電晶體(CFET)架構已成為密度縮放和改善靜電控制的關鍵推動因素,特別是在低於5奈米的尺寸下。此外,設計-技術協同最佳化(DTCO)、多晶片封裝以及新型材料和電晶體結構的引入在維持進步中扮演著日益關鍵的角色。
例如,雖然3奈米工藝相比7奈米工藝可實現高達70%的電晶體密度提升,但效能和功耗收益在很大程度上取決於工作負載特性和架構設計。為解決漏電和變異性等挑戰,高階技術——包括三閾值CMOS、自適應體偏置和工藝變異感知設計——已成為不可或缺的手段。此外,2D材料、陡坡電晶體和單片3D整合等探索性方法正在研究中,以緩解功耗、熱量和變異性約束,同時延長縮放的可行性。
電晶體架構:從FinFET到GAA和CFET
從鰭式場效應電晶體(FinFET)到環繞柵極(GAA)架構的轉變代表了電晶體設計的重大演變,解決了5奈米以下節點短溝道效應和漏電流的限制。GAA電晶體以堆疊奈米片FET為代表,透過柵極環繞溝道增強靜電控制,從而改善驅動電流、短溝道行為和相比FinFET的可擴充套件性。這些特性使GAA成為先進節點(如三星的3奈米工藝)的基石。
在GAA基礎上,互補場效應電晶體(CFET)架構引入了n型和p型GAA電晶體的垂直堆疊配置,有效在相同佔地面積內將電晶體密度翻倍。這一創新為超越橫向縮放限制、延續摩爾定律提供了途徑。然而,GAA和CFET技術的採用並非沒有挑戰。製造複雜性,包括線邊緣粗糙度、功函式變異性和熱預算限制,對良率和成本可擴充套件性構成了重大障礙。針對高遷移率材料(如鍺和二維半導體)的研究旨在克服這些製造和效能壁壘。
先進封裝:臺積電的CoWoS平臺
與電晶體級進步並行,封裝技術在推動系統級效能方面變得至關重要。臺積電的CoWoS平臺透過矽中介層實現計算和記憶體晶片的高密度整合,體現了這一趨勢。CoWoS支援高頻寬記憶體(HBM)整合、大型晶片聚合以及高效的熱管理和電源管理,使其成為AI和高效能計算(HPC)應用的關鍵。
CoWoS-S和CoWoS-L等變體增強了電源傳輸和訊號完整性,而微冷卻解決方案和深槽電容器等補充創新則在高熱負荷下提升了效能可靠性。這些發展凸顯了行業向異構整合和3D系統架構的更廣泛轉變,這些架構日益取代傳統縮放來驅動效能提升。
半導體行業已進入一個新時代,工藝節點縮放超越了簡單的尺寸縮小,擁抱架構創新、系統級整合和先進封裝以維持進步。雖然GAA和CFET架構推動了電晶體密度和控制的邊界,但CoWoS等封裝解決方案重新定義了效能正規化。然而,變異性、成本和熱管理方面的挑戰需要材料、設計方法和製造工藝的持續創新,以充分發揮這些進步的潛力。
結論
未來十年,人工智慧硬體的演變將經歷重大變革,受到對計算能力、效率和可擴充套件性日益增長的需求的推動。對晶圓級系統(WSEs)與基於GPU架構的比較分析表明,儘管WSEs在能效和吞吐量方面展現了顯著進步,但由於其靈活性和對現有AI工作負載的最佳化,GPU叢集在AI模型訓練中仍佔據主導地位。例如,Cerebras WSE-3和特斯拉Dojo訓練瓦片在訓練大規模AI模型方面表現出色。Cerebras WSE-3採用臺積電5奈米工藝,擁有90萬個AI核心和44GB片上SRAM,互連頻寬高達21 PB/s。這種高頻寬和低延遲顯著減少了資料移動,提升了效能,尤其對萬億引數模型有利,使訓練百億引數模型在一天內成為可能。
另一方面,以NVIDIA H100為代表的GPU叢集在MLPerf基準測試中繼續佔據主導地位,效能比其前代A100提高了6.7倍。然而,在超大規模模型訓練中,GPU架構可能受限於晶片間通訊開銷。在能效方面,WSE-3在不增加功耗的情況下將訓練速度翻倍,展示了其在規模擴充套件應用中的巨大潛力。儘管如此,基於GPU的叢集也在持續最佳化架構以提高效率。兩種架構都面臨高功耗、冷卻需求以及製造過程碳足跡的挑戰。
本研究對現有的晶圓級AI加速器和傳統單晶片GPU進行了全面比較分析。分析表明,隨著AI模型擴充套件到萬億引數,傳統GPU架構在可擴充套件性、能效和通訊頻寬方面的限制變得日益明顯。相比之下,Cerebras WSE-3和特斯拉Dojo等晶圓級系統採用單片設計,在單一晶圓上整合數十億電晶體和數十萬核心。這種架構大幅降低了晶片間通訊延遲並提升了吞吐量,從而無需複雜模型分割槽即可高效訓練超大規模AI模型。
隨著領域的發展,未來的進步可能集中在3D整合、光學互連和更高效的電源管理技術上,進一步縮小WSE與GPU之間的效能差距。這些技術在半導體創新和AI工作負載最佳化的驅動下,將塑造下一代計算,在萬億引數AI模型時代平衡可擴充套件性、效率和可持續性。
NVIDIA執行長黃仁勳一再強調,摩爾定律已不足以滿足AI工作負載的指數增長。相反,計算的未來將依賴於加速計算、特定領域架構以及超越傳統電晶體縮放的創新。他的願景與向晶圓級計算、基於小晶片的架構和異構計算模型的轉變相一致。在未來5-10年,AI硬體預計將經歷變革性進步,受到更高計算效率(圖5)、能源最佳化和可擴充套件性需求的推動。

圖5. AI硬體的預測效能和關鍵指標增益。(A) 2025年至2030年晶圓級系統(WSEs)、傳統GPU和新興AI硬體技術的預測效能和效率趨勢。預計晶圓級系統將保持效能領先,而新興技術由於快速創新將在後期逐漸縮小差距。(B) 2025年和2030年WSE、GPU和新興技術在三個關鍵指標——FLOPS、功耗降低和可擴充套件性——的比較分析。資料顯示顯著的預測改進,特別是WSE在可擴充套件性方面和新興技術在效率方面的提升,凸顯了AI硬體平臺不同的優勢和未來發展方向。
術語解釋
效能:指系統的計算能力,通常以每秒浮點運算次數(FLOPS)衡量,量化系統在給定時間內可以執行的計算量。
功耗:指系統執行所消耗的電能,通常以瓦特(W)或千瓦(kW)為單位。
可擴充套件性:指系統透過增強單個單元(垂直擴充套件)或新增更多單元(水平擴充套件)來增加計算能力,以滿足不斷增長的工作負載需求,如更大規模的AI模型或更廣泛的應用。
新興技術:包括3D整合、光子晶片和高熵合金(HEAs)。
晶圓級計算是最有前景的方向之一,以Cerebras WSE-3和特斯拉Dojo為代表,在單一晶圓上整合數千核心,並擴充套件到整個系統中的數百萬核心。這種方法消除了互連瓶頸,大幅降低延遲,特別適合訓練萬億引數AI模型。到2030年,3D整合、近記憶體計算和光學嵌入的進一步進步可能將晶圓級架構推向更高效率,每晶圓可能超過數艾FLOPS的計算能力(圖5A)。
與此同時,GPU將透過模組化、基於小晶片的設計繼續演變。NVIDIA、AMD和Intel已在開發下一代GPU,利用HBM4記憶體、AI專用張量核心和稀疏感知計算提升訓練效率(表11)。到2030年,多GPU叢集可能整合類似晶圓級的架構,縮小分散式GPU系統與單片WSE之間的效能差距。此外,透過低於2奈米工藝節點、動態電壓縮放和液體浸沒冷卻等能效改進,GPU功耗可能降低30%-40%,推動其在邊緣AI和即時推理應用中的更廣泛部署。

超越矽,新型半導體材料,如HEAs、碳奈米管電晶體和光子計算,可能重塑AI硬體格局。光子晶片透過光速計算顯著降低功耗並提升吞吐量,可整合到AI加速器中。近記憶體計算的進一步發展對資料密集型應用(如深度學習)尤為有效(表11)。量子輔助AI計算,結合量子-經典混合處理器處理特定最佳化和加密任務,可能在本世紀末開始出現。
從系統級視角看,未來十年將更加註重能效和可持續性(圖5B)。AI訓練已消耗大量能源,需要綠色計算舉措,如使用可再生能源驅動的AI硬體、碳感知排程和自適應冷卻策略。公司需在計算能力與環境影響之間取得平衡,塑造下一代高效能計算基礎設施。
總之,AI硬體格局將沿著多條軌跡繼續演變——晶圓級整合、基於小晶片的GPU、新型材料和量子-經典混合架構。隨著AI工作負載規模和複雜性的擴充套件,這些技術的融合將定義AI計算的未來,推動效能、效率和可持續性的邊界。
感謝本文作者:

*免責宣告:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察轉載僅為了傳達一種不同的觀點,不代表半導體行業觀察對該觀點贊同或支援,如果有任何異議,歡迎聯絡半導體行業觀察。
END
今天是《半導體行業觀察》為您分享的第4082期內容,歡迎關注。
推薦閱讀

加星標⭐️第一時間看推送,小號防走丟

求點贊

求分享

求推薦
