英偉達CPO,掀起新大戰

👆如果您希望可以時常見面,歡迎標星🌟收藏哦~
來源:內容編譯自IEEE,謝謝。
人們期待已久的新興計算機網路元件可能終於迎來了它的時代。在上週於聖何塞舉行的Nvidia GTC活動上,該公司宣佈將生產一種光纖網路交換機,旨在大幅降低 AI資料中心的功耗。該系統稱為共封裝光學器件(CPO)交換機,每秒可將數十兆位元的資料從一個機架中的計算機路由到另一個機架中的計算機。
如今,在資料中心中,計算機機架中的網路交換機由專用晶片組成,這些晶片透過電氣方式與插入系統的光收發器相連(機架內的連線是電氣的,但有幾家初創公司希望改變這一現狀)。可插拔收發器結合了雷射器、光電路、數字訊號處理器和其他電子裝置。它們與交換機建立電氣連線,並在交換機端的電子位元和沿光纖穿過資料中心的光子之間轉換資料。
共封裝光學器件是一種透過將光/電資料轉換儘可能靠近交換晶片來提高頻寬並降低功耗的方法。這簡化了設定,並透過減少所需的獨立元件數量和電子訊號必須傳輸的距離來節省電力。先進的封裝技術使晶片製造商能夠用多個矽光收發器晶片包圍網路晶片。光纖直接連線到封裝上。因此,除雷射器外,所有元件都整合到一個封裝中,雷射器保持外部,因為它們是使用非矽材料和技術製造的。(即便如此,CPO 只需要 Nvidia 硬體中每八個資料鏈路一個雷射器。)
共封光學:很強,很難
儘管這項技術看起來很有吸引力,但其經濟性阻礙了它的部署。“我們一直在等待 CPO,”加州大學聖巴巴拉分校的聯合封裝光學專家、IEEE 研究員Clint Schow說,他已經研究這項技術 20 年了。談到 Nvidia 對這項技術的認可,他表示該公司“除非到了 [GPU 密集型資料中心] 無法承擔電力成本的時候,否則不會這麼做。”因為其所涉及的工程非常複雜,Schow 認為除非“舊方法被打破”,否則它是不值得的。
Omdia 資料中心計算和網路專家 Manoj Sukumaran 對此舉充滿熱情,稱其為“真正的大事”。他告訴我們,共封裝光學器件是一項“醞釀已久”的技術。該技術、供應商和標準分散在各個小公司及其定製解決方案中。
“這項技術沒有標準化,因此即使在超大規模 CSP 中也沒有得到廣泛採用。
IDC EMEA 高階研究總監 Andy Buss表示,即便是今天,10G 乙太網對於銅 RJ45 連線來說,每個埠的功耗仍然很高,而當我們以高資料速率使用當前的光收發器和可插拔模組時,每個模組的功耗是顯而易見的——而且隨著所需的網路連線數量的增加,每個模組的功耗會迅速增加,成為一個重要的耗電裝置。每個收發器的功耗可能在 20W 到 40W 之間,所以這不是微不足道的——而且這不僅需要供電,還需要冷卻。
事實上,Nvidia 也將即將到來的 AI 資料中心的功耗作為其動機。Nvidia超大規模和高效能計算副總裁Ian Buck表示,可插拔光學器件消耗了 AI 資料中心“總 GPU 功耗的 10%” 。在一個擁有 40 萬個 GPU 的工廠中,這相當於 40 兆瓦,其中一半以上僅用於為可插拔光學收發器中的雷射器供電。“擁有 40 萬個 GPU 的 AI 超級計算機實際上需要 24 兆瓦的雷射器,”他說。
Jensen 在他的主題演講中強調了這一點。該公司聲稱功耗降低了 70%,從 1.6T 可插拔收發器的 30W 降低到每個 1.6T CPO 埠僅 9W。Nvidia的 CPO 基於新的微環調製器 (MRM),可額外提高功率效率。
不過,正如IDTechEx 所說,異構整合是共封裝光學器件 (CPO) 的關鍵,它使光學引擎 (OE)(包括光子 IC (PIC) 和電子 IC (EIC))與開關 ASIC 或 XPU 整合在單個封裝基板上。CPO 的封裝方法通常分為兩種:一種涉及光學引擎本身的封裝,另一種側重於光學引擎與 ASIC 或 XPU 等 IC 的系統級整合。這兩種方法都需要使用先進的 2.5D 和 3D 半導體封裝技術。
光子和電子元件的整合可以透過多種方法實現,每種方法都有不同的優點,也面臨著特定的挑戰。
2D 整合涉及將 PIC 和 EIC 並排放置在印刷電路板 (PCB) 上,並透過引線鍵合或倒裝晶片技術進行連線。這種方法的優點是封裝技術簡單、複雜度低、成本效益高。然而,缺點包括顯著的寄生電感,這會導致訊號完整性問題和高能耗。此外,由於間距限制和對單邊連線的依賴,整體 I/O 功能被重組。總體而言,雖然 2D 整合相對容易封裝,但使用引線鍵合會限制收發器頻寬並增加能耗,使其不太適合高效能應用。
2.5D 整合透過將 EIC 和 PIC 安裝到配備矽通孔 (TSV) 的無源中介層上,提供了一種折中方案。該方法透過使用微凸塊或銅柱來減少 EIC 和 PIC 之間的封裝寄生效應,從而實現更高的 I/O 連線並實現更精細的佈線以增加頻寬。此外,中介層的使用允許加入波導層,這可以增強光訊號重新分配並支援更好的訊號完整性。然而,這種方法也帶來了一系列挑戰。與 2D 整合相比,2.5D 整合的開發和製造成本更高。此外,雖然 2.5D 整合在 2D 整合的基礎上有所改進,但它的寄生效應仍然高於 3D 整合,這會影響整體效能。
3D 混合整合採用更先進的方法,使用先進的半導體封裝技術(例如矽通孔 (TSV)、高密度扇出、Cu-Cu 混合鍵合或有源光子中介層(使用 PIC 作為中介層,如圖所示))將 EIC 堆疊在 PIC 之上。通常,3D 整合方法可顯著減少寄生效應並支援密集間距配置,從而提高效能。然而,管理散熱是一項挑戰,因為來自 EIC 的熱量會影響 PIC,因此需要先進的熱管理解決方案。
在這些不同的封裝方法中,矽通孔 (TSV) 技術因其在電力傳輸和通訊效率方面的優勢而被視為整合 EIC 和 PIC 的關鍵技術之一。TSV 可最大限度地降低電壓降和電感,為關鍵元件提供可靠電力,同時縮短互連距離以改善通訊。儘管由於矽的介電特性,高頻下存在訊號完整性挑戰,但 TSV 更光滑的金屬表面有助於減輕趨膚效應,使其成為高階 EIC/PIC 整合的理想選擇。據思科稱,其第三代光學引擎採用了 3D TSV(矽通孔)先進封裝技術。TSV 的使用解決了電源完整性瓶頸問題,該瓶頸是由向高頻工作的 PIC 上的有源器件有效傳輸電力的挑戰以及 EIC 中有源器件數量的增加而引起的。
3D Cu-Cu 混合鍵合技術可支援個位數微米範圍內的凸塊間距,正成為最小化 EIC/PIC 介面寄生效應的關鍵解決方案。該技術已用於高階處理器,透過減少寄生效應提供顯著優勢,從而降低功耗並提高效能。臺積電透過其 SoIC 技術(品牌為 COUPE)推進這一方法,用於堆疊 EIC 和 PIC,旨在利用混合鍵合實現卓越的整合效率和效能。
3D 單片整合是最先進的技術,目前仍在開發中,它涉及將光子元件嵌入現有電子工藝節點,而改動極小。這種方法將有源光子和電子元件整合在同一晶片中,透過消除對介面焊盤和凸塊的需求,減少了寄生效應並簡化了封裝。然而,它通常依賴於較舊的 CMOS 工藝節點,這可能導致光子效能不佳和能耗較高。儘管存在這些限制,3D 單片整合仍可減少阻抗失配並簡化封裝。
隨著共封裝光學器件 (CPO) 成為高階資料中心的關鍵解決方案,封裝技術的選擇仍在積極討論和研究中。每種整合方法都有獨特的優勢和挑戰,不僅要考慮光學引擎的封裝,還要考慮涉及 IC(交換機 ASIC/XPU)和光學引擎共同設計的綜合系統整合。
英偉達的解決方案:真正瘋狂的技術
在主題演講中,黃仁勳表示:“將 GPU 擴充套件到數十萬個的挑戰在於橫向擴充套件的連線。當資料中心現在有體育場那麼大時,我們需要一些[新]東西 – 而這正是矽光子學的用武之地。”
他補充道:“矽光子學的挑戰在於收發器消耗大量能源。我們宣佈推出 Nvidia 首款共封裝 [光學] 矽光子系統。
“這是世界上第一個 1.6 Tb/s CPO,基於一種稱為微環調製器 (MRM) 的技術。它完全採用臺積電這種令人難以置信的工藝技術製造而成。”
黃仁勳將這一進展描述為“真正瘋狂的技術”,並將通常用於透過網路交換機連線 GPU 的傳統 Mach-Zehnder 可插拔收發器與 Nvidia 的最新進展進行了比較。
他指出,如今每個 GPU 都需要六個獨立的收發器,這意味著每個 GPU 的功耗為 180 瓦,成本為 6000 美元。“問題是:我們現在如何擴充套件到數百萬個 GPU?”執行長說。“因為如果我們有 100 萬個 GPU,我們需要 600 萬個收發器,消耗 180 兆瓦。”
下圖顯示了所涉及的許多其他元件的概覽,首先是臺積電製造的電子和光子 IC,並以 3D 堆疊組裝。臺積電的緊湊型通用光子引擎 (COUPE) 技術包括一個用於表面耦合到光纖陣列的微透鏡。在 Quantum-X Photonic 平臺的情況下,光學引擎元件透過中介層連線到交換機 ASIC。
如下圖所示,Nvidia 的CPO 合作伙伴名單包括 Browave、Coherent、Corning、Fabrinet、Foxconn、Lumentum、Senko、SPIL、Sumitomo、TFC 和臺積電。當中,他們還深入介紹了與臺積電的合作。
在一段影片,英偉達介紹了臺積電製造的“Quantum-X”封裝如何結合 18 個矽光子引擎,透過 36 個雷射輸入實現 324 個光連線和 288 個數據鏈路。
六個可拆卸光學子元件連線到封裝,每個子元件包含三個矽光引擎,可提供 4.8 Tb/s 的總資料吞吐量。每個矽光引擎都具有一個 200 Gb/s MRM,採用臺積電的“ COUPE ”(緊湊型通用光子引擎)工藝製造,該工藝在 1000 個光子積體電路 (PIC) 上堆疊了 2.2 億個電晶體。
總體而言,與傳統的可插拔收發器方法相比,該方法可將功耗降低 3.5 倍。
黃仁勳在談到這一進展時表示:“這簡直是一個技術奇蹟”,並補充說,Nvidia 將在今年下半年開始出貨矽光子交換機,隨後在 2026 年下半年推出 Spectrum-X 產品。
他補充說,藉助英偉達過去五年來一直致力於研發的矽光子技術,資料中心可以節省“數十兆瓦”的電力消耗。
Lumentum 為新交換機提供雷射器,該公司雲和網路技術業務總裁 Wupen Yuen 評論道:“大幅降低網路功耗的創新將擴大光子元件市場,支援更大的人工智慧安裝,並加速從銅到光子互連的過渡。”
Coherent 執行長 Jim Anderson 在自己的公告中補充道:“我們很高興能成為 Nvidia 在這種新型收發器方面的合作伙伴。我們預計 CPO 將進一步加速資料中心光纖網路的擴充套件。”
Nvidia 網路高階副總裁 Gilad Shainer 表示,Nvidia 與 Lumentum 和 Coherent 在雷射器和矽光子學方面的合作將實現下一代“百萬級人工智慧”。
“透過將矽光子學直接整合到交換機中,Nvidia 打破了超大規模和企業網路的舊限制,並打開了百萬 GPU AI 工廠的大門。”
Nvidia 表示,在新的 AI 資料中心採用 CPO 交換機將使雷射器數量減少四分之一,資料傳輸的功率效率提高3.5 倍,使訊號從一臺計算機準時傳輸到另一臺計算機的可靠性提高 63 倍,使網路抵禦中斷的能力提高 10 倍,並允許客戶以更快 30% 的速度部署新的資料中心硬體。
該公司計劃推出兩類交換機,Spectrum-X 和 Quantum-X。Quantum-X 將於今年晚些時候上市,它基於Infiniband網路技術,這是一種更面向高效能計算的網路方案。它從 144 個埠中的每一個埠提供 800 Gb/s 的速度,它的兩個 CPO 晶片採用液冷而不是風冷,越來越多的新 AI 資料中心也採用這種冷卻方式。網路ASIC包括 Nvidia 的SHARP FP8技術,該技術允許 CPU 和 GPU 將某些任務解除安裝到網路晶片上。
Spectrum-X 是一款基於乙太網的交換機,可透過總共 128 或 512 個埠提供約 100 Tb/s 的總頻寬,並透過 512 或 2048 個埠提供 400 Tb/s 的總頻寬。預計硬體製造商將在 2026 年準備好 Spectrum-X 交換機。
Nvidia 多年來一直致力於基礎光子技術的研究。但它需要與臺積電、康寧和富士康等 11 家合作伙伴合作,才能將這項技術推向商業化階段。
Nvidia 光學互連產品總監 Ashkan Seyedi 強調,這些合作伙伴帶來的技術必須共同最佳化以滿足 AI 資料中心的需求,而不是簡單地從這些合作伙伴現有的技術中組裝起來。
“CPO 帶來的創新和節能效果與你的封裝方案、封裝合作伙伴和封裝流程密切相關,”Seyedi 說道。“創新之處不僅僅在於光學元件本身,還在於它們如何以高產、可測試的方式進行封裝,從而讓你能夠以合理的成本進行管理。”
測試尤為重要,因為該系統集成了許多昂貴的元件。例如,Quantum-X 系統的兩個 CPO 中各有 18 個矽光子晶片。每個晶片都必須連線到兩個雷射器和 16 根光纖。Seyedi 表示,團隊必須開發幾種新的測試程式才能確保測試正確,並追蹤錯誤出現的位置。
Nvidia 並不是唯一一家推出採用同封裝光學器件的網路交換機的公司。博通也是當中一個重要玩家。
光調製器:英偉達和博通的根本區別
Micas Networks本週宣佈推出 51.2T 產品,該產品基於 Broadcom 的 51.2 Tbps Bailly CPO 交換機平臺,提供 128 個 400G 乙太網埠。
Broadcom 的 CPO 提供了 50% 的功耗降低(透過移除 DSP),但它基於 Mach-Zehnder 調製器 (MZM)——光收發器中的標準組件。
博通光學系統部門產品營銷高階經理羅伯特·漢娜 (Robert Hannah)解釋說,博通為其Bailly CPO 交換機選擇了更為成熟的 Mach-Zender 調製器,部分原因是它是一種更為標準化的技術,可能更容易與現有的可插拔收發器基礎設施整合。
Micas 的系統使用單個 CPO 元件,該元件由 Broadcom 的Tomahawk 5 乙太網交換機晶片和八個 6.4 Tb/s 矽光子光學引擎組成。該風冷硬體現已全面投入生產,領先於 Nvidia 的 CPO 交換機。
漢娜稱 Nvidia 的參與是對 Micas 和博通時機的認可。“幾年前,我們決定滑向冰球將要到達的地方,” Micas 營運長米奇·加爾佈雷斯(Mitch Galbraith) 表示。他說,隨著資料中心運營商爭相為其基礎設施提供動力,CPO 的時代似乎已經到來。
與使用標準可插拔收發器的系統相比,這款新交換機有望節省 40% 的功耗。不過, Micas 公司企業戰略副總裁Charlie Hou表示,CPO 更高的可靠性同樣重要。“鏈路抖動”是指可插拔光纖鏈路的瞬時故障,是導致已經非常長的 AI 訓練執行時間延長的罪魁禍首之一,他說。CPO 預計鏈路抖動會更少,因為訊號路徑中的元件更少,還有其他原因。
如上所述,Broadcom 的方案與 Nvidia 的方案之間的一個根本區別是光調製器技術,該技術將電子位元編碼到光束上。矽光子學中主要有兩種型別的調製器 – Mach-Zender(Broadcom 所採用的並且是可插拔光學器件的基礎)和微環諧振器(Nvidia 所選擇的)。在前者中,穿過波導的光被分成兩個平行的臂(arm)。然後,每個臂可以透過施加的電場進行調製,從而改變透過的光的相位。然後,這兩個臂重新連線形成單個波導。根據兩個訊號現在是否同相或異相,它們將相互抵消或合併。因此,電子位元可以編碼到光上。
微環調製器要緊湊得多。它不是將光沿著兩條平行路徑分開,而是在光的主路徑一側懸掛一個環形波導。如果光的波長可以在環中形成駐波,它將被抽走,從而將該波長從主波導中過濾掉。究竟哪種波長與環產生共振取決於結構的折射率,而折射率可以透過電子方式進行操控。
然而,微環的緊湊性是有代價的。微環調製器對溫度敏感,因此每個調製器都需要內建加熱電路,必須小心控制加熱電路,而且會消耗電力。另一方面,Mach-Zender 裝置要大得多,導致更多的光損失和一些設計問題,Schow 說。
Schow 表示,Nvidia 成功將基於微環的矽光子引擎商業化是“一項了不起的工程壯舉”。
未來的 CPO
Schow 表示,大型資料中心希望從 CPO 獲得的節能效果主要是一次性的。之後,“我認為這將成為新常態。”不過,電子裝置其他功能的改進將使 CPO 製造商能夠繼續提高頻寬——至少在一段時間內。
Schow 懷疑單個矽調製器(在 Nvidia 的光子引擎中以 200 Gb/s 的速度執行)能否超過 400 Gb/s。不過,其他材料(如鈮酸鋰和磷化銦)應該能夠超過這個速度。關鍵在於以可承受的價格將它們與矽元件整合在一起,聖巴巴拉的OpenLight等團體正在研究這個問題。
與此同時,可插拔光學器件也並非一成不變。本週,博通推出了一款新型數字訊號處理器,該處理器可使 1.6 Tb/s 收發器的功耗降低 20% 以上,部分原因在於採用了更先進的矽工藝。
Avicena、Ayar Labs和Lightmatter等初創公司正在努力將光學互連引入 GPU 本身。前兩家公司已經開發出可以與 GPU 或其他處理器裝入同一封裝中的晶片。Lightmatter 更進一步,將矽光子引擎作為未來晶片 3D 堆疊的封裝基板。
知名光學分析機構lightcounting在其文章中表示,橫向擴充套件網路是低風險的 CPO 切入點,但縱向擴充套件光纖互連更為關鍵。混合專家 (MoE) 模型的快速響應時間需要專家並行性,即跨 GPU 劃分專家。Jensen 解釋了吞吐量和響應時間之間的權衡,他的示例展示了一個最佳點,即需要專家並行 64,這意味著專家被劃分到 64 個 GPU 例項中。Blackwell 一代 NVL72 機架使用 NVLink 在無源銅背板(或主幹)上建立了一個 72-GPU 縱向擴充套件域。Nvidia 將在 2H26 中為 Vera Rubin NVL144 使用類似的設計,可能會將無源電纜的數量增加一倍。
Nvidia隱瞞了 Rubin Ultra NVL576 設計的細節,但 Kyber 機架佈局顯然為 NVLink 互連引入了新的要求。儘管如此,144 個 GPU 封裝仍可裝入單個機架中,因此最大覆蓋範圍約為 2 米。路線圖省略了 Feynman 預期的 NVLink 規模,但我們相信它將擴充套件到多個機架,屆時將需要光學器件。
Nvidia在 GTC 2022 上首次宣佈了透過光纖實現 NVLink 的計劃。該公司在內部構建了至少一個這樣的叢集,但重定時光收發器的高功耗對於廣泛部署來說是不可能的。消除 DSP 是向前邁出的一步,但需要為未來的改進開闢道路。這就是 Nvidia 冒險使用 MRM 等新技術的原因。考慮到擴充套件能力的重要性,該公司可能正在研究廣泛的新光學技術。NVLink
CPO 的 2028 年時間表為 Nvidia 提供了兩代人在橫向擴充套件網路中證明其技術的機會。這將降低 GPU 不可避免地轉向 CPO 的風險,這只是時間問題,而不是是否的問題。

參考連結

https://spectrum.ieee.org/co-packaged-optics
END
👇半導體精品公眾號推薦👇
▲點選上方名片即可關注
專注半導體領域更多原創內容
▲點選上方名片即可關注
關注全球半導體產業動向與趨勢
*免責宣告:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察轉載僅為了傳達一種不同的觀點,不代表半導體行業觀察對該觀點贊同或支援,如果有任何異議,歡迎聯絡半導體行業觀察。
今天是《半導體行業觀察》為您分享的第4075期內容,歡迎關注。
推薦閱讀
『半導體第一垂直媒體』
即時 專業 原創 深度
公眾號ID:icbank
喜歡我們的內容就點“在看”分享給小夥伴哦


相關文章