三大晶片巨頭,搶進CPO

👆如果您希望可以時常見面,歡迎標星🌟收藏哦~
過去二十多年,計算效能的提升受益於摩爾定律的擴充套件,效能增長達到了60000倍,如圖1所示。然而,同一時期內,I/O頻寬僅增長了30倍。當下,如何將高頻寬互連擴充套件到單個機架之外是NVIDIA以及其他廠商都面臨的必然挑戰。據行業分析公司LightCounting的分析指出:將 GPU叢集從36-72個晶片擴充套件到500-1000個晶片是加速人工智慧訓練的最佳選擇;在未來3年內,即使是推理叢集也可能需要多達 1,000 個GPU才能支援更大的模型。共封裝光學器件(CPO,Co-Packaged Optics)可能是在4-8機架系統中提供數萬個高速互連器件的唯一選擇。
圖1:不同代際互連和儲存的頻寬(BW)以及硬體(HW)峰值FLOPS的擴充套件。值得注意的是,互連頻寬增長的速度遠低於硬體FLOPS。(來源:IBM論文,arXiv:2412.06570)
目前,資料中心在資料傳輸中已廣泛依賴光學技術,但對於短至中長距離(< 2米)的互連連線,光學技術的應用仍較少。雖然傳統的可插拔光學可作為過渡技術,但其頻寬增長速度遠低於資料中心流量的增長速度,應用需求和傳統可插拔光學技術能力之間的差距不斷加大,這一趨勢是不可持續的。
共封裝光學(CPO)作為一種顛覆性技術,透過先進的封裝技術和電子光子協同最佳化,極大地縮短電氣連線路徑,從而提高互連頻寬密度和能效。因而,CPO也被譽為AI時代的關鍵互連技術之一。LightCounting創始人兼執行長Vlad Kozlov表示:“我們預測,到 2029 年,CPO端口出貨量將從目前的不到5萬個增長到超過1800萬個,其中大多數埠將用於伺服器內的連線。”
圖2:1.6T線纜類和1.6T 50m CPO埠的發貨量
(圖源:LightCounting)
而從博通、Marvell、IBM等各家廠商在CPO領域的最新進展來看,CPO將迎來雲廠商的快速採用和部署的浪潮。
博通CPO,商業化加快
2024年12月30日,據經濟日報的報道,臺積電矽光戰略取得重大進展,近期實現共封裝光學元件(CPO)與先進半導體封裝技術的整合,預計2025年初開始樣品交付,博通和NVIDIA將成為臺積電該解決方案的首批客戶。
報道中指出,臺積電與博通聯合開發的微環調製器(MRM)近期已透過3nm試產,為頂級AI晶片整合到CPO模組奠定基礎,預計臺積電將採用其CoWoS或SoIC先進封裝。此舉也說明CPO技術已從研發階段向量產化邁進,1.6T光傳輸時代正加速到來。
去年3月份,博通已向小部分客戶交付了業界首款 51.2 兆兆位/秒 (Tbps) 共封裝光學 (CPO) 乙太網交換機 Bailly。該產品集成了八個基於矽光子的 6.4-Tbps 光學引擎和 Broadcom 一流的 StrataXGS Tomahawk5 交換機晶片。與可插拔收發器解決方案相比,Bailly 使光學互連的執行功耗降低了70%,矽面積效率提高了8倍。
圖3:51.2T Tomahawk 5交換機,配備8個Bailly光學引擎(圖源:broadcom)
隨著臺積電的強勢參與,為CPO技術注入了可信賴的供應鏈能力,並可能助推博通CPO方案在市場中加速推廣,為晶片與光學技術的融合提供強有力的支撐。
Marvell:XPU架構正式整合CPO
Marvell在收購Inphi之後,大大增強了在光通訊和資料中心領域的研發能力。自2017年以來,Marvell開始為全球頂級超大規模資料中心提供矽光子裝置,併成功將其應用於COLORZ資料中心互連光學模組。這一技術已獲得多個行業領先的資料中心認證,並實現大規模生產。截至目前,Marvell的矽光裝置已累計記錄超過100億小時的現場執行時間。
作為矽光技術發展的下一步,Marvell正重點佈局共封裝光學(CPO)技術,這是公司在下一代互連技術發展中的關鍵一步。
2025年1月6日,Marvell宣佈,其下一代定製XPU架構將採用共封裝光學 (CPO) 技術。CPO技術使得AI伺服器的規模從目前使用銅互連的機架內數十個XPU擴充套件到使用CPO 的多個機架中的數百個XPU,這意味著AI伺服器的計算能力可以在更大範圍內得到提升,同時保持低延遲和高效的能耗表現。
Marvell指出,下一代定製AI加速器XPU架構使用高速 SerDes、die-to-die晶片介面和先進封裝技術,將 XPU計算晶片、HBM和其他晶片與Marvell 3D SiPho引擎整合在同一基板上。這種方法無需電訊號離開XPU封裝進入銅纜或穿過印刷電路板。CPO利用高頻寬矽光子光學引擎來提高資料吞吐量,與傳統銅連線相比,矽光子光學引擎可提供更高的資料傳輸速率,並且不易受到電磁干擾。這種整合還透過減少對高功率電氣驅動器、中繼器和重定時器的需求來提高電源效率。
早在2024年,Marvell就展示了全球首款3D SiPho引擎——一個整合度極高的光學引擎,支援200Gbps的電氣和光學介面。而Marvell 6.4T 3D SiPho 引擎是一款高度整合的光學引擎,具有 32 個 200G 電氣和光學介面通道、數百個元件(例如調製器、光電探測器、調製器驅動器、跨阻放大器、微控制器)以及大量其他無源元件,這些元件整合在一個統一的裝置中,與具有 100G 電氣和光學介面的同類裝置相比,可提供 2 倍的頻寬、2 倍的輸入/輸出頻寬密度和 30% 的每位元功耗降低。多家客戶正在評估該技術,以將其整合到其下一代解決方案中。
圖3:使用CPO的下一代定製AI加速器XPU
(圖源:marvell)
藉助整合光學器件,XPU 之間的連線可以實現更快的資料傳輸速率和比電纜長100 倍的距離。這可以在 AI 伺服器內實現跨多個機架的擴充套件連線,並具有最佳延遲和功耗。透過實現更長距離和更高密度的 XPU 到 XPU 連線,CPO 技術促進了高效能、高容量擴充套件 AI 伺服器的開發,從而優化了下一代加速基礎設施的計算效能和功耗。
Marvell的此次宣佈無疑昭示出CPO已經逐漸被XPU廠商認可。要知道,Marvell前不久才與全球雲端服務供應商龍頭亞馬遜AWS簽署五年合作協議,供應亞馬遜AWS客製化AI晶片。隨著Marvell AI定製化晶片整合CPO步伐的加快,預計CPO的應用和部署將大大提速。
IBM:新工藝突破加速CPO實現
儘管矽光子學並不是一個新概念,但需要開發先進的製造工藝和器件結構,以滿足CPO的需求。近年來,CPO解決方案逐漸興起。儘管如此,CPO的廣泛應用仍面臨許多挑戰,而增加光纖整合密度可能是推動市場採納的一個步驟。
近日,IBM宣佈,其研究人員開創了一種新型的共封裝光學(CPO)工藝,全新的共封裝光學 (CPO) 原型將透過使用聚合物材料來引導光學而不是傳統的基於玻璃的光纖。IBM 的論文概述了這些新的高頻寬密度光學結構如何與每個光通道傳輸多個波長相結合,有可能將晶片之間的頻寬提高到電氣連線的 80 倍。
在IBM的技術研究論文《Next generation Co-Packaged Optics Technology to Train & Run Generative AI Models in Data Centers and Other Computing Applications,下一代共封裝光學技術用於在資料中心和其他計算應用中訓練和執行生成式AI模型》中報告了成功設計和製造基於50微米間距聚合物波導介面的光學模組,這些模組經過整合最佳化,能夠實現低損耗、高密度的光資料傳輸,並在矽光子晶片上佔據極小的空間。該原型模組符合JEDEC可靠性標準,承諾將晶片邊緣可連線的光纖數量——即所謂的“海濱密度”——提高六倍,超越了當前最先進技術的水平。聚合物波導的可擴充套件性,使其能夠縮小至小於20微米的間距,預計將使頻寬密度提升至10 Tbps/mm以上。
圖4展示了光學測試載體的初步示意圖,包括測試載體元件的頂部檢視和側檢視,並展示了組裝整合。圖中,PIC晶片尺寸為8 x 10 mm²,基板尺寸為17 x 17 mm²,光波導長度小於12 mm。圖4還展示了基板(綠色)、PIC(灰色)、光波導(紅色)、光纖聯結器(深灰色)、PIC到PWG的絕熱耦合區(無凸點區)、翻轉晶片凸點陣列(小的銅色球體)、微型BGA陣列(大的銅色球體)以及蓋板(頂部檢視為透明形狀,截面為銅塊形狀)的堆疊檢視(左)和橫截面檢視(右)。
圖4:IBM CPO模組測試載體
(來源:IBM論文,arXiv:2412.06570)
圖5:IBM 光學測試載體1b的照片,左圖為PIC到基板的組裝頂部檢視,右圖為顯示基板的底部檢視,基板上安裝有微型BGA,PIC和蓋板附加在頂部,PWG連線在PIC上,蓋板連線在光纖聯結器上,作為模組組裝的最後步驟。(圖源:IBM)
根據Weight&Biases的報道,在使用GPU訓練時,網路經常成為瓶頸,導致三分之一的使用者平均利用率不足15%。這無疑增加了成本和能耗。對於引數超過十億的模型,在8000個H100 GPU上訓練大約需要3個月。根據估算,訓練一個GPT-4模型可能消耗50千兆瓦時的電力。此外,國際能源署(IEA)計算出,2022年資料中心消耗了460太瓦時的電力,佔全球電力需求的近2%,預計這一數字到2026年將翻倍。
而IBM的全新的CPO工藝技術有望顯著提高資料中心通訊的頻寬,減少GPU空閒時間,同時大幅加速AI處理過程。根據這一創新研究,未來CPO技術可帶來如下成果:
  • 更低的生成式AI擴充套件成本:相比中等距離電氣互連,CPO可減少超過5倍的能耗,同時將資料中心互連電纜的傳輸距離從一米延伸至數百米。
  • 更快的AI模型訓練:透過CPO,開發者能夠將大型語言模型(LLM)的訓練速度提高至常規電氣線路的五倍,預計訓練一個標準LLM的時間可從三個月縮短至三週,效能提升會隨著使用更大模型和更多GPU而進一步增強。
  • 顯著提高資料中心能效:每訓練一個AI模型,CPO技術將節省相當於5,000戶美國家庭年用電量的能量。
IBM還在努力開發下一代測試載體,採用子20 µm間距的光波導、增加的波導通道、增加的多波長(λ)相容硬體演示,並提供多個層次的光纖聯結器/聯結器組裝選項,適用於CPO模組。針對這一未來節能硬體演示的建模和模擬表明,該技術能夠支援更高的頻寬密度。藉助改進的能源效率,提升未來生成性AI應用和其他計算應用的效能已成為可能,令人激動地推動這一程序。IBM計劃在2025年初發布更多詳細的CPO資訊。
結語
過去很多人對CPO的技術和商業化存疑,但看現在大廠們的動作,CPO已成AI時代的大勢所趨。與此同時,CPO與可插拔光模組的競爭關係更可能是互補而非完全取代。CPO技術的崛起不會立即威脅到可插拔光模組的主流地位,而是會在特定高效能場景中逐步佔據一席之地。從長期來看,CPO和Optical IO都可能在推動資料中心光互聯技術的升級中發揮重要作用。
如有矽光流片需求,
歡迎掃碼,將有專人對接。
參考連結
1、IBM論文:https://doi.org/10.48550/arXiv.2412.06570
2、Monitor & Improve GPU Usage for Model Training,Weight&Biases
END
👇半導體精品公眾號推薦👇
▲點選上方名片即可關注
專注半導體領域更多原創內容
▲點選上方名片即可關注
關注全球半導體產業動向與趨勢
*免責宣告:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察轉載僅為了傳達一種不同的觀點,不代表半導體行業觀察對該觀點贊同或支援,如果有任何異議,歡迎聯絡半導體行業觀察。
今天是《半導體行業觀察》為您分享的第4006期內容,歡迎關注。
推薦閱讀
『半導體第一垂直媒體』
即時 專業 原創 深度
公眾號ID:icbank
喜歡我們的內容就點“在看”分享給小夥伴哦


相關文章