光晶片,火力全開

👆如果您希望可以時常見面,歡迎標星🌟收藏哦~
來源:本文編譯自semiengineering,謝謝。
光子學在資料中心人工智慧的加速中發揮著越來越重要的作用。
全球光學元件市場規模龐大,去年營收達170億美元。歷史上,電信行業(例如海底電纜和光纖到戶)一直是光學元件需求的主導。然而,資料通訊領域,尤其是人工智慧驅動的資料中心,如今佔據了超過60%的市場份額。這種轉變正在加速光學技術的發展。
為了跟上AI計算叢集(XPU,包括GPU和定製加速器)不斷提升的效能,光傳輸速率正在快速提升。
圖1:光學元件市場歷史及預測
據摩根大通稱,最大的光學元件供應商是相干公司和旭創科技(各佔20%的市場份額),其次是博通,佔10%。眾多規模較小的供應商也在為不斷擴大的生態系統做出貢獻。
大模型 (LLM) 推動 AI 資料中心增長
大型語言模型 (LLM) 正在推動 AI 工作負載呈指數級增長。隨著 AI 能力的提升和成本的下降,需求也隨之激增。LLM 規模的不斷擴大需要龐大的 XPU 叢集。互連需求的增長速度超過了 XPU 數量本身的增長速度,這迫切需要高頻寬、低延遲的網路解決方案。
博通執行長 Hock Tan 指出,資料中心的網路成本正在攀升,從目前資本支出的 5% 到 10% 上升到 2030 年預計的 15% 到 20%。
圖 2:AI 叢集規模呈爆炸式增長
例如,Oracle 雲基礎設施 (OCI) 正在部署透過 NVLink72 互連的 131,000 個 Nvidia Blackwell GPU 的叢集。
圖 3:Oracle 雲基礎設施超級叢集產品,助力生成式 AI
橫向擴充套件與縱向擴充套件網路
在人工智慧資料中心中,互連主要有兩種型別:
  • 橫向擴充套件:光纖鏈路連線跨機架和跨行的交換機
  • 擴大規模:電氣鏈路連線少量機架內和機架之間的 GPU
圖 4:資料中心的光學系統
雖然橫向擴充套件網路已經是光學的,但縱向擴充套件網路向光子學的轉變正在進行中,但尚未完成。
橫向擴充套件網路中的光學進步
光子技術是橫向擴充套件架構的核心。如今,可插拔光纖收發器能夠實現數十米範圍內網絡卡和交換機之間的資料傳輸。隨著資料速率的提升,這些解決方案面臨著越來越大的功耗和效能限制。
Oracle 的 131K-GPU 架構在其橫向擴充套件網路的三個層級上均使用了光纖鏈路。然而,傳統的可插拔光纖鏈路功耗巨大。
圖 5:Oracle 光纖叢集網路結構
圖6:功耗和TCO仍然是主要考慮因素
為了滿足LLM的增長和吞吐量需求,橫向擴充套件網路中的資料速率不斷提升,網路功率已超過加速器機架功率。據Nvidia稱,從可插拔光模組轉換為CPO(共封裝光模組)可以大幅降低1.6Tbps鏈路的光模組功率,從30W降至9W。
在 GTC25 上,Nvidia 推出了首款搭載 CPO 的橫向擴充套件交換機。其節能特性可實現更高的 GPU 密度——在相同的資料中心功率範圍內,GPU 數量最多可增加 3 倍。
圖 7:Spectrum-X 光子技術可節省 3.5 倍功耗
可靠性是從銅纜到光纖再到CPO的關鍵考慮因素。人工智慧資料中心的資料量巨大,而且增長速度飛快,就像iPhone一樣。從統計資料來看,良率和可靠性必須非常高。谷歌平臺光學總監表示,每天0.004%的鏈路故障率聽起來不錯,但對於100萬條鏈路來說,這意味著每天有40條鏈路故障。光學解決方案需要設計成極低的故障率,並在非常苛刻的條件下進行測試,並使用非常大的樣本量,以確保量產成功。
擴大網路中 CPO 之路
目前,縱向擴充套件互連仍以銅線為主。Nvidia 的 Blackwell 架構採用全銅解決方案 NVLink72,其廣泛的佈線貫穿了主機板、交換機和機架背板。如今訊號頻率極高,銅線束可以直接連線到 GPU,從而繞過傳統的 PCB 走線。
圖 8:Nvidia 的路線圖已延伸至 NVLink576,該線路仍使用銅纜,但不斷提升的資料速率和訊號完整性問題最終將需要採用光纖解決方案
然而,銅纜的侷限性正日益凸顯。Nvidia 的路線圖已延伸至 NVLink576,該線路仍然使用銅纜,但不斷增長的資料速率和訊號完整性問題最終將需要光纖解決方案。
微軟提出了對未來AI加速器的CPO要求,希望用一個具有可配置介面的單一物理層來取代現有的介面。
圖9:新的互連場景需要統一介面,並具有更嚴格的延遲和可靠性要求
新的統一介面需要“兼顧兩者”——合併後的規範比它們所取代的傳統介面更好。這給CPO帶來了更大的挑戰,但同時也擴大了市場。
圖10:新的統一介面需要比它所取代的傳統介面更好
Nvidia 還提出了對 CPO 與 AI 加速器整合的要求:
圖 11:Nvidia 的 CPO 要求
這些要求雖然具有挑戰性,但切實可行。Needham & Company 建議,在 Scale-Up 網路中,CPO 的初步遷移將發生在單個 GPU 域內的機架之間,而機架內連線暫時仍採用銅纜連線。
100% 的資料中心 AI 晶片均由臺積電製造。他們深度參與所有主要 AI 廠商的技術路線圖:他們只開發主要客戶所需的產品。臺積電在 4 月底的年度技術大會上展示了其 AI 晶片路線圖,其中包括共封裝光學器件:他們預見到了這一趨勢,並正在為此做好準備。
市場前景和行業參與者
預計未來幾年內,規模化網路將開始向 CPO 過渡,並在 2030 年代大規模替換可插拔式光模組。到 2030 年,CPO 市場規模將從目前的零增長到 50 億美元。博通、Marvell、Ayar Labs、Celestial AI 和 Lightmatter 等早期進入者以及 Coherent 等雷射器供應商都將從中受益。
圖12:光學元件快速發展,CPO將在2027-2030年出現
光子學不再僅僅賦能人工智慧,它正成為人工智慧規模化發展中不可或缺的一部分。到2030年代中期,所有互連都將是光學的,並且都將採用CPO。
參考連結
https://semiengineering.com/photonics-speeds-up-data-center-ai/
END
👇半導體精品公眾號推薦👇
▲點選上方名片即可關注
專注半導體領域更多原創內容
▲點選上方名片即可關注
關注全球半導體產業動向與趨勢
*免責宣告:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察轉載僅為了傳達一種不同的觀點,不代表半導體行業觀察對該觀點贊同或支援,如果有任何異議,歡迎聯絡半導體行業觀察。
今天是《半導體行業觀察》為您分享的第4023期內容,歡迎關注。
推薦閱讀
『半導體第一垂直媒體』
即時 專業 原創 深度
公眾號ID:icbank 
喜歡我們的內容就點“在看”分享給小夥伴哦


相關文章