公眾號記得加星標⭐️,第一時間看推送不會錯過。

來源:內容來自theregister。
在人工智慧基礎設施的討論中,GPU(圖形處理器) 往往是焦點。不過,儘管 GPU 是這一領域的關鍵組成部分,但真正讓我們能夠大規模訓練和執行數萬億引數模型的,是互連架構。
這些互連架構涵蓋多個層面,無論是封裝內部的裸片間通訊、系統內晶片間的連線,還是能支援數十萬加速器協同工作的系統間網路,都屬於其範疇。
研發和整合這些互連架構絕非易事。可以說,這正是英偉達(Nvidia)如今能成為行業巨頭的重要原因之一。然而,過去幾年裡,博通(Broadcom)一直在默默研發各類技術,其覆蓋範圍極廣,從面向大規模擴充套件的乙太網架構,到晶片封裝內部的互連技術,無一不包。
與英偉達不同的是,博通專注於商用晶片領域。它會向任何企業出售晶片及智慧財產權,而且在很多情況下,你可能根本意識不到博通在其中發揮了作用。事實上,目前已有充分證據表明,谷歌的 TPU(張量處理器)大量採用了博通的智慧財產權。另有傳聞稱,蘋果也在使用博通的設計方案研發用於人工智慧的伺服器晶片。
這種模式對超大規模資料中心運營商來說尤其具有吸引力,因為這意味著它們可以將精力集中在開發差異化的邏輯部分,而不必在如何將所有元件整合起來這類基礎問題上重複勞動。
源於交換技術
提到博通,你首先想到的可能是它收購 VMware 引發的鉅額定價爭議。如果不是這樣,那你或許會將它與乙太網交換技術聯絡在一起。
雖然 Meta、xAI、甲骨文等公司部署的 GPU 數量之多常常登上新聞頭條,但你可能想不到,要將這些 GPU 連線起來需要多少交換機。一個包含 12.8 萬個加速器的叢集,僅計算架構就可能需要 5000 臺甚至更多的交換機,而用於儲存、管理或 API 訪問的交換機數量則可能更多。
為滿足這一需求,博通一直在推出高基數交換機。2022 年,它率先推出了 51.2Tbps 的 Tomahawk 5 晶片;最近,又釋出了 102.4Tbps 的 Tomahawk 6(TH6),該晶片可配備 1024 個 100Gbps 的串並轉換器(SerDes)或 512 個 200Gbps 的串並轉換器,使用者可按需選擇。
交換機的埠越多,基數就越高,在連線相同數量的終端時所需的交換機數量就越少。據我們計算,用 200Gbps 的速率連線前文例子中相同數量的 GPU,僅需要 750 臺 TH6 交換機。
當然,由於採用的是乙太網技術,客戶並不受限於單一供應商。今年早些時候的 GTC 大會上,英偉達就宣佈推出了自己的 102.4Tbps 乙太網交換機。我們預計,Marvell和思科(Cisco)也將很快推出效能相當的交換機。
面向擴充套件的乙太網
乙太網最常見的應用場景是構成現代資料中心骨幹的大規模擴充套件架構。但博通也將 Tomahawk 6 等交換機定位為實現機架級架構的捷徑。
如果你對此不太瞭解,簡單來說,這種面向擴充套件的架構能提供高速的晶片間連線,可支援 8 至 72 個 GPU,預計到 2027 年,支援 576 個 GPU 的設計也將問世。雖然透過簡單的晶片間網狀結構就能實現最多 8 個加速器的小型連線,但像英偉達的 NVL72 或 AMD 的 Helios 參考設計那樣的大型配置,則需要交換機的支援。
英偉達已經推出了 NVLink 交換機,而且行業內多數企業也認可了作為開放替代方案的 Ultra Accelerator Link(UALink),但該規範目前仍處於初級階段。其首個版本於今年 4 月才釋出,專用的 UALink 交換硬體尚未面市。
博通是該技術的早期支持者,但在過去幾個月裡,它的名字從 UALink 聯盟網站上消失了,轉而開始推廣自己的面向擴充套件的乙太網(SUE)棧 —— 該棧旨在與現有交換機配合使用。
對於這類面向擴充套件的網路,像 UALink 這樣精簡的專用協議固然有其優勢,但乙太網不僅能完成任務,而且目前已經可以投入使用。
事實上,英特爾已經在其 Gaudi 系統中,將乙太網同時用於面向擴充套件和大規模擴充套件的網路。而 AMD 則計劃從明年開始,在其第一代機架級系統中透過乙太網來傳輸 UALink 協議。
為更大、更高效的網路鋪路
除了傳統的乙太網交換技術,博通還一直在投資共封裝光學器件(CPO)—— 早在 2021 年推出 Humboldt 時就已涉足這一領域。
簡而言之,CPO 技術是將通常存在於可插拔收發器中的雷射器、數字訊號處理器和重定時器整合到與交換機 ASIC(專用積體電路)相同的封裝內。
儘管網路裝置供應商在很長一段時間內都不願採用 CPO 技術,但該技術確實有諸多優勢。尤其是減少了可插拔器件的使用,從而顯著降低了功耗。
據博通稱,其 CPO 技術的效率是可插拔器件的 3.5 倍以上。
在今年的臺北國際電腦展(Computex)上,這家晶片商預告了第三代 CPO 技術。我們瞭解到,該技術將與 Tomahawk 6 交換機 ASIC 搭配使用,能在交換機正面提供多達 512 個 200Gbps 的光纖埠。到 2028 年,這家網路裝置供應商預計將推出支援 400Gbps 通道的 CPO 技術。
並非只有博通在採用 CPO 技術。今年春季的 GTC 大會上,英偉達就展示了其 Spectrum 乙太網交換機和 Quantum InfiniBand 交換機的光子版本。
不過,英偉達雖然在大規模擴充套件網路中採用了光子技術,但目前在 NVLink 面向擴充套件網路中仍使用銅纜。
銅纜的功耗較低,但傳輸距離有限。在現代面向擴充套件的互連架構所執行的速度下,銅纜最多隻能傳輸幾米,而且通常需要額外的重定時器,這會增加延遲和功耗。
但如果想將面向擴充套件的網路從一個機架擴充套件到多個機架,就需要用到光學器件了。正因如此,博通也在研究如何將光學器件直接整合到加速器上。
去年夏天的 Hot Chips 大會上,這家科技巨頭展示了一款 6.4Tb/s 的光學乙太網小晶片,它可以與 GPU 共封裝。這意味著每個加速器能實現 1.6TB/s 的雙向頻寬。
博通當時估計,這種級別的連線能力可支援 512 個 GPU—— 所有這些 GPU 透過 64 個 51.2Tbps 的交換機,就能構成一個單一的面向擴充套件系統。如果搭配 Tomahawk 6,要麼可以將交換機數量減半,要麼可以在加速器上再增加一個 CPO 小晶片,將頻寬提升至 3.2TB/s。
除了邏輯部分,一應俱全
說到小晶片,博通的智慧財產權體系還涵蓋了晶片間通訊和封裝技術。
隨著摩爾定律逐漸放緩,在一個晶圓級裸片上能整合的計算能力已達到極限。這促使行業內許多企業轉向多裸片架構。例如,英偉達的 Blackwell 加速器實際上是透過高速晶片間互連技術將兩個 GPU 裸片融合在一起。
AMD 的 MI300 系列則更進一步,採用了臺積電的 CoWoS(晶圓上晶片上基板)3D 封裝技術,形成了一個 “矽三明治” 結構 ——8 個 GPU 裸片堆疊在 4 個 I/O 裸片之上。
多裸片架構可以使用更小的裸片,從而提高良率。此外,計算裸片和 I/O 裸片可以採用不同的製程節點,以最佳化成本和效率。例如,AMD 為 GPU 裸片採用了臺積電的 5nm 工藝,而為 I/O 裸片採用了該晶圓廠較舊的 6nm 工藝。
設計這樣的小晶片架構並非易事。為此,博通開發了 3.5D eXtreme Dimension System in Package(3.5D XDSiP)技術,本質上是一套構建多裸片處理器的藍圖。
博通最初的設計與 AMD 的 MI300X 頗為相似,但該技術向所有企業開放授權。
儘管存在相似之處,但博通在計算裸片與系統其他邏輯部分的介面設計上有所不同。我們得知,像 MI300X 所採用的早期 3.5D 封裝技術使用的是面對面介面,這需要更多工作來佈置用於在兩者之間傳輸資料和電力的矽通孔(TSV)。
博通的 XDSiP 設計則優化了面對面通訊,採用了一種名為混合銅鍵合(HCB)的技術。這使得小晶片之間能實現更密集的電氣介面,據說能顯著提高裸片間的互連速度,並縮簡訊號路由距離。
基於這些設計的首批產品預計將於 2026 年投入生產。但由於晶片設計商通常不會披露哪些智慧財產權是自主研發的、哪些是授權使用的,我們可能永遠也不會知道哪些人工智慧晶片或系統採用了博通的技術。
參考連結
https://www.theregister.com/2025/06/27/broadcom_ai_ip/
*免責宣告:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察轉載僅為了傳達一種不同的觀點,不代表半導體行業觀察對該觀點贊同或支援,如果有任何異議,歡迎聯絡半導體行業觀察。
END
今天是《半導體行業觀察》為您分享的第4078期內容,歡迎關注。
推薦閱讀

加星標⭐️第一時間看推送,小號防走丟

求點贊

求分享

求推薦
