PCIE,博通的新晶片路線圖

👆如果您希望可以時常見面,歡迎標星🌟收藏哦~
來源:內容編譯自nextplatform,謝謝。
PCI-Express 頻寬每隔三年增加一次,從首次談論換擋到其晶片首次投入使用也間隔了三年,因此很難不焦急地等待下一個 PCI-Express 版本投入使用。
因此,人們都在等待伺服器和交換機上的 PCI-Express 6.0 埠以及用於擴充套件和互連埠的重定時器,因此很多人都在為此而努力。但是,據博通稱,其母公司 Avago Technologies於 2014 年 6 月以 3.09 億美元收購了 PCI-Express 交換機制造商 PLX Technology ,從而進入了 PCI-Express 交換機市場。
那次收購發生之前(2015 年 5 月 Avago 以 670 億美元收購博通並更名之前),部分原因是系統架構師試圖將大量 GPU、其他型別的加速器、快閃記憶體和網路介面塞進埠太少的伺服器中。因此需要某種交換機。此外,公司還在尋找一種在機架規模上聚合計算的方法,該方法比使用 InfiniBand 和乙太網具有更低的延遲和更低的成本。PCI -Express 交換機符合這兩種要求。
快進十年,在伺服器內部和機架頂部擁有大量 PCI-Express 交換機已經完全正常,儘管 Nvidia 利用其專有的 NVSwitch 架構做得更好,該架構擁有更大的頻寬來將 GPU 和現在的 CPU 耦合在一起,並在節點內部甚至跨節點共享記憶體。
全世界都希望有一種開放且價格合理的 NVSwitch 替代方案,用於將元件粘合在一起以建立伺服器節點或機架式系統,而 PCI-Express 交換是其中的核心。PCI-Express 6.0 是一個特別棘手的速度飛躍,因為很多東西都在同時發生變化,因為如果要將頻寬加倍,並且延遲要或多或少地保持不變,那麼它們就必須這樣做,因為隨著訊號速率的提高,糾錯需求會變得更加複雜。
正如我們之前討論過的那樣,PCI-Express 6.0 轉向 PAM-4 編碼(乙太網和 InfiniBand 已經採用了這種編碼),與早於 PAM-4 且每個訊號只有一位的不歸零 (NRZ) 編碼相比,這種編碼每個訊號可獲得兩位,從而有效地將資料速率提高了一倍。但 PAM-4 的訊號更髒,在相同時鐘速度下,其誤位元速率比 PCI-Express 5.0 及其 NRZ 編碼高出三個數量級。高錯誤率需要前向糾錯 (FEC),這會增加延遲。哎呀。因此,由英特爾、博通和其他公司牽頭的 PCI-SIG 使用了流控制單元 (FLIT) 和迴圈冗餘校驗 (CRC) 錯誤檢測的混合體,這隻會增加小資料包大小的延遲,而實際上將大資料包大小的延遲減少了一半。本壘打!
遺憾的是,伺服器平臺、乙太網和 InfiniBand 互連每兩年更新一次,而 PCI-Express 埠、重定時器和交換機需要三年才能投入使用——多年來,我們一直對此感到遺憾,認為這是阻抗不匹配。但事實就是如此。
博通一直遵循 PCI-SIG 設定的節奏,推出了多代“Atlas”PCI-Express 交換機和“Vantage”重定時器。重定時器變得越來越重要,因為每次將銅線上的頻寬提高兩倍時,銅線上的噪聲就會變得非常嚴重,以至於你只能透過將銅線長度減半來減輕噪聲。因此,你需要一個重定時器來增強訊號,將其推到以前在較低頻寬下幾乎可以免費獲得的距離。
以下是去年 PCI-Express 交換機和重定時器的路線圖:
以下是本週釋出的版本:
Vantage 5 重定時器支援 PCI-Express 5.0 32 Gb/秒 NRZ 和 PCI-Express 6.0 PAM-4 編碼,這是透過 Broadcom 建立的“Talon 5”SerDes 實現的。我們強烈懷疑 Talon 5 SerDes 也用於 Atlas 3 PCI-Express 交換機並提供 PAM-4 支援。
對於那些希望構建更開放、更便宜的 AI 和 HPC 系統的人來說,你可以想象 PCI-Express 6.0 的到來速度是遠遠不夠的。好訊息是,它正在按計劃進行,Broadcom 資料中心解決方案集團 PCI-Express 交換產品線經理 Sreeni Bagalkote 告訴The Next Platform。本週,Broad 推出了其 PCI-Express 6.0 Interop 開發平臺,其中包括“Atlas 3”PEX90144 交換機和配套的“Vantage 5”BCM85668A1 重定時器,
Bagalkote 表示:“PCI-Express Gen 6 可能是 PCI-Express 領域最重要的一步。我們不僅宣佈了交換機和重定時器產品組合,還為生態系統中的合作伙伴提供了互操作開發平臺。Gen 6.0 將是一個艱難的過渡,因為很多事情都在發生變化。這種轉變將首先發生在測試人員中。有些人已經開始使用我們的 Atlas 3 交換機構建他們的測試裝置。然後,您將看到公司進入製造測試階段,到第三季度末或第四季度初,您將開始看到使用 Gen 6 裝置的系統製造。真正的 Gen 6 AI 伺服器將在明年某個時候開始增加。”
在 PCI-Express 3.0 時代以及 PCI-Express 4.0 過渡的早期階段,推動 PCI-Express 交換機和重定時器採用率的是英特爾,其次是 IBM 和 AMD(程度較小)。到了 PCI-Express 5.0 代,對更高頻寬 PCI-Express 交換機和重定時器的需求,以及在 AI 伺服器中塞入更多加速器、快閃記憶體和網路介面的需求推動了時序。Bagalkote 說,隨著 PCI-Express 6.0 代的出現,AI 伺服器成為各公司如此努力實現效能更上一層樓的主要原因。一臺典型的配備八個 GPU 的 AI 伺服器有四個 PCI-Express 交換機,而對於 Broadcom Atlas 2 和 3 裝置,每個交換機有 144 個通道,實現為 72 個埠。Bagalkote 稱,這比其他 PCI-Express 6.0 交換機多 2.25 倍的通道數;我們不確定這些資料來自哪裡。(我們還沒有看到 Microchip 釋出 PCI-Express 6.0 的訊息,但應該很快就會發布。)
我們確實知道,現代人工智慧伺服器需要更多更快的通道,不僅用於連線,還用於遙測和排除這些複雜系統的故障。
“與傳統 PCIe 不同,在傳統 PCIe 中,所有流量都透過 CPU 流動,而在 AI 伺服器中,沒有中央 CPU 編排,因為 AI 加速器使用 GPUDirect 相互通訊,並使用 GPUDirect 與儲存通訊。加速器和網路介面使用點對點通訊。因此,這些裝置之間有很多互動,而且複雜性很高。因此,我們不僅需要非常強大的 PCI-Express 交換機,而且我們還發現,我們在不知不覺中幾乎是偶然地成為了世界上大多數 AI 伺服器的遙測和診斷中心。我們一直擁有大量的除錯能力,但我們意識到這還不夠。我們需要在機架級別啟用 AI 生態系統才能進行除錯,因此我們將所有底層功能連貫地拼接起來,並開始將其展示給伺服器供應商以及 AI 部署者,即超大規模者。”
互操作開發平臺旨在將合作伙伴和客戶聚集在一起,構建一套連貫的遙測系統並使其正常運轉。
該互操作工具包括來自 Broadcom 的 ASIC、來自 Teledyne 的 LeCroy 訓練器和分析儀以及來自 Micron Technology 的快閃記憶體驅動器介面。
這一切都很好,我們很高興 PCI-Express 正在不斷發展。但我們有一個想法。是的,PCI-Express 交換機非常適合將快閃記憶體和 NIC 繫結到 AI 伺服器或任何型別的 HPC 伺服器或資料分析伺服器中的加速器和 CPU。
但也許我們需要的是看起來和聞起來更像 NVLink 埠和 NVSwitches 的東西?像 Nvidia 使用 NVSwitch 那樣聚合 PCI-Express 埠怎麼樣?您需要在計算引擎上建立一個匹配的 NVLink 模擬,以便它們可以相互連結或連結到主機 CPU。比 PCI-Express x16 通道聚合大得多的東西。
Nvidia 在 NVLink 和 NVSwitch 上可能並沒有發揮出應有的魔力。我們在 2024 年 3 月詳細介紹過的NVSwitch 4 ASIC在總共 288 條以 200 Gb/秒速度執行的通道上擁有 57.6 Tb/秒的總頻寬。Nvidia 需要 72 條通道來構成一個 NVLink 5 埠,因此每個 NVSwitch 4 只有四個埠。該 NVLink 5 埠提供 1.8 TB/秒的頻寬,這看起來很瘋狂,但對於 AI 工作負載來說,有時這是必要的。
PCI-Express 通道在 PCI-Express 6.0 下以 64 Gb/秒的速度執行,並且透過 x16 通道聚合,可為您提供 256 GB/秒的頻寬(雙工)。如果您建立了某種意義上的 x64 埠,那麼您將擁有 1 TB/秒的頻寬,並且您將有 16 個 PCI-Express 6.0 通道剩餘,可用於 144 通道交換機中的其他用途。您可以將其稱為 PCI-Link 1.0,然後著手為 PCI-Express 6.0 交換機提供比目前更多的頻寬。在 CPU 和 GPU 上新增一些 CXL 記憶體定址,您也可以在其上執行一致性記憶體。

參考連結

https://www.nextplatform.com/2025/02/26/broadcom-itching-to-get-pci-express-6-0-into-the-field/
END
👇半導體精品公眾號推薦👇
▲點選上方名片即可關注
專注半導體領域更多原創內容
▲點選上方名片即可關注
關注全球半導體產業動向與趨勢
*免責宣告:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察轉載僅為了傳達一種不同的觀點,不代表半導體行業觀察對該觀點贊同或支援,如果有任何異議,歡迎聯絡半導體行業觀察。
今天是《半導體行業觀察》為您分享的第4049期內容,歡迎關注。
推薦閱讀
『半導體第一垂直媒體』
即時 專業 原創 深度
公眾號ID:icbank
喜歡我們的內容就點“在看”分享給小夥伴哦


相關文章