
整理 | 華衛、核子可樂
在圖形處理器(GPU)領域,英偉達、AMD 和英特爾佔據主導地位已有一段時間了。雖然中國還有其他相關企業,但他們要打入美國市場一直以來都困難重重。
近日,一家美國 GPU 初創公司 Bolt Graphics 釋出了專為遊戲、渲染和超級計算機模擬等用例設計的 Zeus GPU 平臺。據瞭解,Bolt Graphics 沒有僅僅致力於打造低端顯示卡並寄希望於擴大規模,而是巧妙地解決了高階 GPU 計算方面的一個特定難題。該公司表示,其 Zeus GPU 不僅支援可升級記憶體與內建乙太網介面等,而且在路徑追蹤工作負載方面的效能表現比英偉達 GeFOrce RTX 5090 快 10 倍左右。根據 Bolt Graphics 的資料,280 張 RTX 5090 GPU 的算力只需 28 張 Zeus GPU 即可實現。

據瞭解,Bolt Graphics 是一家成立不到 6 年的初創公司,由印度人 Darwesh Singh 在 2020 年創立,該公司在領英的主頁上顯示共有 20 位員工。該公司在 2021 年獲得了第一輪融資,隨後很快又於 2022 年獲得了第二輪融資,專注於電影、模擬和遊戲中的硬體加速光線追蹤技術,目標是在解決模擬和 3D 圖形等繁重任務的效能問題同時降低功耗。
創立 Bolt Graphics 前,Darwesh Singh 從事了十年的資料中心和雲環境設計工作。多年來,他從事過從安裝機架到為大型企業設計先進資料中心的各種工作。2014 年,Darwesh 憑藉創新精神,在目睹了電影視覺效果的冗長渲染時間後,開發出了硬體加速光線追蹤解決方案。這一突破為他於 2020 年創立的 Bolt Graphics 公司奠定了基礎。
對於 Zeus GPU 現在所公佈的效能情況,有網友調侃道:“這家公司將在‘3、2、1’的倒計時結束後被英偉達收購。”
與當今許多處理器一樣,Zeus 同樣依賴於多晶片設計。據介紹,入門款 Zeus 1c26-032 配備單一處理單元以及 32 GB LPRDDR5X 記憶體,傳輸頻寬為 273 GB/ 秒,可使用雙 SO-DIMM(速度為 80 GB/ 秒)和最高 128 GB 的 DDR5 記憶體。Zeus GPU 還搭配有 I/O 晶片,該晶片包含一個 400 GbE/800 GbE 的 QSFP-DD 埠、兩個使用 CXL 3.0 協議的 PCIe Gen5 x16 插槽(可實現多卡間的高效記憶體共享)以及一個用於 BMC 的 GbE 埠。該 GPU 晶片以 256 GB/ 秒的速率與其 I/O 晶片連線。

Zeus 單晶片架構
更高階的 Zeus 2c26-064/128 則使用雙 Zeus 處理單元、一個 I/O 晶片,且支援 64 GB 或 128 GB 的 LPDDR5X 記憶體。最強大的旗艦版本 Zeus 4c26-256 則集成了四個處理單元、四個 I/O 晶片、256 GB LPDDR5X 以及最高 2 TB 的 DDR5 記憶體容量。四晶片版的 Zeus 不再以 GPU 卡的形式存在,而是直接作為伺服器交付。

四晶片版 Zeus 的架構
與優先考慮頻寬的高階 GPU 不同,Bolt Graphics 顯然更重視記憶體容量的絕對數值,希望藉此處理更大的渲染與模擬資料集。另值得一提的是,從該公司展示的 Zeus 效能表現表格圖中可以看到,Zeus 的 DDR5 記憶體還帶有 SO-DIMMs 字尾,這代表它是支援可插拔的。也就意味著,這塊顯示卡是可以透過插入多條 DDR5 記憶體來擴充套件視訊記憶體。

此外,內建的 400 GbE 及 800 GbE 埠可實現聯網 GPU 之間的更快資料傳輸,這表明 Zeus 顯然是以資料中心作為主要應用場景。

Zeus 高效能計算模擬用例
據該公司介紹,高質量渲染、即時路徑追蹤與計算是 Zeus 關注的重點領域,因此即使是入門級 Zeus 1c26-32,也能提供比英偉達 GeForce RTX 5090 更高的 FP64 計算效能(高達 5 TFLOPS,遠高於後者的 1.6 TFLOPS),路徑追蹤效能也高得多(77 Gigarays,遠高於後者的 32 Gigarays)。
Zeus 還擁有比英偉達這款旗艦級產品更大的片上快取(高達 128 MB,後者為 96 MB),且執行功耗更低(120W,後者高達 575W),約是 RTX 5090 的 21%,這使其在模擬、路徑追蹤和離線渲染等領域更高效。
此前,RTX 5090 曾因高功耗而受到爭議,其相比 RTX 4090 效能提升有限,但功耗卻多出 125W,對電源的要求較高。原本許多使用者都希望,英偉達 RTX 50 系列能更注重效率而不是繼續提高功耗,特別是考慮到 RTX 4090 相比 350W 的 RTX 3090 已經是一次大幅躍升。
不過,四晶片版的 Zeus 雖然功耗低於 RTX 5090,但價格可能更貴——從資料來看,除了 FP32 和 FP16 運算之外,四晶片版的 Zeus 在所有工作負載方面都能勝過英偉達的這款旗艦級遊戲顯示卡,這凸顯出 Zeus 或並不打算以傳統遊戲畫面渲染為主要賣點。RTX 5090 推出時就因高昂價格引發討論,1999 美元(合人民幣約 14647 元)的 GPU 定價對普通玩家來說不是一筆不小的數目。
該公司表示,四晶片版本針對電磁場建模、光子學研究和快速傅立葉變換(FFT)計算進行了最佳化。憑藉更大的記憶體池加上對於外部儲存的較低依賴,Zeus 有望提高大規模模擬的執行速度。當然,前提是它的這套混合記憶體子系統在所有工作負載上都能高效執行。

Zeus 電磁波模擬輸出用例
RTX 5090 在 AI 工作負載中似乎仍然佔據主導地位,其 FP16 算力達到 105 TFLOPS、INT8 算力達到 1637 TFLOPS,而單晶片 Zeus 的這兩項指標分別只有 10 FP16 TFLOPS 與 614 INT8 TFLOPS。如果 Zeus 可以進行傳統渲染,那麼 1c26-32 也只擁有 10 FP32 TFLOPS 效能,似乎遠無法與 RTX 5090 的 105 TFOPS 相抗衡。
但 Bolt Graphics 還推出了 Glowstick 路徑追蹤渲染引擎功能,這可能是種很有前途的內部即時渲染解決方案。傳統的渲染工作流程往往需要較長的處理時間才能實現結果視覺化,而 Zeus 則大大減少了這種延遲,因此更適用於專業的視覺化應用場景。與現有解決方案相比,Bolt Graphics 聲稱其在單晶片版本上的效能提高了 2.5 倍,且使用多張 GPU 時效能還會更高。
傳統圖形處理方面,但目前還不清楚 Zeus 究竟會提供怎樣的效能。與現代消費級顯示卡相比,Zeus 公佈的矩陣吞吐量確實看似平平無奇,更不用說與資料中心級別的顯示卡相比了。單塊功率限制為 700W 的英偉達圖形處理器 Blackwell B200,可提供 60 TFLOPS 的著色器 FP32 運算能力、30 TFLOPS 的 FP64 密集矩陣運算能力和 1.8 PetaFLOS 的稀疏 TF32 運算能力。
Zeus 的出現似乎代表著一種突破,但目前 Zeus 仍在純模擬環境下執行,因此以上所有效能宣告均未透過實際硬體驗證。Bolt Graphics 方面表示,其首批開發套件將於 2025 年底上市,全面投產則要等到 2026 年底,期間軟體開發者將可充分試用這款硬體。如果 Zeus 真能兌現承諾,則很有可能成為科學計算、路徑追蹤與離線渲染等應用場景下的重要替代方案。
需要注意的是,由於 Zeus 針對的是路徑追蹤渲染技術以及計算工作負載,因此它被猜測可能沒有傳統的固定功能 GPU 硬體,如紋理單元(TMU)及光柵操作單元(ROP)。儘管如此,每張 Zeus GPU 都配備一個 DisplayPort 2.1a 和一個 HDMi 2.1b 輸出埠。但該公司則專門解釋稱,Zeus 配備了 TMU 和 ROP 引擎,且最佳化工作仍在持續進行,目前尚未披露任何規格。
在 GPU 中,ROP 負責將 3D 圖形資料轉換為 2D 畫素表示,是圖形渲染過程中的重要一步,對最終輸出階段起著關鍵作用。據英偉達介紹,RTX 5090 配備了 176 個 ROP 單元。但前不久被曝,有部分使用者到手的 RTX 5090 存在 ROP 數量不足的缺陷。要知道,ROP 的缺失將帶來許多明顯的遊戲體驗影響,包括遊戲幀率下降、延遲增加、抗鋸齒效能降低等。英偉達當時對此的解釋是生產問題,並表示故障卡的數量佔比不到 0.5%。
此外, 軟體支援無疑將成為決定 Zeus GPU 成功與否的關鍵因素,畢竟單憑硬體功能其並不足以與 AMD 和英偉達等老牌廠商展開競爭。 與英偉達的 CUDA 和 AMD 的 ROCm 不同,Bolt Graphics 的 Zeus 缺乏成熟且得到廣泛採用的軟體生態系統。
根據已釋出的簡報,與依賴專有指令集的 AMD、英特爾和英偉達 GPU 不同,Bolt Graphics 的 Zeus 依賴於開源的 RISC-V ISA,其採用了一種開源無序通用 RVA32 標量核心,同時與 FP64 算術邏輯單元(ALU)及 RVV 1.0(RISC-V 擴充套件版 1.0)配合使用,能夠處理 8 位、16 位、32 位乃至 64 位的資料型別,還配備了針對加速科學工作負載所設計的其他專有擴充套件功能。基於 RISC_V 架構,Zeus 可以使用現有的開源工具和庫,但若無強大的開發者支援,其採用可能會受到限制。
然而,目前還不清楚 Zeus 是否支援行業標準框架,如 OpenCL、Vulkan 和 CUDA 轉換層——這些框架對於 GPU 產品在高效能計算(HPC)工作負載領域的推廣至關重要。如果 Bolt Graphics 能夠提供強大的開發者工具、優秀的編譯器支援以及同 Linux HPC 環境的相容性,Zeus 確實有望成為科學計算與渲染領域的一位強大參與者。但無論如何,與英偉達成熟生態系統的“艱苦”競爭仍然不可避免。
驅動程式也將是另一大潛在影響因素——即便是像英特爾這樣的科技大廠,往往也需要很長時間才能解決驅動程式帶來的問題。
簡而言之,關於 Zeus GPU 家族還有太多的未解之謎和需面臨的挑戰。Zeus 目前才剛剛完成模擬執行測試,實體硬體計劃於今年晚些時候推出。它會如何處理傳統渲染、路徑追蹤以及 AI?我們還須拭目以待。
參考連結:
https://www.tomshardware.com/pc-components/gpus/startup-claims-its-zeus-gpu-is-10x-faster-than-nvidias-rtx-5090-bolts-first-gpu-coming-in-2026
https://www.servethehome.com/bolt-graphics-zeus-the-new-gpu-architecture-with-up-to-2-25tb-of-memory-and-800gbe/
今日好文推薦
