
👆如果您希望可以時常見面,歡迎標星🌟收藏哦~
來源:內容編譯自wccftech,謝謝。
AMD 終於公佈了其下一代 RDNA 4 GPU 架構的完整架構細節,該架構是專為 Radeon RX 9000 系列構建的。
自上一代RDNA 3 及其升級版 RDNA 3.5推出以來,AMD 的 RDNA 4 架構一直備受期待。雖然 RDNA 4 架構不會有任何超級發燒友 SKU,但它確實帶來了全新的變化,應該會提升遊戲效能,因為它主要為遊戲玩家設計。

因此,AMD 對 RDNA 4 帶來了以下新變化:
-
針對高階遊戲工作負載進行了高度最佳化
-
提高光柵化和計算效率
-
光線追蹤效能的重大改進
-
全面的高效能 ML 支援
-
增強所有工作負載的頻寬效率
-
為遊戲玩家和創作者提供多媒體改進

與 RDNA 2 相比,RDNA 4 GPU 的光柵化效能提升了近 2 倍,光線追蹤效能提升了近 2.5 倍,每個計算單元的 ML(FP16 密集矩陣)工作負載提升了 3.5 倍。接下來,我們將深入研究 RDNA 4 架構框圖的構建塊,看看整個晶片是如何組合在一起的。
RDNA 4 的新核心 IP
RDNA 4 GPU 架構的核心構建塊是計算引擎。

新的計算單元配備雙 SIMD32 向量單元和增強矩陣運算,其中包括:
-
2x-16b 和 4x-8b/4b 密集矩陣速率
-
4:2 結構化稀疏性,實現 +2 倍速率
-
新的 8b 浮點資料型別
-
帶轉置的矩陣負載
RDNA 4 還帶來了新的著色改進,RDNA 4 著色可以動態分配暫存器。它們可以在需要時從池中請求暫存器。它們可以在完成這項工作後將暫存器釋放回池中,並且軟體會在分配等待時間時管理條件。這可以更好地處理記憶體延遲,同時共享核心的整體效率可以顯著提高。

在標量單元方面,您可以獲得新的 Float32 操作,同時排程更新包括拆分和命名屏障、加速溢位/填充操作和改進的指令預取。

然後我們有第三代光線追蹤單元,提供雙倍的光線交叉率、改進的 BVH 壓縮、加速的光線遍歷和著色以及定向邊界框。這些新的光線追蹤核心提供了晶片上最大的效能提升之一。每個光線加速器也得到了改進:
-
2x 盒子和三角形交叉單元
-
硬體例項轉換
-
改進 RT 堆疊管理
-
BVH8 和改進的節點壓縮
-
定向邊界框
這些新的光線追蹤升級還大大降低了 BVH 的記憶體要求。平均而言,得益於 8 寬設計,RDNA 4 可將記憶體要求降低至 RDNA 3 的 60% 以下。
但這並不是全部。AMD 還實施了一種新的解決方案,透過對每個框進行旋轉編碼來更緊密地繫結所包含的幾何圖形,從而降低遍歷成本,同時將框與幾何圖形對齊可以幫助消除大部分空間,並且射線方向在進入框時會進行轉換以匹配編碼的旋轉。這可以減少遍歷步驟,透過消除遍歷熱點來降低峰值成本,並將遍歷效能提高 10%。
這些變化的結果是,與 RDNA 3 相比,RDNA 4 CU 在相同的時鐘速率和頻寬下提供了 2 倍的光線遍歷效能。
還有一個改進的命令處理器,它具有增強的資料包加速器。快取也得到了升級,現在更加平衡,具有高達 64 MB 的第三代 Infinity Cache、8 MB 的 L2 快取和 2MB 的聚合 CU 快取。在記憶體方面,RDNA 4 GPU 架構保留了對 GDDR6 的支援,但已升級到更快的速度,最高可達 20.00 Gbps,容量高達 16 GB,並配有 256 位匯流排介面。RDNA 4 還採用了增強的記憶體壓縮技術來減輕可用頻寬的壓力。

對於 AI,AMD 正在利用其第三代矩陣加速引擎,該引擎具有改進的張量密集率、新的 8b 浮點資料型別、結構化稀疏性支援和基於 ML 的升級或超解析度。
與 RDNA 3 相比,RDNA 4 CU 在 FP16 的標準場景中將影像生成效能提高了 2 倍(SDXL 1.5)。
媒體引擎採用雙寬度設計,配備更新的編碼/解碼引擎,AVC、H.264、H.265 質量提升高達 25%,AV1 吞吐量翻倍,並針對低延遲流媒體進行了最佳化。最後,還有更新的 Radiance 顯示引擎,它現在支援 DisplayPort 2.1a、HDMI 2.1b 輸出和更新的縮放和銳化引擎。
RDNA 4 框圖(頂部 Navi 48 晶片)
接下來,我們轉到代表完整 Navi 48 GPU SKU 的 RDNA 4 框圖。RDNA 4 GPU 採用臺積電 4nm 工藝節點製造,具有多達 539 億個電晶體,SKU 尺寸為 356.5mm²。該晶片還完全符合 PCIe Gen5 標準。
現在是時候拆開 RDNA 4 晶片了。Navi 48 GPU(Radeon RX 9070 XT)由四個著色器引擎組成,每個引擎都包含多個“雙計算單元”,而不是 WGP。每個雙計算單元都有兩個計算單元,每個著色器引擎總共有 8 個 DCU 或 16 個 CU。晶片本身總共有 32 個 DCU 或 64 個 CU,總共有 4096 個流處理器或著色器單元。

每個 DCU 都有兩個光線加速器引擎,每個著色器引擎總共有 16 個 RA,總共有 64 個 RA,而每個 DCU 還包含 4 個矩陣加速引擎,每個著色器引擎總共有 32 個 MA,總共有 128 個 MA。每個著色器引擎還包含四個 RB+ 塊、一個光柵化器引擎和一個 Prim Unit 塊。晶片外圍有四個第三代無限快取部分和四個 4×16 位記憶體控制器。
L2 快取位於 GPU 的正中間,其中還包括兩個 Geometry 處理器、兩個 ACE 單元以及 HWS 和 DMA 各一個。該晶片使用 Infinity Fabric 連線。
AMD 的未來之路
在 PC 遊戲領域,光線追蹤通常被視為過時的術語。當然,它是一種追蹤光線的形式,可以使場景看起來更逼真,並且剛剛開始在遊戲機領域獲得關注,但競爭對手經常使用另一種型別的光線追蹤器,稱為路徑追蹤。雖然光線追蹤使用單個主光線在光源上投射反射、陰影和折射,但路徑追蹤使用所有可能的光線路徑,並且是一種更昂貴的技術。

NVIDIA 的路徑追蹤技術在《賽博朋克 2077》或《心靈殺手 II》等遊戲中可見一斑,這些遊戲被視為對圖形要求最高的遊戲之一,而且畫面效果也絕對令人驚歎。透過升級和幀生成等新技術,路徑追蹤得以實現,但 Green 團隊還投資了一項名為“光線重建”的全新技術,該技術透過移除引擎內的降噪器並使用 AI/ML 幫助重新評估和重建影像,幫助更有效地實現路徑追蹤。
看起來 AMD 也採用了這種方法,並採用自己的神經超級取樣和去噪技術來實現 RDNA 4 的路徑追蹤功能。
升級的媒體和顯示功能
如果不談論媒體和顯示引擎,我們就不能結束這次深入探討。因此,首先,我們首先介紹新的媒體引擎,它透過以下方式提供增強的遊戲流媒體和錄製功能:
-
H.264 低延遲編碼質量提升 25%
-
HEVC 編碼質量提升 11%
-
B 幀提高了 AV1 編碼效率
-
720p 編碼效能提升高達 30%
-
針對 FFMPEG、OBS 和 Handbrake 進行了最佳化
-
VCN 低功耗影片播放(AV1 和 VP9 效能提升 50%)

顯示體驗也得到了改善,增強的 FreeSync 電源最佳化模式可在大多數雙顯示器配置中提供更低的空閒功率,硬體翻轉佇列支援可將影片幀排程解除安裝到 GPU 並節省 CPU 功率以進行影片播放,而 Radeon 影像銳化 2 可提供高質量的影像和場景,並透過單個切換在所有 API 上工作。

參考連結
https://wccftech.com/amd-rdna-4-architecture-deep-dive-new-compute-units-raytracing-cores-ai-enhancements-path-tracing/
END
👇半導體精品公眾號推薦👇
▲點選上方名片即可關注
專注半導體領域更多原創內容
▲點選上方名片即可關注
關注全球半導體產業動向與趨勢
*免責宣告:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察轉載僅為了傳達一種不同的觀點,不代表半導體行業觀察對該觀點贊同或支援,如果有任何異議,歡迎聯絡半導體行業觀察。

今天是《半導體行業觀察》為您分享的第4050期內容,歡迎關注。
推薦閱讀



『半導體第一垂直媒體』
即時 專業 原創 深度
公眾號ID:icbank
喜歡我們的內容就點“在看”分享給小夥伴哦

