GPU,走上了“邪路”?

👆如果您希望可以時常見面,歡迎標星🌟收藏哦~
來源:內容編譯自nextplatform,謝謝。
如果你想要一個具有 GPU 浮點效能的 CPU,你只需等待六年左右,CPU 路線圖就會趕上。這似乎是一個漫長的等待,這就是為什麼這麼多 HPC 中心從十五年前開始從 CPU 轉向 GPU,為 GPU 計算引擎上 AI 的大規模擴充套件奠定了基礎——儘管是無意的。
在許多方面,X86 CPU 變成了具有一些並行趨勢的通用序列計算引擎,具有整數和向量數學功能的健康組合,現在,至少在某些英特爾和 AMD CPU 中,還具有用於加密和雜湊等特定功能的加速器以及矩陣數學引擎,至少在過去三代 Xeon 處理器中是如此(我們現在稱之為“Sapphire Rapids”Xeon 4、“Emarald Rapids”Xeon 5 和“Granite Rapids”Xeon 6)。預計 AMD 會在某個時候將矩陣引擎新增到 Epyc 處理器中,但迄今為止一直拒絕這樣做。Arm CPU 設計師最終可能會效仿。
在某種程度上,GPU 是一種大規模並行通用浮點引擎,偶爾也會出現整數傾向,它已成為 AI 訓練和某些 HPC 工作負載的首選引擎。這在很大程度上歸功於其高頻寬和不斷降低的浮點精度,這使得越來越低解析度的資料可用於 AI 訓練所依賴的統計算法,從而提高其有效效能。
一切都很好,但正如我們過去指出的那樣,我們希望許多型別的計算具有更高的精度,而不是更低的精度,以提高我們從模擬和模型中獲得的答案的保真度。雖然人工智慧允許我們眯起眼睛,仍然可以透過睫毛看到一些東西並將其識別為“貓”,但許多應用程式確實需要雙精度 FP64 處理。如果它是免費的,我們可能會談論 128 位或 256 位的 FP128 或 FP256 處理。(聽起來很瘋狂,對吧?)
我們長期以來一直認為,GPU 加速器更注重低精度數學,而許多 HPC 中心並不這麼認為。
精度:差距越來越大
橡樹嶺國家實驗室最近的一項研究表明,雖然混合精度技術在特定場景下可以實現高達 8 倍的效能提升,但對於需要只有 FP64 計算才能提供的精度的工作負載而言,它們遠遠不夠。他們的研究表明,對於依賴高精度和準確度的應用程式來說,FP64 的穩定性和可重複性具有重要價值。
這一挑戰不僅僅侷限於效能指標。正如行業專家Earl Dodd 所指出的,流行的“精度越低可靠性越低”這一誤解導致了對精度要求的決策過於簡單化。現實情況則更加微妙:不同的應用程式需要不同的精度水平,而一刀切地降低精度的方法可能會對科學應用產生嚴重後果。雖然人工智慧工作負載可能會容忍精度降低,但科學計算通常需要只有雙精度浮點計算才能提供的堅定不移的準確性。
然而,儘管對高精度格式的需求持續存在,但人工智慧加速器幾乎在晶片製造商的硬體路線圖中佔據主導地位。該行業正在以犧牲傳統科學計算需求為代價,大力轉向人工智慧優先架構。這種轉變不僅僅是一種暫時的趨勢——它代表了計算格局的根本性調整,具有深遠的影響。正如科學組織正在尋找在研究中結合人工智慧和高效能計算方法的強大方法一樣,硬體開發正在迫使這些互補方法之間人為分離。這種分歧可能會限制科學計算和人工智慧的潛力,因為它們無法協同工作。
這種轉變在最新的 GPU 架構中尤為明顯,其中效能格式之間的差距隨著每一代的出現而不斷擴大。最近的 ORNL 研究清楚地說明了這種不斷擴大的效能差距。他們對 Nvidia 和 AMD GPU 架構的分析表明,FP16 矩陣運算效能快速提升,而 FP64 效能則以較為溫和的速度增長。這些資料清楚地說明了這一點:計算行業對人工智慧的關注正在造成低精度和高精度計算能力之間的差距越來越大。結果就是計算生態系統正在分裂。
這種轉變的後果無疑對科學計算產生了影響。正如 Dodd 所強調的,科學計算的精度直接影響人類生命、環境保護和技術進步。效能和精度之間的權衡不僅僅是技術考慮,它們代表了我們對科學模擬的可靠性和可信度的基本選擇。當我們在精度上妥協時,我們冒的風險不僅僅是計算準確性,我們還會冒科學發現本身的完整性的風險。
科學使用者被迫適應並非為他們的需求而構建的架構。軟體框架、開發工具甚至更好的硬體介面主要都是為 AI 工作負載而設計的,這創造了一種環境,讓科學計算越來越感覺像是事後才想到的。這種轉變提出了一個嚴肅的問題:在爭相佔領 AI 主導地位的過程中,行業是否會將嬰兒和洗澡水一起倒掉?
GPU,走上了“邪路”?
與此同同時,最新一代的 Nvidia GPU 也正在推動一個新趨勢。GPU 價格上漲速度快於 FP64 效能,因為“Hopper”H100 和 H200 以及“Blackwell”B100 和 B200 加速器專注於將資料解析度和計算降低到 FP8 和 FP4 格式,以提高 AI 訓練和推理吞吐量。Nvidia 一直小心翼翼地在其 GPU 計算引擎上保留向量和張量單元,並在其上保持合理的 FP64 和 FP32 效能,但 FP64 的價效比並不理想。
我們對 FP64 非常看重,我們希望那些執行世界上最密集的天氣和氣候建模模擬、材料模擬、湍流氣流模擬以及其他幾十種絕對需要 FP64 浮點的關鍵 HPC 工作負載的人能夠從他們購買的計算引擎中獲得良好的價值。
在我們瞭解核心計算引擎上的向量和張量單元編譯和繪製的數字之前,我們有一些觀察結果。
首先,過去我們經常將矩陣數學視為一個通用術語,但實際上矩陣是一種特殊的低維二維張量,而向量是維度更低的一維張量。因此,我們將向量單元和張量單元的效能進行對比,這兩個單元在這些計算引擎中是獨一無二的。並非所有程式碼都已移植到張量單元,有些程式碼必須在向量單元上執行。
其次,從普遍意義上講,我們可以說,在 GenAI 革命的這個階段,Nvidia 正在設計可以進行一些 HPC 的 AI 訓練和推理 GPU,而 AMD 正在製造可以進行一些 AI 訓練和推理的 HPC GPU。
2012 年至 2020 年間,Nvidia GPU 內部向量單元的 FP64 峰值理論效能提高了 8.3 倍。(這是 2012 年的“Kepler” K20 和 2020 年的“Ampere” A100。對於“Hopper” H100 和 H200,它們是相同的 GPU,但具有不同的記憶體頻寬,峰值理論向量效能提高了 3.5 倍,達到 33.5 萬億次浮點運算。沒有稀疏性(即在密集矩陣上),Nvidia GPU 中張量核心的效能是 A100 和 H100 的兩倍,分別為 19.5 萬億次浮點運算和 67 萬億次浮點運算。
去年釋出並目前正在加速的“Blackwell”B100 的峰值向量 FP64 效能僅為 30 teraflops,比 Hopper GPU 的峰值 FP64 效能下降了 10.5%。而在張量核心上,FP64 的額定值為 30 petaflops,與 Hopper 張量核心的峰值 FP64 效能相比下降了 55.2%。可以肯定的是,Blackwell B200 的向量和張量單元的 FP64 額定值為 40 teraflops,而 GB200 與“Grace”CG100 CPU 搭配使用時,Nvidia 將其向量和張量的峰值 FP64 提升至 45 teraflops。重要的是,使用 Blackwell 時,張量 FP64 並不是向量 FP64 的兩倍,而且在很多情況下,轉向 Blackwell 的客戶將為比 Hopper GPU 更少的 FP64 效能付出更多代價。
如果您能找到二手 H100,這聽起來像是一個購買的好理由,因為對於需要最高精度計算的 HPC 工作負載來說,二手 H100 是必不可少的。
近年來,GPU 市場的一個好訊息是,有兩家供應商,AMD 進入該領域並具有絕對競爭力——尤其是自 2020 年底推出“Arcturus”MI100 以來,以及 2021 年 11 月推出“Aldebaran”MI250X 以來。AMD 的 MI250X 用於橡樹嶺國家實驗室的“Frontier”超級計算機,其向量單元的峰值 FP64 為 47.9 萬億次浮點運算,張量單元的峰值 FP64 為 95.7 萬億次浮點運算。MI100 在向量效能上比 Hopper H100/H200 高出 19%,但沒有張量單元。MI250X 同時具有向量和張量單元,在峰值 FP64 效能方面比 Hopper GPU 高出近 43%。藉助 MI300X,AMD 的向量運算速度達到 81.7 萬億次浮點運算,張量運算速度達到 163.4 萬億次浮點運算,而 GB200 封裝中使用的 Blackwell GPU 的向量和張量運算速度最高僅為 45 萬億次浮點運算。在峰值吞吐量下,FP64 向量效能提高了 1.8 倍,FP64 張量效能提高了 3.6 倍。
AMD 裝置也更便宜。我們猜測 GB200 套件中使用的單個 Blackwell B200 售價約為 40,000 美元,但 MI300X 售價約為 22,500 美元。與 B100、B200 以及與 Grace 搭配的 B200 相比,AMD 在 FP64 工作中的價效比優勢是 3.2 倍到 7.3 倍。
是的,Nvidia 擁有用於 HPC 和 AI 的龐大 CUDA 軟體堆疊,並且在低精度浮點和執行基礎模型的其他技巧方面具有優勢。但我們在這裡討論的是 HPC 工作負載。畢竟,我們既是下一個 AI 平臺,也是下一個 HPC平臺。
只是為了好玩,我們繪製了英特爾至強和 AMD Epyc 處理器隨時間變化的 FP64 效能,並計算了這些裝置的價效比,並將它們與 2012 年以來的 Nvidia 和 AMD GPU 進行了比較。
請記住,以下圖表是 FP64 數學在向量和張量單元上的峰值理論效能。這不是最大可實現效能,它考慮到任何給定計算引擎的架構的偏心性,使其無法達到峰值;當然也不是一套 HPC 應用程式上的最大持續效能。我們使用的是基本時鐘速度,而不是超頻速度。
我們希望描述 FP64 計算市場的形態以及經濟狀況隨時間的變化。這為 上述常見廠商的下一代 GPU 和 CPU 以及任何自主研發的 Arm 或未來的 RISC-V CPU 奠定了基礎。
這是針對當時具有最多核心的頂級部件,無需像英特爾幾次對非標準 Xeon AP 封裝所做的那樣採用雙重封裝插槽。
有些東西在正態圖上很容易看到,而其他東西則需要對數圖才能更好地看到增量。所以我們兩者都做了。讓我們來看看:
在圖表底部,你幾乎看不到英特爾和 AMD CPU 的效能,但你可以看到 Nvidia 如何降低其 GPU 的張量 FP64 效能,以及 AMD GPU 如何超越它。(無論你的眼鏡有多好,你都看不到 X 軸上的月度資料,這沒關係。圖表從 2012 年 1 月持續到 2025 年 5 月。)
如果我們切換到日誌檢視,就會出現一些有趣的東西:
AMD GPU 直到 MI250X 才有張量單元。在此之前,Intel Xeon 和 AMD Epyc CPU 在向量 FP64 吞吐量上的速度都只比 GPU 慢三倍左右。2020 年末,Nvidia 和 AMD 真正提高了其 GPU 向量,而 Nvidia 增加了張量核心,CPU 和 GPU 在 FP64 效能方面的差距真正拉大了。
另一件有趣的事情是,2016 年,當 AMD 推出基於“Vega”架構的 MI25 時,英特爾推出了“Broadwell”Xeon E5-2699 v4 CPU,它們的 FP64 效能相同。這更多地說明了 Vega 架構比 Broadwell 架構更出色。這也表明 AMD 在過去幾年中在 GPU 方面取得了多大的進步。您還可以看到“Naples”Epyc 6001 處理器也擊敗了 MI25,同時推出的“Haswell”Xeon 也是如此。
這是 CPU 和 GPU 之間唯一一次效能重疊,你可以看到 AMD 已經迅速趕上了 Nvidia,並且在 GPU 的 FP64 吞吐量上一直領先於它。此外,你可以在對數圖中看到,AMD 在 CPU 的 FP64 向量吞吐量上也通常一直擊敗英特爾。
效能是一回事,但成本很高。那麼這些裝置在 FP64 計算方面的價效比如何呢?讓我們來看看:
有趣的是,英特爾的價效比提升非常快,這無疑是由於 GPU 計算的影響,它提供了更好的價效比。英特爾曲線比 Nvidia 曲線陡峭得多,部分原因是 Nvidia 選擇了架構來降低 FP64 效能提升,而 AMD 和英特爾則在不斷提升 FP64 效能。英特爾還大幅降低了“Granite Rapids”Xeon 6 處理器的價格,使其更接近 AMD Turin Zen 5 核心處理器,但 AMD 在 CPU 方面的價效比仍然比英特爾略高,適用於 FP64 向量計算。
(注意:我們沒有考慮過去三代 Xeon 中的英特爾 AMX 張量單元。我們不知道有誰將 HPC 功能解除安裝到這些張量單元。但顯然有人可以。)
轉到對數刻度可以更容易地顯示 Nvidia 和 AMD 在 FP64 計算 GPU 上的競爭地位:
假設我們的定價正確,AMD 顯然是 GPU 的價值領導者。
讓我們以 2022 年的 Nvidia H100 為基準,其向量每萬億次浮點運算成本為 582 美元,張量每萬億次浮點運算成本為 291 美元。AMD MI250X GPU 的向量每萬億次浮點運算成本為 209 美元,張量每萬億次浮點運算成本為 104 美元。MI300X 的 GPU 價格上漲了一倍多,達到約 22,500 美元,但 FP64 效能僅提高了 1.7 倍,因此每美元的價值為向量每萬億次浮點運算 275 美元,張量每萬億次浮點運算 138 美元。在峰值效能相同的情況下,Nvidia H200 的成本高於 H100,而 B100 的成本更高,但峰值效能更低,而且 FP64 張量單元的成本要低得多。因此,B100 上的向量或張量單元每萬億次浮點運算的成本高達 1,000 美元。B200 增加了一些 FP64 效能(33%,達到 40 萬億次浮點運算),但價格約為 35,000 美元,即向量或張量每萬億次浮點運算 875 美元。GB200 配有 Blackwell,在 FP64 精度下可執行 45 萬億次浮點運算,價格為 40,000 美元,即每萬億次浮點運算 889 美元。
AMD 應該能夠向 HPC 社群銷售如此多的 MI300X,這讓我們感到頭暈目眩。這就是為什麼我們認為它無法像許多人想象的那樣生產出這麼多產品。
有趣的是,具有 128 個核心的 Granite Rapids Xeon 6 6980P 的額定速度為 8.2 萬億次浮點運算,其向量執行 FP64 工作的成本為每萬億次浮點運算 1,521 美元。(幾周前降價前的價格為 2,173 美元。)具有 128 個核心、執行頻率為 2.7 GHz 的 AMD Epyc 9755 的 FP64 效能略高於 11 萬億次浮點運算,每萬億次浮點運算的成本為 1,174 美元。這是 2018 年 AMD GPU 和 2021 年 Nvidia GPU 向量單元每萬億次浮點運算的成本。

參考連結

https://www.nextplatform.com/2025/02/20/sizing-up-compute-engines-for-hpc-work-at-64-bit-precision/
END
👇半導體精品公眾號推薦👇
▲點選上方名片即可關注
專注半導體領域更多原創內容
▲點選上方名片即可關注
關注全球半導體產業動向與趨勢
*免責宣告:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察轉載僅為了傳達一種不同的觀點,不代表半導體行業觀察對該觀點贊同或支援,如果有任何異議,歡迎聯絡半導體行業觀察。
今天是《半導體行業觀察》為您分享的第4042期內容,歡迎關注。
推薦閱讀
『半導體第一垂直媒體』
即時 專業 原創 深度
公眾號ID:icbank
喜歡我們的內容就點“在看”分享給小夥伴哦


相關文章