GeForceRTX3090,4090,A10,A40,A100,A800,L20,L40顯示卡效能對比

提醒:請之前購買過全店打包架構師技術全店資料打包彙總(全)”的讀者,請憑藉購買記錄在微店留言免費獲取更新(傳送更新打包連結),後續所有更新均免費發放目前44本資料
獲取內容:
(持續更新中…)
資料中心網路知識全解(PPT)
人工智慧基礎知識全解(含實踐)
CPU基礎知識全解(PPT)
GPU基礎知識全解(PPT)
……
關於GPU卡技術和規格描述,可參考“一文看懂英偉達A100、H100、A800、H800、H20”。本文轉載自“GeForce RTX 3090, 4090, A10, A40, A100, A800, L20, L40顯示卡效能對比”。在深度學習模型訓練中,資料通常以Tensor的形式儲存。因此,在評估顯示卡效能時,特別需要關注其在處理Tensor運算時的表現,尤其是針對Tensor BF16、Tensor FP16和Tensor FP32等不同精度格式下的計算能力。這些效能指標直接關係到模型的訓練速度與效率,對於選擇適合特定任務需求的硬體至關重要。具體對比結果如下所示:
TFLOPS 是 "TeraFLOPS" 的縮寫,其中 "Tera" 表示萬億(10^12),而 "FLOPS" 代表 "Floating Point Operations Per Second",即每秒浮點運算次數。因此,TFLOPS 就是指每秒萬億次浮點運算。
顯示卡型別
視訊記憶體容量
視訊記憶體頻寬
Tensor BF16/FP16/FP32 效能
FP16/FP32效能
功耗
釋出日期
NVIDIA GeForce RTX 4090
24GB
1.01TB/s
165.2 /165.2/82.58 TFLOPS
82.58/82.58 TFLOPS
450W
2022年9月
NVIDIA GeForce RTX 4090 D
24GB
1008GB/s
約156/156/78 TFLOPS
73.54/73.54 TFLOPS
425W
2023年12月
NVIDIA GeForce RTX 3090
24GB
936.2GB/s
71/71/35.58 TFLOPS
35.58/35.58 TFLOPS
425W
2020年9月
NVIDIA A10
24GB
600.2GB/s
125/125/62.5 TFLOPS
23.44/31.2 TFLOPS
150W
2022年2月
NVIDIA A40 PCIe
48GB
695.8GB/s
149.7/149.7/74.8 TFLOPS
37.42/37.42 TFLOPS
300W
2020年10月
NVIDIA A100 PCIe
80GB
1935GB/s
312/312/156 TFLOPS
77.97/19.49 TFLOPS
300W
2021年6月
NVIDIA A100 SXM4
80GB
2039GB/s
77.97/19.49 TFLOPS
400W
2020年11月
NVIDIA A800 PCIe
80GB
2039GB/s
312/312/156 TFLOPS
77.97/19.49 TFLOPS
250W
2022年11月
NVIDIA A800 SXM4
80GB
2039GB/s
77.97/19.49 TFLOPS
400W
2022年8月
NVIDIA L20
48GB
864.0GB/s
119.5/119.5/59.8 TFLOPS
59.35/59.35 TFLOPS
275W
2023年11月
NVIDIA L40
48GB
864.0GB/s
181.05/181.05/90.5 TFLOPS
90.52/90.52 TFLOPS
300W
2022年10月
NVIDIA H100 SXM5
80GB
1681GB/s
1979/1979/989 TFLOPS
267.6/66.91 TFLOPS
700W
2023年3月
NVIDIA H100 PCIe
80GB
2040GB/s
1513/1513/756 TFLOPS
204.9/51.22 TFLOPS
350W
2023年3月
[NVIDIA H100 NVL]
80GB
2040GB/s
3958/3958/1979 TFLOPS
204.9/51.22 TFLOPS
350W
2023年3月
NVIDIA H800 SXM5
80GB
1681GB/s
1979/1979/989 TFLOPS
237.2/59.30 TFLOPS
350W
2023年3月
NVIDIA H800 PCIe
80GB
2039GB/s
1513/1513/756 TFLOPS
204.9/51.22 TFLOPS
700W
2023年3月
注意:個別顯示卡擁有多種通訊介面(如SXM4/SXM5和PCIE),透過上述介面都能實現多GPU的互聯互通,但兩者的能耗、顯示卡間傳輸速率以及主機板相容性有所不同,
以H100 SXM5和H100 PCIe為例說明:
  • • 功耗:
    • • NVIDIA H100 SXM5:最高功耗約為 700W,適合有強大電力供應和散熱能力的伺服器。
    • • NVIDIA H100 PCIe:最高功耗約為 350W,比 SXM5 版本低,適合電力和散熱資源較為有限的系統。
  • • 效能差異:
    • • H100 SXM5:由於採用了更高效的散熱設計和更高功率預算,SXM5 版本通常具有更高的效能。例如,SXM5 版本的功率上限高達 700W,因此在計算能力和吞吐量方面往往更強。
      • • 記憶體頻寬:SXM5 版本通常支援更高的記憶體頻寬,具體可達到 3.35 TB/s
      • • NVLink 支援:SXM5 版本支援 NVLink,這使得多塊 GPU 之間可以透過高速互聯進行資料交換,頻寬可以高達 900GB/s(雙向),非常適合需要多 GPU 協同計算的任務。
    • • H100 PCIe:由於 PCIe 介面的功率限制,PCIe 版本的功耗通常限制在 350W,因此整體效能可能略低於 SXM5 版本。
      • • 記憶體頻寬:PCIe 版本的記憶體頻寬相對較低,約為 2 TB/s
      • • NVLink 支援:PCIe 版本的 NVLink 通常透過 PCIe 匯流排進行通訊,頻寬和互聯能力低於 SXM5 的 NVLink。
參考文獻:
https://juejin.cn/post/7428197475964272690
來源:張北北,指北筆記
相關文章:
請之前購買過全店打包架構師技術全店資料打包彙總(全)”的讀者,請憑藉購買記錄在微店留言免費獲取(PDF閱讀版本)。後續所有更新均免費發放目前44本資料)。
免責申明:本號聚焦相關技術分享,內容觀點不代表本號立場,可追溯內容均註明來源,釋出文章若存在版權等問題,請留言聯絡刪除,謝謝。
推薦閱讀
更多架構相關技術知識總結請參考“架構師全店鋪技術資料打包(全)”相關電子書(44本技術資料打包彙總詳情可透過“閱讀原文”獲取)。
溫馨提示:
掃描二維碼關注公眾號,點選閱讀原文連結獲取架構師技術全店資料打包彙總(全)電子書資料詳情



相關文章