GeForceRTX3090，4090，A10，A40，A100，A800，L20，L40顯示卡效能對比

提醒：請之前購買過全店打包“架構師技術全店資料打包彙總(全)”的讀者，請憑藉購買記錄在微店留言免費獲取更新（傳送更新打包連結），後續所有更新均免費發放（目前44本資料）。

獲取內容：

人工智慧晶片技術深度分析

InfiniBand架構和技術實戰總結(第二版)

Infiniband技術規範和協議解析

人工智慧晶片技術深度分析

儲存系統基礎知識全解（PDF）

儲存系統基礎知識全解（PPT版）

伺服器基礎知識全解(PPT版)

伺服器基礎知識全解(PDF版)

SSD快閃記憶體技術基礎知識全解（PPT版）

SSD快閃記憶體技術基礎知識全解（PDF版）

（持續更新中…）

資料中心網路知識全解（PPT）

人工智慧基礎知識全解（含實踐）

CPU基礎知識全解（PPT）

GPU基礎知識全解（PPT）

……

關於GPU卡技術和規格描述，可參考“一文看懂英偉達A100、H100、A800、H800、H20”。本文轉載自“GeForce RTX 3090, 4090, A10, A40, A100, A800, L20, L40顯示卡效能對比”。在深度學習模型訓練中，資料通常以Tensor的形式儲存。因此，在評估顯示卡效能時，特別需要關注其在處理Tensor運算時的表現，尤其是針對Tensor BF16、Tensor FP16和Tensor FP32等不同精度格式下的計算能力。這些效能指標直接關係到模型的訓練速度與效率，對於選擇適合特定任務需求的硬體至關重要。具體對比結果如下所示：

TFLOPS 是 "TeraFLOPS" 的縮寫，其中 "Tera" 表示萬億（10^12），而 "FLOPS" 代表 "Floating Point Operations Per Second"，即每秒浮點運算次數。因此，TFLOPS 就是指每秒萬億次浮點運算。

顯示卡型別	視訊記憶體容量	視訊記憶體頻寬	`Tensor BF16/FP16/FP32 效能`	FP16/FP32效能	功耗	釋出日期
NVIDIA GeForce RTX 4090	24GB	1.01TB/s	165.2 /165.2/82.58 TFLOPS	82.58/82.58 TFLOPS	450W	2022年9月
NVIDIA GeForce RTX 4090 D	24GB	1008GB/s	約156/156/78 TFLOPS	73.54/73.54 TFLOPS	425W	2023年12月
NVIDIA GeForce RTX 3090	24GB	936.2GB/s	71/71/35.58 TFLOPS	35.58/35.58 TFLOPS	425W	2020年9月
NVIDIA A10	24GB	600.2GB/s	125/125/62.5 TFLOPS	23.44/31.2 TFLOPS	150W	2022年2月
NVIDIA A40 PCIe	48GB	695.8GB/s	149.7/149.7/74.8 TFLOPS	37.42/37.42 TFLOPS	300W	2020年10月
NVIDIA A100 PCIe	80GB	1935GB/s	312/312/156 TFLOPS	77.97/19.49 TFLOPS	300W	2021年6月
NVIDIA A100 SXM4	80GB	2039GB/s	77.97/19.49 TFLOPS	400W	2020年11月
NVIDIA A800 PCIe	80GB	2039GB/s	312/312/156 TFLOPS	77.97/19.49 TFLOPS	250W	2022年11月
NVIDIA A800 SXM4	80GB	2039GB/s	77.97/19.49 TFLOPS	400W	2022年8月
NVIDIA L20	48GB	864.0GB/s	119.5/119.5/59.8 TFLOPS	59.35/59.35 TFLOPS	275W	2023年11月
NVIDIA L40	48GB	864.0GB/s	181.05/181.05/90.5 TFLOPS	90.52/90.52 TFLOPS	300W	2022年10月
NVIDIA H100 SXM5	80GB	1681GB/s	1979/1979/989 TFLOPS	267.6/66.91 TFLOPS	700W	2023年3月
NVIDIA H100 PCIe	80GB	2040GB/s	1513/1513/756 TFLOPS	204.9/51.22 TFLOPS	350W	2023年3月
[NVIDIA H100 NVL]	80GB	2040GB/s	3958/3958/1979 TFLOPS	204.9/51.22 TFLOPS	350W	2023年3月
NVIDIA H800 SXM5	80GB	1681GB/s	1979/1979/989 TFLOPS	237.2/59.30 TFLOPS	350W	2023年3月
NVIDIA H800 PCIe	80GB	2039GB/s	1513/1513/756 TFLOPS	204.9/51.22 TFLOPS	700W	2023年3月

注意：個別顯示卡擁有多種通訊介面（如SXM4/SXM5和PCIE），透過上述介面都能實現多GPU的互聯互通，但兩者的能耗、顯示卡間傳輸速率以及主機板相容性有所不同，

以H100 SXM5和H100 PCIe為例說明：

• 功耗：

• NVIDIA H100 SXM5：最高功耗約為 700W，適合有強大電力供應和散熱能力的伺服器。
• NVIDIA H100 PCIe：最高功耗約為 350W，比 SXM5 版本低，適合電力和散熱資源較為有限的系統。

• 效能差異：

• H100 SXM5：由於採用了更高效的散熱設計和更高功率預算，SXM5 版本通常具有更高的效能。例如，SXM5 版本的功率上限高達 700W，因此在計算能力和吞吐量方面往往更強。

• 記憶體頻寬：SXM5 版本通常支援更高的記憶體頻寬，具體可達到 3.35 TB/s。
• NVLink 支援：SXM5 版本支援 NVLink，這使得多塊 GPU 之間可以透過高速互聯進行資料交換，頻寬可以高達 900GB/s（雙向），非常適合需要多 GPU 協同計算的任務。