

提醒:更新下載,已領請忽略!《伺服器基礎知識全解終極版(第二版)》(含PPT和PDF)近日完成更新,請購買過“伺服器基礎知識全解(終極版)”和“架構師技術全店資料打包彙總(全)”的讀者,請在微店留言獲免費取更新。
伺服器基礎知識全解終極版(第二版)(共227頁),內容圖文並茂,由淺入深,介紹全面,是世面罕見的伺服器學習資料,內包括伺服器基礎知識、CPU、記憶體、GPU、硬碟、智慧網絡卡等9個章節。本次主要更新內容:
-
1、CPU更新(Intel/AMD架構演進,國產CPU架構)
-
2、GPU更新(英偉達GPU架構,從Fermi到Hopper,Rubin Ultra)
-
3、記憶體技術、操作系統、儲存技術等更新
-
4、已知問題修正
-
5、更新內容40+頁PPT
關於GPU卡技術和規格描述,可參考“一文看懂英偉達A100、H100、A800、H800、H20”。
本文轉載自“GeForce RTX 3090, 4090, A10, A40, A100, A800, L20, L40顯示卡效能對比”。在深度學習模型訓練中,資料通常以Tensor的形式儲存。因此,在評估顯示卡效能時,特別需要關注其在處理Tensor運算時的表現,尤其是針對Tensor BF16、Tensor FP16和Tensor FP32等不同精度格式下的計算能力。這些效能指標直接關係到模型的訓練速度與效率,對於選擇適合特定任務需求的硬體至關重要。具體對比結果如下所示:
TFLOPS 是 "TeraFLOPS" 的縮寫,其中 "Tera" 表示萬億(10^12),而 "FLOPS" 代表 "Floating Point Operations Per Second",即每秒浮點運算次數。因此,TFLOPS 就是指每秒萬億次浮點運算。
|
|
|
Tensor BF16/FP16/FP32 效能 |
|
|
|
NVIDIA GeForce RTX 4090 |
|
|
|
|
|
|
NVIDIA GeForce RTX 4090 D |
|
|
|
|
|
|
NVIDIA GeForce RTX 3090 |
|
|
|
|
|
|
NVIDIA A10 |
|
|
|
|
|
|
NVIDIA A40 PCIe |
|
|
|
|
|
|
NVIDIA A100 PCIe |
|
|
|
|
|
|
NVIDIA A100 SXM4 |
|
|
|
|
|
|
NVIDIA A800 PCIe |
|
|
|
|
|
|
NVIDIA A800 SXM4 |
|
|
|
|
|
|
NVIDIA L20 |
|
|
|
|
|
|
NVIDIA L40 |
|
|
|
|
|
|
NVIDIA H100 SXM5 |
|
|
|
|
|
|
NVIDIA H100 PCIe |
|
|
|
|
|
|
|
|
|
|
|
|
|
NVIDIA H800 SXM5 |
|
|
|
|
|
|
NVIDIA H800 PCIe |
|
|
|
|
|
|
注意:個別顯示卡擁有多種通訊介面(如SXM4/SXM5和PCIE),透過上述介面都能實現多GPU的互聯互通,但兩者的能耗、顯示卡間傳輸速率以及主機板相容性有所不同,
以H100 SXM5和H100 PCIe為例說明:
-
• 功耗: -
• NVIDIA H100 SXM5:最高功耗約為 700W,適合有強大電力供應和散熱能力的伺服器。 -
• NVIDIA H100 PCIe:最高功耗約為 350W,比 SXM5 版本低,適合電力和散熱資源較為有限的系統。 -
• 效能差異: -
• H100 SXM5:由於採用了更高效的散熱設計和更高功率預算,SXM5 版本通常具有更高的效能。例如,SXM5 版本的功率上限高達 700W,因此在計算能力和吞吐量方面往往更強。 -
• 記憶體頻寬:SXM5 版本通常支援更高的記憶體頻寬,具體可達到 3.35 TB/s。 -
• NVLink 支援:SXM5 版本支援 NVLink,這使得多塊 GPU 之間可以透過高速互聯進行資料交換,頻寬可以高達 900GB/s(雙向),非常適合需要多 GPU 協同計算的任務。 -
• H100 PCIe:由於 PCIe 介面的功率限制,PCIe 版本的功耗通常限制在 350W,因此整體效能可能略低於 SXM5 版本。 -
• 記憶體頻寬:PCIe 版本的記憶體頻寬相對較低,約為 2 TB/s。 -
• NVLink 支援:PCIe 版本的 NVLink 通常透過 PCIe 匯流排進行通訊,頻寬和互聯能力低於 SXM5 的 NVLink。
參考文獻:
https://juejin.cn/post/7428197475964272690
來源:張北北,指北筆記
-
DeepSeek行業應用實踐報告 -
清華大學:DeepSeek與AI幻覺 -
DeepSeek入門寶典:技術解析篇 -
清華大學:DeepSeek技術五部曲(合集) -
DeepSeek一體機大潮來襲! -
一文讀懂DeepSeek:大模型行業報告 -
DeepSeek超級引擎,引爆通訊產業 -
DeepSeek模型蒸餾與本地部署 -
DeepSeek人工智慧:大模型概念、技術與應用實踐(2025) -
智靈動力:DeepSeek模型本地部署指南 -
清華大學:普通人如何抓住DeepSeek紅利 -
全面解析DeepSeek的蒸餾技術 -
DeepSeek研究框架(2025) -
DeepSeek技術創新分析、啟發及原理驗證 -
揭秘DeepSeek:蒸餾技術存在天花板,依賴合成數據訓練有風險 -
揭秘DeepSeek內幕:清華教授剖析AI模型技術原理 -
DeepSeek爆火詳細報告(附下載) -
清華大學:DeepSeek從入門到精通(2025) -
DeepSeeK:開啟AI演算法變革元年(2025)
相關文章:



免責申明:本號聚焦相關技術分享,內容觀點不代表本號立場,可追溯內容均註明來源,釋出文章若存在版權等問題,請留言聯絡刪除,謝謝。
推薦閱讀
更多架構相關技術知識總結請參考“架構師全店鋪技術資料打包(全)”相關電子書(46本技術資料打包彙總詳情可透過“閱讀原文”獲取)。
溫馨提示:
掃描二維碼關注公眾號,點選閱讀原文連結獲取“架構師技術全店資料打包彙總(全)”電子書資料詳情。

