提醒:更新下載,已領請忽略!
《伺服器基礎知識全解終極版(第二版)》、SSD快閃記憶體技術基礎知識全解(含PPT和PDF)近期完成更新,請購買過“伺服器基礎知識全解(終極版)”和“架構師技術全店資料打包彙總(全)(46份)”的讀者,請在微店留言獲免費取更新。由於打包資料持續增加,價格也即將會隨之上漲,因此,買的早就是優勢。
本次主要更新內容:
-
1、CPU更新(Intel/AMD架構演進,國產CPU架構)
-
2、GPU更新(英偉達GPU架構,從Fermi到Hopper,Rubin Ultra)
-
3、記憶體技術、操作系統、儲存技術等更新
-
4、已知問題修正
-
5、更新內容40+頁PPT
快閃記憶體技術、產品和發展趨勢全面解析(第二版)
Infiniband架構和技術實戰(第二版)
知識全解系列
(持續更新中…)
GPU作為現代計算系統中的核心元件,其效能引數直接影響著圖形渲染、科學計算和人工智慧等領域的應用效果。本文將全面解析GPU的核心引數體系,包括算力、視訊記憶體、架構特性等關鍵指標,並深入分析當前市場上主流GPU產品的引數細節與效能表現。從消費級顯示卡到資料中心級加速卡,從國際巨頭產品到國產GPU新銳,我們將為您提供一個全面的GPU效能評估框架,幫助您理解不同應用場景下如何選擇最適合的GPU解決方案。

GPU核心引數體系解析
GPU(Graphics Processing Unit)作為現代計算系統的核心元件,其效能表現由一系列關鍵引數決定。理解這些引數的含義及其相互關係,對於正確評估GPU效能、選擇適合特定應用場景的產品至關重要。
基礎計算單元
CUDA核心/流處理器是GPU最基本的計算單元,負責執行圖形渲染和通用計算任務。NVIDIA稱之為CUDA核心,AMD則稱為流處理器(Stream Processor)。核心數量直接決定了GPU的平行計算能力——核心越多,GPU同時處理任務的能力越強。例如,RTX 4090擁有16384個CUDA核心,而專業級的RTX 6000 Ada則達到18176個。值得注意的是,不同架構的GPU核心效率可能有顯著差異,單純比較核心數量並不總能準確反映效能差異。
Tensor核心是NVIDIA為深度學習任務專門設計的計算單元,能夠高效執行矩陣運算。從Volta架構開始引入,Tensor核心可以大幅提升AI訓練和推理的效能。例如,A100的Tensor核心支援TF32精度,能在幾乎不損失精度的情況下提供接近FP16的計算速度。Tensor核心的代數越高,通常意味著AI計算效率越高,如Ada Lovelace架構的第四代Tensor核心相比Ampere架構的第三代有顯著效能提升。
RT核心是專用於光線追蹤計算的硬體單元,主要存在於消費級顯示卡中。資料中心級GPU通常不包含RT核心,因為其設計更側重通用計算而非圖形渲染。RT核心透過加速光線與場景幾何體的相交測試,使即時光線追蹤成為可能。例如,RTX 4090的光線追蹤效能相比前代有顯著提升,這主要歸功於其第三代RT核心的改進。
視訊記憶體系統
視訊記憶體容量決定了GPU能夠一次性處理的資料量,對於大型模型訓練和高解析度渲染至關重要。視訊記憶體不足會導致頻繁的資料交換,嚴重影響效能。例如,A100提供40GB和80GB兩種視訊記憶體配置,而RTX 4090則為24GB GDDR6X。在處理像DeepSeek LLM 67B這樣的大型語言模型時,大視訊記憶體GPU如A100 80GB能夠更高效地執行,減少因視訊記憶體瓶頸導致的訓練中斷。
視訊記憶體頻寬衡量GPU與視訊記憶體之間的資料傳輸速率,單位通常是GB/s。高頻寬對於需要頻繁訪問視訊記憶體的任務(如AI訓練)尤為重要。視訊記憶體頻寬由視訊記憶體型別和位寬決定,HBM2e視訊記憶體(如A100使用的)提供高達2TB/s的頻寬,遠高於GDDR6/GDDR6X。可以用公式表示:視訊記憶體頻寬=視訊記憶體頻率×視訊記憶體位寬/8。例如,RTX 4090的GDDR6X視訊記憶體頻寬為1TB/s左右,而A100的HBM2e視訊記憶體頻寬可達2TB/s。
視訊記憶體型別直接影響頻寬和能效。目前主流型別包括:
-
GDDR6/GDDR6X:消費級顯示卡常用,價效比高,如RTX 4090使用GDDR6X
-
HBM2e/HBM3:資料中心級顯示卡使用,高頻寬但成本高,如A100使用HBM2e,Blackwell Ultra使用HBM3e
-
GDDR7:新一代視訊記憶體技術,預計將用於RTX 50系列,位寬可能高達512-bit
計算效能指標
浮點效能以TFLOPS(每秒萬億次浮點運算)為單位,是衡量GPU計算能力的關鍵指標。根據精度不同,可分為FP64(雙精度)、FP32(單精度)、FP16(半精度)等。例如,RTX 4090的FP32效能高達82.58 TFLOPS,而A100的FP16效能為312 TFLOPS。不同精度的效能差異很大,AI訓練通常使用FP16或BF16,而科學計算可能需要FP64。
功耗(TDP)表示GPU的熱設計功耗,影響散熱設計和電源需求。高效能GPU如RTX 4090 TDP達450W,而專業卡如RTX 4000 Ada僅140W。功耗不僅影響執行成本,還決定了部署密度——低功耗GPU如T4(70W)可在1U伺服器中部署8張。
製造工藝以奈米(nm)為單位,影響電晶體密度和能效。先進工藝如4nm(Blackwell)相比上一代5nm(Hopper)能提供更高效能和更低功耗。工藝進步是GPU效能提升的重要驅動力,例如從Ampere(7nm)到Ada Lovelace(4nm)的轉變帶來了顯著的能效提升。
表:GPU核心引數體系概覽

理解這些核心引數及其相互關係,是評估GPU適用性的基礎。在實際應用中,需要根據具體工作負載特點,權衡不同引數的重要性。例如,AI訓練通常需要高視訊記憶體容量和頻寬,而推理任務可能更關注能效比;圖形渲染則需要強大的CUDA核心和RT核心支援。
國際主流GPU產品引數分析
國際GPU市場中,NVIDIA憑藉其完整的產品線和領先的技術實力佔據主導地位,其產品覆蓋從消費級到資料中心級的各個細分市場。瞭解這些主流GPU產品的引數細節,對於正確選擇適合特定應用場景的硬體至關重要。
資料中心級GPU
NVIDIA A100基於Ampere架構,至今仍是AI訓練領域的"黃金標準"。其核心優勢在於80GB HBM2e視訊記憶體和高達2TB/s的視訊記憶體頻寬,特別適合大規模模型訓練。A100的FP16效能達到312 TFLOPS,支援NVLink互聯(600GB/s頻寬),在多卡並行訓練時表現尤為出色。例如,在訓練類似DeepSeek LLM 67B這樣的大型語言模型時,A100叢集能夠保持高效穩定的效能。A100還支援TF32精度,這種特殊的計算格式能在幾乎不損失精度的情況下提供接近FP16的計算速度,顯著提升訓練效率。
NVIDIA H100作為Hopper架構的代表,相比A100有顯著提升。它採用80GB HBM3視訊記憶體,頻寬提升至3.35TB/s,特別優化了Transformer架構的處理效率。H100引入了Transformer Engine,能夠自動在FP8和FP16精度之間切換,在保持模型精度的同時最大化效能。在實際應用中,H100訓練大型語言模型的速度可達A100的2-3倍。H100也是首個支援PCIe 5.0和NVLink 4.0的GPU,卡間互聯頻寬高達900GB/s。
Blackwell架構GPU是NVIDIA在2025年推出的新一代產品,包括B100、B200和旗艦B300。Blackwell Ultra B300配備288GB HBM3e視訊記憶體,FP8精度算力高達15 PFLOPS,是H100的3.75倍。Blackwell引入了新的精度格式,FP4 Tensor Core可提供驚人的30 PFLOPS算力。在實際應用中,Blackwell Ultra NVL72機櫃(含72顆B300 GPU)完成6710億引數DeepSeek-R1模型的推理僅需15秒,而H100系統需要1.5分鐘。Blackwell還優化了能效比,雖然單卡TDP高達1000W,但單位算力的功耗顯著降低。
NVIDIA T4是面向推理場景的節能型GPU,僅70W TDP卻提供16GB GDDR6視訊記憶體。其優勢在於高密度部署——1U伺服器可容納8張T4,對TensorRT的良好支援使其成為線上推理服務的理想選擇。T4的INT8效能達到130 TOPS,特別適合需要低延遲響應的應用場景,如即時影像識別、語音處理等。雖然不適合訓練大型模型,但在部署最佳化後的推理模型時,T4能提供出色的價效比。
消費級與工作站GPU
RTX 4090作為消費級旗艦,擁有16384個CUDA核心和24GB GDDR6X視訊記憶體,FP32效能高達82.58 TFLOPS。雖然定位為遊戲顯示卡,但其強大的計算效能使其在AI領域也表現出色。對於已經訓練好的模型進行推理,RTX 4090反應迅速;對於引數量在7B-13B的中等規模模型微調,也能勝任。但需注意,4090不支援NVLink,多卡並行效率低,且450W的高功耗對散熱系統要求嚴格。作為消費級產品,其驅動也未針對AI應用進行特別最佳化,長期執行的穩定性可能不如專業卡。
RTX 6000 Ada是Ada Lovelace架構的專業旗艦,擁有18176個CUDA核心和48GB GDDR6 ECC視訊記憶體,FP32效能91.1 TFLOPS。相比消費級的4090,RTX 6000 Ada增加了ECC糾錯功能,提升了長時間執行的穩定性;支援NVLink(80GB/s頻寬),適合組建雙卡工作站;專業驅動也針對AI應用進行了最佳化。在處理複雜的AI計算時,如執行DeepSeek模型或對中等規模模型進行微調,RTX 6000 Ada能提供更流暢的體驗。但其價格也遠高於4090,適合預算充足的專業使用者。
RTX 4000 Ada是RTX 6000 Ada的"青春版",配備20GB ECC視訊記憶體,適合AI入門與中小規模部署。它保留了Ada Lovelace架構的核心特性,如第四代Tensor Core和第三代RT Core,但CUDA核心數和視訊記憶體容量有所縮減。對於執行經過量化的DeepSeek模型推理,或對1B-7B引數量的模型進行微調實驗,RTX 4000 Ada是一個性價比不錯的選擇。其TDP僅140W,對電源和散熱要求相對寬鬆,適合空間有限的工作站環境。
架構對比與演進
從Ampere到Hopper再到Blackwell,NVIDIA的資料中心GPU架構持續演進,每一代都帶來顯著的效能提升:
表:NVIDIA資料中心GPU架構演進對比

消費級與專業級GPU的差異不僅體現在硬體規格上,更反映在軟體支援和穩定性上。專業卡如RTX 6000 Ada配備ECC視訊記憶體防止資料錯誤,驅動經過更嚴格的測試認證,支援多卡協同工作;而消費卡如RTX 4090雖然原始算力強勁,但缺乏這些企業級功能,不適合關鍵業務場景。
值得注意的是,NVIDIA在GTC 2025還預告了下一代Rubin架構GPU,計劃於2026年推出。Rubin將採用HBM4視訊記憶體,FP4精度算力預計達50 PFLOPS,是Blackwell Ultra的3.3倍。這一持續快速的技術演進,使得GPU在AI和高效能計算領域的應用邊界不斷擴充套件。
國產GPU產品引數與效能對比
隨著中國科技實力的提升和國際環境的變化,國產GPU產業近年來迅速發展,在人工智慧、高效能計算等領域湧現出一批具有競爭力的產品。國產GPU雖然在整體效能上與行業龍頭仍有差距,但在特定應用場景下已展現出獨特優勢,並逐步構建起自主生態。
主流國產GPU產品線
華為昇騰910B基於自研達芬奇架構,採用7nm工藝製造,FP16峰值算力高達376 TFLOPS,與英偉達A100處於同一水平。其功耗控制在350W,能效比表現優異,支援400GB/s的HBM記憶體頻寬。昇騰910B相容華為自研的MindSpore框架,在實際應用中表現出色——與百度在自動駕駛領域合作時,最佳化演算法效能提升2倍以上,功耗降低80%。不過,昇騰系列目前良品率仍有提升空間,可能影響大規模部署的穩定性。
寒武紀MLU590採用MLUv02擴充套件架構,雲端和端側應用兼顧,FP16算力314 TFLOPS,配備80GB視訊記憶體和驚人的2TB/s頻寬。其獨特之處在於靈活的擴充套件性:以TP(單個IPU核心)和MTP(多個IPU核心組成的Cluster)為基本單元,可根據需求配置從端側到雲端的各種算力規模。MLU590在分散式計算和大規模模型訓練中表現突出,透過MLU-Link技術可實現高效的多卡多機並行。
海光K100系列包括K100 AI版和標準版兩個變種。K100 AI版專注於AI訓練,提供196 TFLOPS的FP16算力,64GB視訊記憶體和896GB/s頻寬;標準版則側重高精度通用計算,FP64效能更優。海光DCU相容"類CUDA"環境,支援ROCm版的飛槳框架,便於現有CUDA應用的遷移。透過硬體和軟體協同最佳化,海光K100在大模型場景化落地方面展現出較強實力。
天數智芯推出了訓練與推理兩條產品線:天垓100專注訓練,提供147 TFLOPS(FP16/BF16)算力,雖然視訊記憶體頻寬僅64GB/s,但卡間互聯頻寬高達1.2TB/s,在分散式訓練中優勢明顯;智鎧100則專攻推理任務,提供200 TFLOPS的推理算力,功耗僅150W,能效比極高,適合安防、金融等對功耗敏感的場景。天數智芯產品相容CUDA生態和主流深度學習框架,降低了使用者的遷移成本。
效能引數對比分析
國產GPU在關鍵效能指標上已取得長足進步,不同產品各有所長:
算力表現:華為昇騰910B以376 TFLOPS(FP16)領跑,寒武紀MLU590以314 TFLOPS緊隨其後,兩者均已達到國際旗艦水平。海光K100 AI版(196 TFLOPS)和天數天垓100(147 TFLOPS)雖然絕對值較低,但在特定最佳化場景下能發揮出接近理論值的實際效能。天數智鎧100雖專注推理,200 TFLOPS的推理算力也能滿足大多數行業應用需求。
視訊記憶體系統:寒武紀MLU590的80GB視訊記憶體和2TB/s頻寬最為突出,甚至超過英偉達A100的80GB HBM2e(2TB/s)。海光K100系列的64GB視訊記憶體和896GB/s頻寬適合視訊記憶體密集型任務,華為昇騰910B的64GB視訊記憶體和392GB/s頻寬在強大算力加持下也能應對多數深度學習場景。天數智芯產品的視訊記憶體配置(32GB)相對較小,但透過高效的卡間互聯彌補了這一不足。
功耗效率:國產GPU在能效設計上各有側重。華為昇騰910B、海光K100 AI版和寒武紀MLU590均採用350W高功耗設計,追求極致效能;海光標準版降至300W,在算力和能效間取得平衡;天數天垓100以250W實現較好能效比;而專注推理的智鎧100僅150W,是低功耗應用的理想選擇。
相關閱讀:
-
海思昇騰920晶片解析:達芬奇架構進化與AI算力躍遷 -
DeepSeek的終局剖析:大模型賽道機遇與挑戰 -
智算中心網路常見組網拓撲分析 -
中國智算中心:佈局、分佈與發展態勢 -
SSD快閃記憶體技術基礎知識全解(終極版) -
昇騰310晶片引數及技術概述 -
InfiniBand,撼動不了乙太網? -
InfiniBand高效能網路設計概述 -
面向E級計算的4款高效能處理器概述 -
基於鯤鵬處理器的高效能計算實踐 -
高效能計算關鍵元件核心知識 -
一文全解高效能製造模擬技術 -
高效能計算:RoCE技術分析及應用 -
高效能計算:談談被忽視的國之重器 -
高效能計算:RoCE v2 vs. InfiniBand網路該怎麼選? -
高效能網路全面向RDMA進軍



免責申明:本號聚焦相關技術分享,內容觀點不代表本號立場,可追溯內容均註明來源,釋出文章若存在版權等問題,請留言聯絡刪除,謝謝。
推薦閱讀
更多架構相關技術知識總結請參考“架構師全店鋪技術資料打包(全)”相關電子書(46本技術資料打包彙總詳情可透過“閱讀原文”獲取)。
溫馨提示:
掃描二維碼關注公眾號,點選閱讀原文連結獲取“架構師技術全店資料打包彙總(全)”電子書資料詳情。

