下載提醒:伺服器基礎知識全解終極版(第二版),儲存系統基礎知識全解(終極版),SSD快閃記憶體技術基礎知識全解(含PPT和PDF)近期完成更新(已領請忽略),請購買過“架構師技術全店資料打包彙總(全)(46份)”的讀者,請在微店留言獲免費取更新。
本次主要更新內容:
-
1、CPU更新(Intel/AMD架構演進,國產CPU架構)
-
2、GPU更新(英偉達GPU架構,從Fermi到Hopper,Rubin Ultra)
-
3、記憶體技術、操作系統、儲存技術等更新
-
4、已知問題修正
-
5、更新內容40+頁PPT
系列文章閱讀:
100個DPU關鍵知識點(收藏版)
100個網路技術基礎知識(收藏版)
100個企業儲存基礎知識(收藏版)
100個GPU核心知識概述(收藏版)


-
1、CPU更新(Intel/AMD架構演進,國產CPU架構)
-
2、GPU更新(英偉達GPU架構,從Fermi到Hopper,Rubin Ultra)
-
3、記憶體技術、操作系統、儲存技術等更新
-
4、已知問題修正
-
5、更新內容40+頁PPT
本文參考自“《算力基礎知識:AI晶片基礎關鍵引數》”,算力是衡量計算機處理資訊能力的重要指標,其中AI算力專注於AI應用,常見單位為TOPS和TFLOPS,透過GPU、ASIC、FPGA等專用晶片提供演算法模型訓練和推理。算力精度作為衡量算力水平的一種方式,其中FP16、FP32應用於模型訓練,FP16、INT8應用於模型推理。
AI晶片通常採用GPU和ASIC架構。GPU因其在運算和並行任務處理上的優勢成為AI計算中的關鍵元件,它的算力和視訊記憶體、頻寬決定了GPU的運算能力。GPU的核心可分為CudaCore、Tensor Core等;Tensor Core是增強AI計算的核心,相較於平行計算表現卓越的Cuda Core,它更專注於深度學習領域,透過最佳化矩陣運算來加速AI深度學習的訓練和推理任務,其中Nvidia Volta Tensor Core架構較Pascal架構(Cuda Core) 的AI吞吐量增加了12倍。此外,TPU作為ASIC的一種專為機器學習設計的AI晶片,相比於CPU、GPU,其在機器學習任務中的高能效脫穎而出,其中TPU v1在神經網路效能上最大可達同時期CPU的71倍、GPU的2.7倍。
1、算力基礎
AI計算的生命週期
AI計算是一種計算機器學習演算法的數學密集型流程,透過加速系統和軟體,從大量資料集中提取新的見解並在此過程中學習新能力。
AI計算的三個主要過程包括:1)提取/轉換/載入資料(ETL):資料科學家需要整理和準備資料集。2)選擇或設計AI模型:資料科學家選擇或設計最適合其應用的AI模型,一些公司會從一開始就設計並訓練自己的模型,另一些公司可能採用預訓練模型並根據需求進行自定義。3)AI推理:企業透過模型對資料進行篩選,AI在此過程中提供可行的洞察與見解。

算力及AI算力主要晶片的分類
算力通常是指計算機處理資訊的能力,特別是在進行數學運算、資料處理和執行程式時的速度和效率。根據使用裝置和提供算力強度的不同,算力可分為:基礎算力、智慧算力、超算算力。智慧算力即AI算力,是面向AI應用,提供AI演算法模型訓練與模型執行服務的計算機系統能力,其算力晶片通常包括GPU、ASIC、FPGA、NPU等各類專用晶片。
1) 基礎算力: 由基於CPU晶片的伺服器所提供的算力,主要用於基礎通用計算,如移動計算和物聯網等。日常提到的雲計算、邊緣計算等均屬於基礎算力。
2) 智慧算力:基於GPU(影像處理器)、FPGA(現場可程式設計邏輯閘陣列)、ASIC(專用積體電路)等AI晶片的加速計算平臺提供的算力,主要用於AI的訓練和推理計算,比如語音、影像和影片的處理。
3) 超算算力:由超級計算機等高效能計算叢集所提供的算力,主要用於尖端科學領域的計算,比如行星模擬、藥物分子設計、基因分析等。

算力的常見單位
在計算機領域,常用算力的衡量指標包括FLOPS (每秒浮點運算次數)、OPS (每秒運算次數)。FLOPS特別適用於評估超級計算機、高效能計算伺服器和GPU等裝置的計算效能。
在計算效能的度量中,常見單位包括Kilo/Mega/Giga/Tera/Peta/Exa,算力通常以 PetaFlOPS(每秒千萬億次浮點運算)單位來衡量。
AI 算力常見單位分為TOPS和TFLOPS。推理算力,即通常用裝置處理即時任務的能力,通常以TOPS(每秒萬億次操作)為單位來衡量。而訓練算力,即裝置的學習能力和資料處理能力,常用TFLOPS(每秒萬億次浮點操作)來衡量。TFLOPS數值越高,反映了模型在訓練時的效率越高。
不同場景對應算力精度表示不同
力精度作為可以衡量算力水平的一種方式,可分為浮點計算和整型計算。其中浮點計算可細分為半精度(2Bytes,FP16)、單精度(4Bytes,FP32)和雙精度(8Bytes,FP64)浮點計算,加上整型精度(1Byte,INT8)。
不同場景對應算力精度表示不同。FP64主要用於對精度要求很高的科學計算,如製造產品設計、機械模擬和Ansys應用中的流體動力學,AI訓練場景下支援FP32和FP16,模型推理階段支援FP16和INT8。

稀疏算力和稠密算力
稀疏算力和稠密算力用於描述計算資源的利用程度。在實際場景中,稀疏算力和稠密算力存在互補關係與轉換關係。
• 稠密算力:指的是在計算過程中,資料點之間的管理都較高,需要處理大量連續的資料。通常用於需要密集型計算的任務,如影像處理、影片編碼、大規模數值模擬等
• 稀疏算力:指在計算過程中,資料點之間的關聯度較低,資料分佈稀疏。這種算力常用於處理稀疏矩陣或者稀疏資料集,如社交網路分析、推薦系統、基因序列分析等。

2、AI晶片架構與引數
AI晶片通常採用GPU與ASIC架構
目前通用的CPU、GPU、FPGA等都能執行AI演算法,只是執行效率差異較大。但狹義上講一般將AI晶片定義為“專門針對AI演算法做了特殊加速設計的晶片”。AI晶片可以分為GPU、FPGA和ASIC架構,根據場景可以分為雲端和端側。和其他晶片相比,AI晶片重點增強了執行AI演算法的能力。
目前主流AI晶片為GPU和ASIC。國際上,Nvidia的H200 Tensor Core GPU以其卓越的計算效能和能效比領先市場,而Google的第六代TPU Trillium ASIC晶片則以其專為機器學習最佳化的設計提供高速資料處理。在國內,寒武紀的思元370晶片(ASIC)憑藉其先進的計算處理能力在智慧計算領域佔據重要地位,已與主流網際網路廠商開展深入適配; 海光資訊的DCU系列基於GPGPU架構,以其類“CUDA”通用平行計算架構較好地適配、適應國際主流商業計算軟體和AI軟體。

Tensor Core是增強AI計算的核心,能更好的處理矩陣乘運算
Tensor Core是用於加速深度學習計算的關鍵技術,其主要功能是執行深度神經網路中的矩陣乘法和卷積計算。
與傳統CUDA Core相比,Tensor Core在每個時鐘週期能執行多達4x4x4的GEMM運算,相當於同時進行64個浮點乘法累加(FMA)運算。其計算原理是採用半精度(FP16)作為輸入和輸出(矩陣Ax矩陣B),並利用全精度(矩陣C)進行儲存中間結果計算,以確保計算精度的同時最大限度地提高計算效率。


GPU在運算及並行任務處理能力上具有顯著優勢
圖片處理器GPU又稱顯示核心、視覺處理器、顯示晶片,是一種專門在個人電腦、工作站、遊戲機和一些移動裝置(如平板電腦、智慧手機等)上做影像運算工作的微處理器,是顯示卡或GPU卡的“心臟”。
CPU和GPU在架構組成上都包括3個部分:運算單元(ALU)、控制單元(Control)、快取單元(Cache)。從結構上看,在CPU中,快取單元佔50%,控制單元佔25%,運算單元佔25%;然而在GPU中,運算單元佔90%比重,快取、控制各佔5%;由此可見,CPU運算能力更加均衡,GPU更適合做大量運算。GPU透過將複雜的數學任務拆解成簡單的小任務,並利用其多流處理器來並行處理,從而高效地執行圖形渲染、數值分析和AI推理。

GPU核心分類及CUDA Core結構特點
常GPU核心可分為三種:CUDA Core、Tensor Core、RTCore。每個CUDA核心含有一個ALU(整數單元)和一個浮點單元,並且提供了對於單精度和雙精度浮點數的FMA指令。
如果將GPU處理器比作玩具工廠,CUDA核心就是其中的流水線。流水線越多,生產的玩具就越多,雖然“玩具工廠”的效能可能會越好,但也受限於每個流水線的生產效率、生產裝置的架構、生產儲存資源能力等。反應在GPU上,還需考慮顯示卡架構、時鐘速度、記憶體頻寬、記憶體速度、VRAM等因素。

Nvidia AI晶片的技術演進
Nvidia的AI晶片在過去八年中實現了顯著的技術進步。從“Pascal” P100 GPU到“Blackwell” B100 GPU,效能提升了1053倍。透過降低浮點精度(從FP16到FP4),實現了更高效的計算,同時每單位能耗顯著下降,從P100的17000焦耳/token降低到B100的0.4焦耳/token。儘管GPU價格上漲了約7.5倍,但效能的大幅提升使得其在十天內訓練1.8萬億引數的大模型成為可能。

ASIC–AI晶片: TPU佈局及效能對比
TPU(張量處理單元)屬於ASIC的一種,是谷歌專門為加速深層神經網路運算能力而研發的一款晶片,為機器學習領域而定製。TPUv1依賴於透過PCle(高速序列匯流排)介面與主機進行通訊;它還可以直接訪問自己的DDR3儲存。

矩陣乘法單元:256 x 256大小的矩陣乘法單元,頂部輸入256個權重值,左側是256個input值。
DDR3 DRAM/Weight FIFO:權重儲存透過DDR3-2133介面連線到TPUv1的DDR3 RAM晶片中,權重透過PCle從主機的記憶體預載入,然後傳輸到權重FIFO儲存器中,供矩陣乘法單元使用。
統一快取區/脈動資料設定:應用啟用函式的結果儲存在統一緩衝區儲存器中,然後作為輸入反饋矩陣乘法單元,以計算下一層所需的值。
PU的運算資源包括:
• 矩陣乘法單元(MXU):65536個8位乘法和加法單元,執行矩陣計算。
• 統一緩衝(UB): 作為暫存器工作的24MB容量 SRAM。
• 啟用單元(AU): 硬體連線的啟用函式。
TPU的設計封裝了神經網路計算的本質,可以針對各種神經網路模型進行程式設計。此外,Google建立了編譯器和軟體棧,可以將來自TensorFlow的影像的API呼叫轉換成TPU指令。

與CPU和GPU相比,TPU控制單元更小,給予儲存器和運算單元留下了更大的空間。與傳統CPU、GPU架構不同,TPU的MXU設計採用了脈動陣列(systolic array)架構,資料流動呈現出週期性的脈衝模式,類似於心臟跳動的供血方式。
相關閱讀:
-
海思昇騰920晶片解析:達芬奇架構進化與AI算力躍遷 -
昇騰910 AI晶片技術全面概述 -
乾貨收藏:GPU引數詳解與主流產品對比分析 -
寒武紀AI晶片分析報告 -
智算中心網路常見組網拓撲分析 -
中國智算中心:佈局、分佈與發展態勢 -
SSD快閃記憶體技術基礎知識全解(終極版) -
昇騰310晶片引數及技術概述 -
InfiniBand,撼動不了乙太網? -
InfiniBand高效能網路設計概述 -
面向E級計算的4款高效能處理器概述 -
基於鯤鵬處理器的高效能計算實踐 -
高效能計算關鍵元件核心知識 -
一文全解高效能製造模擬技術 -
高效能計算:RoCE技術分析及應用 -
高效能計算:談談被忽視的國之重器 -
高效能計算:RoCE v2 vs. InfiniBand網路該怎麼選? -
高效能網路全面向RDMA進軍



免責申明:本號聚焦相關技術分享,內容觀點不代表本號立場,可追溯內容均註明來源,釋出文章若存在版權等問題,請留言聯絡刪除,謝謝。
推薦閱讀
更多架構相關技術知識總結請參考“架構師全店鋪技術資料打包(全)”相關電子書(46本技術資料打包彙總詳情可透過“閱讀原文”獲取)。
溫馨提示:
掃描二維碼關注公眾號,點選閱讀原文連結獲取“架構師技術全店資料打包彙總(全)”電子書資料詳情。

