

提醒:已領讀者請忽略!
資料中心4件套姊妹篇已全部發布:可購買“架構師技術全店資料打包彙總(全)”,或單獨購買《伺服器基礎知識全解(終極版 第二版)》、《儲存系統基礎知識全解(終極版)》,《SSD快閃記憶體技術基礎知識全解(終極版)》和《資料中心網路基礎知識全解(精編版)》獲取完整版。
之前購買過“架構師技術全店資料打包彙總(全)(已更新至48本)”的讀者免費發放全店更新(請在發貨的彙總連結下載),或請憑藉購買記錄在微店留言獲取(PDF閱讀版本)。
本文將對GPU行業進行分析,從概念入手,對GPU具備的優勢、核心功能、行業發展歷程、市場情況等方面展開具體論述,同時,將針對GPU產業鏈、重點佈局企業及競爭格局進行分析,希望對大家瞭解GPU行業有所啟發。
一、行業概述
1、GPU定義
GPU一般指圖形處理器(graphics processing unit,縮寫GPU),又稱顯示核心、視覺處理器、顯示晶片,是一種專門在個人電腦、工作站、遊戲機和一些移動裝置(如平板電腦、智慧手機等)上做影像和圖形相關運算工作的微處理器。
GPU是顯示卡的處理器。顯示卡全稱顯示適配卡,又稱顯示介面卡,用於協助CPU進行影像處理,作用是將CPU送來的影像訊號經過處理再輸送到顯示器上,由主機板連線裝置、監視器連線裝置、處理器和記憶體組成,GPU即是顯示卡處理器。

2、GPU在並行運算層面具備一定優勢
當前主要興起的計算晶片分別為GPU、ASIC、FPGA等,其中GPU最初專用於圖形處理製作,後逐漸應用於計算。GPU的工作通俗的來說就是完成3D圖形的生成,將圖形對映到相應的畫素點上,對每個畫素進行計算確定最終顏色並完成輸出,一般分為頂點處理、光柵化計算、紋理貼圖、畫素處理、輸出五個步驟。

GPU內部大量的運算單元核心,儘管單個核心快取較小,邏輯功能簡單,僅能執行有限型別的邏輯運算操作,但其多核心架構天然適合執行復雜的數學和幾何計算,且科學計算領域通用性較高,相比CPU,綜合性能更好。當前缺點在於功耗過高,效率不足。

3、GPU按應用端細分
GPU按應用端劃分為PCGPU、伺服器GPU、智慧駕駛GPU、移動端GPU。
PCGPU可以進一步劃分為獨立顯示卡和整合顯示卡。獨立顯示卡是一種與處理器(CPU)分離的GPU,具備的專用記憶體,不與CPU共享,擁有自己的記憶體源和電源,因此效能更高,功率更大,產生熱量更多。整合顯示卡是一種內置於處理器的GPU。整合GPU使用與CPU共享系統記憶體,由於整合顯示卡內置於處理器中,效能較低,因此通常功耗更低,產生的熱量更少。

伺服器GPU通常應用在深度學習、科學計算、影片編解碼等多種場景,主要的廠商包括英偉達和AMD,英偉達占主導地位。
自動駕駛GPU通常用於自動駕駛演算法的車端AI推理,英偉達佔據主導地位。
4、GPU的核心功能
(1)圖形渲染
GPU憑藉其較強的平行計算能力,已經成為個人電腦中影像渲染的專用處理器。圖形渲染具體實現要透過五階段:頂點著色、形狀裝配、光柵化、紋理填充著色、測試與混合。

(2)通用計算
2003年,GPGPU(General Purpose computing on GPU,基於GPU的通用計算)的概念首次被提出,意指利用GPU的計算能力在非圖形處理領域進行更通用、更廣泛的科學計算。
GPGPU在資料中心被廣泛地應用在人工智慧和高效能計算、資料分析等領域。GPGPU的並行處理結構非常適合人工智慧計算,人工智慧計算精度需求往往不高,INT8、FP16、FP32往往可以滿足大部分人工智慧計算。GPGPU同時可以提供FP64的高精度計算,使得GPGPU適合訊號處理、三維醫學成像、雷達成像等高效能計算場景。

5、GPU中常見的資料格式和應用場景
計算機中常用的資料格式包括定點表示和浮點表示。定點表示中小數點位置固定不變,數值範圍相對有限,GPU中常用的定點表示有INT8和INT16,多用於深度學習的推理過程。浮點表示中包括符號位、階碼部分、尾數部分。符號位決定數值正負,階碼部分決定數值表示範圍,尾數部分決定數值表示精度。FP64(雙精度)、FP32(單精度)、FP16(半精度)的數值表示範圍和表示精度依次下降,運算效率依次提升。
除此以外還有TF32、BF16等其他浮點表示,保留了階碼部分但是截斷了尾數部分,犧牲數值精度換取較大的數值表示範圍,同時獲得運算效率的提升,在深度學習中得到廣泛應用。

6、應用程式介面是GPU和應用軟體的連線橋樑
GPU應用程式介面(API):API是連線GPU硬體與應用程式的程式設計介面,有利於高效執行圖形的頂點處理、畫素著色等渲染功能。早期由於缺乏通用介面標準,只能針對特定平臺的特定硬體程式設計,工作量極大。隨著API的誕生以及系統最佳化的深入,GPU的API可以直接統籌管理高階語言、顯示卡驅動及底層的組合語言,提高開發過程的效率和靈活性。

7、CUDA架構實現了GPU平行計算的通用化
GPGPU相比於CPU,其平行計算能力更強,但是通用靈活性相對較差,程式設計難度相對較高。在CUDA出現之前,需要將平行計算對映到圖形API中從而在GPU中完成計算。
CUDA大幅降低GPGPU平行計算的程式設計難度,實現GPU的通用化。CUDA是英偉達2007年推出的適用於平行計算的統一計算裝置架構,該架構可以利用GPU來解決商業、工業以及科學方面的複雜計算問題。

CUDA採用了一種全新的計算體系結構來調動GPU提供的硬體資源,本質上是應用程式和GPU硬體資源之間的介面。CUDA程式組成包括CUDA庫、應用程式程式設計介面(API)及執行庫(Runtime)、高級別的通用數學庫。
CUDA提供了對其它程式語言的支援,如C/C++,Python,Fortran等語言。CUDA支援Windows、Linux、Mac各類作業系統。

2010年英偉達釋出了全新GPU架構Fermi,其是支援CUDA的第三代GPU架構(第一代與第二代分別是G80架構與GT200架構)。隨後在2012、2014年陸續釋出的Kepler架構、Maxwell架構中,儘管英偉達並未在硬體層面對AI計算做特定最佳化,但在軟體層面卻引入了深度神經網路加速庫cuDNN v1.0,使英偉達GPU的AI計算效能與易用性得到提升。
Pascal架構釋出,AI計算專精版本到來:Pascal架構在2016年3月被推出,是英偉達面向AI計算場景釋出的第一版架構。
8、細分場景不斷追趕,GPU迎來高速發展期
繼Pascal架構後,面對Google TPU在AI計算層面帶來的壓力,英偉達先後更新了Volta(2017)、Turing(2018)、Ampere(2020)架構。AI計算領域的技術代差在Volta架構透過引入第一代Tensor Core在訓練場景進行了拉平,隨後Turing架構的第二代Tensor Core在推理場景上進行了拉平,直到Ampere時代,NV才算再次鞏固了自己在AI計算領域的龍頭地位。雙方激烈競爭下,GPU迎來高速發展期。

二、影響GPU效能的關鍵因素
1、微架構設計是GPU效能提升的關鍵所在
評估GPU物理效能的引數主要包括:微架構、製程、圖形處理器數量、流處理器數量、視訊記憶體容量/位寬/頻寬/頻率、核心頻率。其中微架構設計是GPU效能提升的關鍵所在。
GPU微架構(MicroArchitecture)是相容特定指令集的物理電路構成,由流處理器、紋理對映單元、光柵化處理單元、光線追蹤核心、張量核心、快取等部件共同組成。圖形渲染過程中的圖形函式主要用於繪製各種圖形及畫素、實現光影處理、3D座標變換等過程,期間涉及大量同類型資料(如影像矩陣)的密集、獨立的數值計算,而GPU結構中眾多重複的計算單元就是為適應於此類特點的資料運算而設計的。
微架構的設計對GPU效能的提升發揮著至關重要的作用,也是GPU研發過程中最關鍵的技術壁壘。微架構設計影響到晶片的最高頻率、一定頻率下的運算能力、一定工藝下的能耗水平,是晶片設計的靈魂所在。英偉達H100相比於A100,1.2倍的效能提升來自於核心數目的提升,5.2倍的效能提升來自於微架構的設計。

2、GPU微架構的硬體構成
流處理器:是GPU內基本運算單元,通常由整點運算部分和浮點運算部分共同組成,稱為SP單元,從程式設計角度出發,也將其稱為CUDA核心。
紋理對映單元:作為GPU中的獨立部件,能夠旋轉、調整和扭曲點陣圖影像(執行紋理取樣),將紋理資訊填充在給定3D模型上。
光柵化處理單元:依照透視關係,將整個可視空間從三維立體形態壓到二維平面內。流處理器和紋理對映單元分別把渲染好的畫素資訊和剪裁好的紋理材質遞交給處於GPU後端的光柵化處理單元,將二者混合填充為最終畫面輸出,此外遊戲中霧化、景深、動態模糊和抗鋸齒等後處理特效也是由光柵化處理單元完成的。

光線追蹤核心:是一種補充性的渲染技術,主要透過計算光和渲染物體之間的反應得到正確的反射、折射、陰影即全域性照明等結果,渲染出逼真的模擬場景和場景內物件的光照情況。
張量核心:張量核心可以提升GPU的渲染效果同時增強AI計算能力。張量核心透過深度學習超級取樣(DLSS)提高渲染的清晰度、解析度和遊戲幀速率,同時對渲染畫面進行降噪處理以即時清理和校正光線追蹤核心渲染的畫面,提升整體渲染效果。

三、市場分析
1、GPU市場規模及預測
根據Verified Market Research的預測,2020年GPU全球市場規模為254億美金,預計到2028年將達到2465億美金,行業保持高速增長,CAGR為32.9%,2023年GPU全球市場規模預計為595億美元。

2、PC顯示卡市場
2022年獨立顯示卡出貨遭遇巨大下滑的原因有三點:(1)受宏觀經濟影響,個人電腦市場處於下行週期;(2)部分獨立GPU參與虛擬貨幣挖礦,以太坊合併對獨立GPU出貨造成巨大沖擊;(3)下游板卡廠商開啟降庫存週期。
3、GPU在資料中心的應用蘊藏巨大潛力
在資料中心,GPU被廣泛應用於人工智慧的訓練、推理、高效能計算(HPC)等領域。
預訓練大模型帶來的算力需求驅動人工智慧伺服器市場快速增長。巨量化是人工智慧近年來發展的重要趨勢,巨量化的核心特點是模型引數多,訓練資料量大。
戰略需求推動GPU在高效能計算領域穩定增長。高效能計算(HPC)提供了強大的超高浮點計算能力,可滿足計算密集型、海量資料處理等業務的計算需求,如科學研究、氣象預報、計算模擬、軍事研究、生物製藥、基因測序等。

4、AI伺服器是GPU市場規模增長的重要支撐
根據Omdia資料,2019年全球人工智慧伺服器市場規模為23億美金,2026年將達到376億美金,CAGR為49%。根據IDC資料,2020年中國資料中心用於AI推理的晶片的市場份額已經超過50%,預計到2025年,用於AI推理的工作負載的晶片將達到60.8%。
人工智慧伺服器通常選用CPU與加速晶片組合來滿足高算力要求,常用的加速晶片有GPU、現場可程式設計門陣列(FPGA)、專用積體電路(ASIC)、神經擬態晶片(NPU)等。

北美雲廠商資本開支有所放緩。人工智慧伺服器多采取公有云、私有云加本地部署的混合架構,以北美四家雲廠商資本開支情況來跟蹤人工智慧伺服器市場需求變動,2022年四家雲廠商資本開支合計1511億美元,同比增長18.5%。
5、GPU在超算伺服器中的市場規模保持穩定增長
GPGPU在高效能計算領域滲透率不斷提升。在高效能計算領域,CPU+GPU異構協同計算架構得到越來越多的應用,全球算力前500的超級計算機中,有170套系統採用了異構協同計算架構,其中超過90%以上的加速晶片選擇了英偉達的GPGPU晶片。
GPU在超算伺服器中的市場規模保持穩定增長。根據Hyperion Research資料,全球超算伺服器的市場規模將從2020年的135億美金上升到2025年的199億美金,按照GPU在超算伺服器中成本佔比為27.3%核算,GPU在超算伺服器中的市場規模將從2020年的37億上升至2025年的54億美金,CAGR為8%。

四、產業鏈及競爭格局分析
1、GPU產業鏈
GPU行業的產業鏈主要涉及三個環節:設計、製造、封裝。供給模式有IDM、Fab+Fabless和Foundry三種。

2、競爭格局
全球GPU市場中,基本被Nvidia、Intel和AMD三家壟斷。據JPR統計,全球PC GPU在2022年Q2出貨量達到8400萬臺,同比下降34%,預計2022-2026年GPU複合增長率為3.8%。從市場格局來看,Nvidia、Intel和AMD三家在2022年Q2市場佔有率分別為18%、62%和20%,Intel憑藉其整合顯示卡在桌面端的優勢佔據最大的市場份額。

獨顯市場中,Nvidia佔據領先地位。不同於整體市場,在獨顯市場中,Nvidia與AMD雙雄壟斷市場,其2022年Q2市佔率分別約為80%和20%,可以看到近年來Nvidia不斷鞏固自己的優勢,其獨立顯示卡市佔率整體呈現上升趨勢。

國內市場來看,國產GPU賽道持續景氣。近年來,國產GPU公司如雨後春筍般湧現,璧韌科技、摩爾線程、芯動科技、天數智慧等公司紛紛釋出新品。但是IP授權來看,國內主要的GPU創業公司,如芯動、摩爾線程、壁仞等採用的是Imagination IP或芯原授權的IP。
Imagination是一家總部位於英國,致力於打造半導體和軟體智慧財產權(IP)的公司。公司的圖形、計算、視覺和人工智慧以及連線技術可以實現出眾的PPA(功耗、效能和麵積)指標、強大的安全性、快速的上市時間和更低的總體擁有成本(TCO)。2017年9月,私募投資公司Canyon Bridge以5.5億英鎊收購Imagination,Canyon Bridge其背後投資方為中國國新。


3、美國對華禁令如何應對
為應對封鎖,短期來看可以選擇英偉達和AMD的還沒有被禁止的中低效能GPU晶片。對於雲端計算,算力既可以透過產品升級得以提升,也可以透過增加計算卡的數量進行提升,因此短期內可以透過使用多個算力較低的CPU、GPU和ASIC晶片來複制高階GPU晶片的處理能力,基本可以滿足雲端訓練和高效能計算的要求。長期來看,選擇國產GPU進行替代。雖然晶片是算力的主要來源和最根本的物質基礎,但是算力的生產、聚合、排程和釋放是一個完整過程,需要複雜系統的軟硬體生態共同配合,才能實現“有效算力”。因此短期內可能會因為無法相容在人工智慧領域廣泛使用的CUDA架構而遭遇替換困難,但是長期來看,國產CPU、通用GPU、AI晶片將獲得前所未有的發展機會,透過軟硬體技術提升,逐步實現高階GPU領域的國產化替代。
參考來源:慧博資訊
-
海思昇騰920晶片解析:達芬奇架構進化與AI算力躍遷 -
昇騰910 AI晶片技術全面概述 -
乾貨收藏:GPU引數詳解與主流產品對比分析 -
寒武紀AI晶片分析報告 -
智算中心網路常見組網拓撲分析 -
中國智算中心:佈局、分佈與發展態勢 -
SSD快閃記憶體技術基礎知識全解(終極版) -
昇騰310晶片引數及技術概述 -
InfiniBand,撼動不了乙太網? -
InfiniBand高效能網路設計概述 -
面向E級計算的4款高效能處理器概述 -
基於鯤鵬處理器的高效能計算實踐 -
高效能計算關鍵元件核心知識 -
一文全解高效能製造模擬技術 -
高效能計算:RoCE技術分析及應用 -
高效能計算:談談被忽視的國之重器 -
高效能計算:RoCE v2 vs. InfiniBand網路該怎麼選? -
高效能網路全面向RDMA進軍



溫馨提示:
掃描二維碼關注公眾號,點選閱讀原文連結獲取“架構師技術全店資料打包彙總(全)”電子書資料詳情。

