華為昇騰910D晶片：中外AI晶片橫縱對比，從技術封鎖到生態突圍

提醒：更新下載，已領請忽略！

《伺服器基礎知識全解終極版（第二版)》（含PPT和PDF）完成更新，請購買過“伺服器基礎知識全解（終極版）”和“架構師技術全店資料打包彙總(全)”的讀者，請在微店留言獲免費取更新。

伺服器基礎知識全解終極版（第二版)（共227頁），內容圖文並茂，由淺入深，介紹全面，是世面罕見的伺服器學習資料，內包括伺服器基礎知識、CPU、記憶體、GPU、硬碟、智慧網絡卡等9個章節。本次主要更新內容：

1、CPU更新（Intel/AMD架構演進，國產CPU架構）
2、GPU更新（英偉達GPU架構，從Fermi到Hopper，Rubin Ultra）
3、記憶體技術、操作系統、儲存技術等更新
4、已知問題修正
5、更新內容40+頁PPT

—————— 正文開始 ——————

在人工智慧晶片領域，華為昇騰910D晶片的問世備受矚目。作為昇騰系列的新成員，昇騰910D在技術和引數方面展現出諸多獨特優勢，無論是與910其他規格晶片橫向對比，還是與國產同類晶片以及國外主流產品較量，都有著可圈可點之處。

一、昇騰910D對比910晶片的優勢

（一）架構與計算能力升級

昇騰910D採用了最佳化後的自研架構，相比早期的昇騰910B，在架構層面進行了深度改良。例如，透過精簡約30%的冗餘電路，讓晶片的運算效率大幅提升，半精度算力達到320 TFLOPS。而昇騰910B的半精度算力遠低於這一數值，使得昇騰910D在處理大規模矩陣運算、複雜神經網路模型訓練時，能夠更加高效快速地完成任務。

（二）先進的散熱與功耗管理

昇騰910D搭載了先進的液冷散熱技術，支援晶片在45℃高溫下仍能全速執行，功耗卻僅為350W。反觀昇騰910C，可能在散熱技術上相對傳統，導致其在高負載執行時溫度升高，影響晶片效能發揮，且功耗較高。

（三）叢集互聯效能提升

昇騰910D每秒能搬運4TB資料，實現晶片間的高速通訊，使得多晶片並聯組成的叢集算力密度提升5倍。相比之下，昇騰910其他規格晶片在叢集協作時，資料傳輸速度和協同效率較低。這種強大的叢集互聯效能，讓昇騰910D在支撐大型AI叢集運算，如文心一言這樣的大語言模型訓練時，能顯著縮短訓練週期，提高模型迭代速度。

二、昇騰910D對比國產同類晶片分析

1、寒武紀思元370

算力：思元370最大算力高達256TOPS（INT8）。昇騰910D目標效能引數對標NVIDIA H100的2000 BF16 TFLOPS，在半精度算力上優於思元370。
晶片架構：思元370採用MLUarch03架構，昇騰910D則基於自研昇騰架構。
生態系統：寒武紀有自己的軟體生態體系，支援主流深度學習框架。華為昇騰有MindSpore框架，與昇騰晶片深度繫結。

2、燧原科技雲燧T10

算力與應用場景：雲燧T10適用於雲端推理場景，提供低延遲、高能效的推理服務。昇騰910D專注於大模型訓練與高效推理場景，在大規模資料處理和複雜模型訓練方面更具優勢。
硬體架構：燧原科技有自己獨特的晶片架構設計，而昇騰910D採用多晶片整合（chiplet）技術，透過最佳化計算單元和互聯架構提升效能。
生態系統：燧原科技構建了配套的軟體系統，昇騰910D所在的昇騰系列也有更廣泛的合作生態。

3、崑崙芯AI加速卡R200

算力效能：崑崙芯AI加速卡R200基於崑崙芯2代AI晶片，專為深度學習、機器學習演算法的雲端和邊緣端計算設計。昇騰910D在算力規模和針對大模型訓練的最佳化上更為突出。
生態適配：崑崙芯適用於多種主流框架和演算法模型，昇騰910D僅有MindSpore框架和最佳化，在華為生態及相關合作場景中會有優勢。

4、天數智芯天垓100 GPGPU

通用計算能力：天垓100 GPGPU可適配主流CPU晶片/伺服器廠商，支援國內外主流軟硬體生態和各種深度學習框架等。
效能特點：天垓100在通用計算方面表現良好，昇騰910D則在AI大模型訓練和推理的特定效能指標上有更高的追求。

5、摩爾線程MTT S4000

效能與功耗：單張MTT S4000效能不到昇騰910B的1/3，功耗還更高。昇騰910D在效能和能效比上相對更優。
應用場景與生態：MTT S4000主要用於摩爾線程智算中心全棧解決方案，支援CUDA零成本轉譯。昇騰910D依託華為生態，在智慧駕駛、醫療影像分析等領域有深入應用。

6、壁仞科技BR106B/BR106C

功耗與效能：BR106B峰值功耗300W，BR106C峰值功耗150W。昇騰910D透過先進封裝與液冷散熱技術，在高算力下的功耗控制更優，且效能目標更高。
技術特點：壁仞科技基於自研的Blink技術，實現卡間高速互聯。昇騰910D也在叢集互聯能力上有大幅提升，每秒能搬運4TB資料，實現晶片間的高速通訊。

7、阿里平頭哥倚天710

應用場景：倚天710採用5nm工藝，主要用於阿里雲資料中心，是業界效能最強的ARM伺服器晶片。昇騰910D專注於AI領域的大模型訓練與推理，應用場景更聚焦。
晶片功能：倚天710在伺服器計算方面有優勢，昇騰910D在AI計算的專業能力上更為突出，擁有專為AI演算法最佳化的架構和計算單元。

8、海光K100 AI版

算力精度：海光K100 AI版在FP32模式下峰值算力為49T，在BF16/FP16模式下峰值算力為192T。昇騰910D的半精度算力目標對標NVIDIA H100，高於海光K100 AI版。
生態系統：海光DCU的DTK軟體棧相容CUDA等生態，昇騰910D有MindSpore框架及相關最佳化生態，兩者在生態建設上各有特點。

三、昇騰910D對比國外主流產品的優勢

（一）效能引數優勢

以英偉達H100為例，昇騰910D在多個性能引數上實現超越。昇騰910D半精度算力達320 TFLOPS，較H100的256 TFLOPS提升25% ；功耗僅350W，較H100的700W降低50% 。在叢集方案上，昇騰910D透過5塊晶片並聯形成“超級計算機”，算力密度提升5倍，在文心一言訓練中縮短週期27% ，自動駕駛模型迭代速度提升1.8倍，展現出強大的計算實力和高效的運算能力，打破了國外主流產品在效能上的領先局面。

（二）成本優勢

昇騰910D在成本方面具備顯著優勢，其單價約14.5萬元，較英偉達H100的24萬元降低40% 。此外，昇騰910D採用的液冷系統採購成本較傳統風冷降低20% 。對於大規模採購晶片用於資料中心建設和AI業務開展的企業來說，昇騰910D能夠在保證高效能的同時，大幅降低硬體採購成本和後期運營成本，提高企業的經濟效益，增強市場競爭力。

（三）本土最佳化與適應性

昇騰910D針對中文NLP任務進行了專門最佳化，文言文翻譯準確率比H100高12% 。在國內的應用環境中，對中文語言處理的最佳化使昇騰910D更貼合本土企業和使用者的需求，在處理中文文字相關的AI任務，如智慧客服、文字生成、語言翻譯等方面，能夠提供更精準高效的服務。同時，在面對國內複雜的網路環境和資料安全要求時，昇騰910D基於國內供應鏈和技術體系，能更好地滿足資料安全和本地化部署的需求。

（四）910D與國外AI晶片能力對比

1、英偉達H100

算力：英偉達H100的BF16算力約為2000 TFLOPS。昇騰910D目標效能引數對標英偉達H100的2000 BF16 TFLOPS，從單晶片效能來看可能落後於英偉達的Blackwell B200和Blackwell Ultra B300 GPU，但華為透過CloudMatrix 384超節點技術，可讓昇騰910D在與基於英偉達當前Blackwell及未來Rubin架構GPU的計算單元競爭中佔據一席之地。
晶片架構：H100基於Hopper架構，在大規模平行計算和深度學習方面有優勢。昇騰910D採用多晶片整合（chiplet）技術，透過最佳化計算單元和互聯架構，減少訊號傳輸延遲。
生態系統：英偉達的CUDA生態已經統治了全球90%的AI開發者，生態系統成熟且完善。華為的昇騰生態仍在構建之中，不過華為聯合DeepSeek等開源大模型企業，透過演算法最佳化降低對硬體製程的依賴，並且昇思MindSpore框架也在不斷發展完善。

2、英偉達A100

算力：A100的效能在當時也是非常強大的，適用於大規模AI訓練與推理，但具體算力指標與昇騰910D的目標對標H100的2000 BF16 TFLOPS有所不同。
晶片架構：基於Ampere架構，在深度學習演算法上有最佳化。昇騰910D的架構則是針對大模型訓練與高效推理場景進行了專門設計，採用多層堆疊封裝技術等以提升能效比。
生態系統：同樣依託CUDA生態，軟體支援和開發者社群龐大。昇騰910D所在的昇騰生態在不斷發展，透過與國內企業和科研機構合作，拓展應用場景和軟體適配。

3、AMD Instinct MI300系列

算力與架構：首款CPU+GPU異構晶片，專為生成式AI和高效能計算最佳化，在HBM視訊記憶體容量等方面有優勢。昇騰910D專注於AI領域的大模型訓練與推理，採用自研昇騰架構，透過最佳化計算單元和互聯架構提升效能。
生態系統：AMD不斷完善其軟體生態，以挑戰英偉達在資料中心市場的地位。昇騰910D有昇思MindSpore框架及相關最佳化生態，在國內資料中心等場景的部署有一定優勢。

4、英特爾Habana Gaudi2

算力：針對AI訓練的ASIC晶片，對標英偉達A100，在深度學習訓練任務上有不錯的表現。昇騰910D目標對標英偉達H100，在算力規模和效能最佳化方向上有所不同。
架構特點：採用獨特的架構設計，優化了AI訓練中的計算流程。昇騰910D採用多晶片整合和多層堆疊封裝技術，結合液冷散熱系統，提升能效比和穩定性。
生態系統：英特爾構建了相應的軟體生態來支援晶片的應用。昇騰910D所在的昇騰生態透過與國內企業合作，在智慧駕駛、醫療影像分析等領域有深入應用。

5、谷歌TPU v4

算力與應用：專用ASIC晶片，擅長大規模矩陣運算，主要支撐Google Cloud AI服務。昇騰910D面向大模型訓練與高效推理場景，在中國的三大電信運營商、網際網路頭部企業的資料中心有規模化部署。
架構特性：採用專門的架構來加速矩陣運算和深度學習演算法。昇騰910D基於自研昇騰架構，透過最佳化計算單元和互聯架構，實現高效能和低延遲。

6、Cerebras Systems Wafer Scale Engine（WSE-3）

算力：基於整片晶圓的超大晶片，算力達百億億次級別，專攻大模型訓練。昇騰910D目標效能對標英偉達H100，透過多晶片整合和最佳化架構來提升算力。
架構與應用：其架構專為大模型訓練設計，有獨特的計算單元和互聯方式。昇騰910D透過CloudMatrix 384超節點技術等，構建大規模計算單元，適用於大模型訓練和多種AI應用場景。

7、Graphcore Bow IPU

架構特點：採用3D封裝技術，專為大規模平行計算設計，適合推薦系統與NLP任務。昇騰910D採用多層堆疊封裝技術，最佳化計算單元和互聯架構，適用於大模型訓練和推理等多種AI場景。
生態與應用：在歐洲及一些特定領域有應用，構建了相應的軟體生態。昇騰910D在中國市場有廣泛應用，透過昇思MindSpore框架和生態合作，在智慧駕駛、醫療影像分析等領域有優勢。

8、Tenstorrent Grayskull/Elden

架構特性：基於RISC – V架構的可擴充套件AI晶片，支援動態資料流處理。昇騰910D基於自研昇騰架構，採用多晶片整合和最佳化的互聯架構，以滿足大模型訓練和推理的高效能需求。
應用場景：在一些AI應用場景中提供計算支援。昇騰910D專注於大模型訓練與高效推理，在中國的資料中心、智慧駕駛等領域有明確的應用方向和優勢。

華為昇騰910D晶片憑藉在技術優勢，在AI晶片領域嶄露頭角。無論是與同系列晶片對比，還是在國產同類晶片以及國外主流產品的競爭中，都有望推動我國乃至全球AI產業的發展與變革。

相關閱讀：