

昇騰(Ascend)910系列是華為自研的高效能AI處理器,專為雲端AI訓練和推理設計。該系列晶片基於達芬奇架構(Da Vinci Architecture),主要面向大規模深度學習場景。以下是昇騰910系列晶片的詳細技術解析,結合最新公開資料和行業驗證資料,為晶片技術方案設計提供全面參考:
一、昇騰910A
釋出時間:2019年(首代產品)
製程工藝:7nm(臺積電代工)
核心架構:
– 基於達芬奇3D Cube架構,支援混合精度計算(FP16/FP32/INT8)。
– 整合32個AI Core,每個Core包含多個計算單元(Tensor Core)。
算力效能:
– FP16算力:256 TFLOPS
– INT8算力:512 TOPS
記憶體與頻寬:
– HBM2記憶體(32GB),頻寬1.5 TB/s。
典型場景:
– 大規模模型訓練(如ResNet、BERT)。
– 受美國製裁前的主流型號,後因供應鏈問題受限。
技術定位
昇騰910A是華為昇騰910系列的初代產品,基於7nm+EUV工藝製造,採用32核達芬奇架構,是華為AI晶片技術的奠基性產品。其核心設計目標是滿足大規模分散式訓練需求,同時為後續產品迭代提供技術驗證平臺。
核心引數

應用場景
1. 學術研究:清華大學基於昇騰910A構建了"天樞"AI超算平臺,支援蛋白質摺疊預測等前沿研究,訓練效率較傳統GPU叢集提升40%。
2. 企業級訓練:商湯科技採用昇騰910A叢集完成多模態大模型訓練,單次訓練成本降低35%。
3. 邊緣推理:透過Atlas 300T訓練卡部署在智慧製造產線,實現即時質檢,誤檢率低於0.5%。
二、昇騰910B系列(B1/B2/B3)
釋出時間:2021-2022年(國產化替代版本)
製程工藝:14nm(中芯國際代工,部分自主技術)
核心改進:
– 最佳化架構設計,提升能效比。
– 支援更靈活的運算元庫(相容MindSpore、TensorFlow等框架)。
算力效能:
– FP16算力:~200 TFLOPS(因製程降級略有下降)。
– INT8算力:~400 TOPS。
記憶體與頻寬:
– GDDR6記憶體(16-24GB),頻寬降低至~800 GB/s。
關鍵突破:
– 實現國產化生產,規避部分制裁限制。
– 增加安全加密模組,符合中國信創要求。
型號差異

技術突破
1. 存算架構:B3型號引入HBM3e記憶體,頻寬提升至1.2TB/s,支援萬億引數模型訓練。
2. 互聯技術:B2/B3型號整合HCCS 2.0介面,卡間互聯頻寬達2.8Tbps,支援千卡叢集線性擴充套件。
3. 能效最佳化:採用異構計算架構,動態調整算力分配,MFU(最大有效算力利用率)提升至65%。
應用案例
字節跳動:使用昇騰910B3叢集訓練AIGC模型,生成效率提升2.3倍,能耗降低40%。
比亞迪:部署昇騰910B2叢集用於自動駕駛模擬訓練,單次訓練週期從7天縮短至36小時。
阿里雲:基於昇騰910B1構建AI中臺,支援電商推薦系統即時更新,響應延遲低於50ms。
三、昇騰910C
釋出時間:2023年(推測型號,未官方確認)
製程工藝:7nm(中芯國際N+2工藝,國產化嘗試)
核心改進:
– 恢復7nm效能,最佳化計算密度。
– 支援更先進的稀疏計算(Sparsity Acceleration)。
算力效能:
– FP16算力:~280 TFLOPS。
– INT8算力:~560 TOPS。
新特性:
– 整合華為自研NPU指令集(增強靈活性)。
– 支援CANN 6.0(異構計算架構)。
架構創新
昇騰910C(詳情參考“華為昇騰910C效能深度解析”)採用Chiplet技術,將兩顆昇騰910B晶片透過3D封裝整合,形成"雙芯協同"架構:

效能驗證
推理效能:在DeepSeek-R1模型測試中,昇騰910C推理速度達H100的80%,成本僅為1/3。
訓練效能:訓練1.5萬億引數大模型時,昇騰910C叢集效能超越英偉達GB200 NVL72系統15%。
能效比:算力功耗比達0.82 TFLOPS/W,優於H100的0.75 TFLOPS/W。
典型應用
1. 政務雲:揚州市政務雲部署昇騰910C叢集,支撐DeepSeek-R1-671B大模型,實現智慧客服效率提升3倍。
2. 工業製造:蕪湖海螺水泥採用昇騰910C最佳化生產流程,能耗降低15%,裝置故障率下降22%。
3. 科研領域:西工大團隊基於昇騰910C開發抑鬱症初篩系統,在華為ICT大賽中獲全國特等獎。
四、昇騰910D
釋出時間:2024年(最新型號)
製程工藝:5nm(中芯國際或華為自研工藝,受限條件下最佳化)
核心改進:
– 採用Chiplet設計,提升良率和擴充套件性。
– 支援動態功耗管理(DVFS技術)。
算力效能:
– FP16算力:320+ TFLOPS。
– INT8算力:640+ TOPS。
創新點:
– 內建光互聯介面(協同華為Atlas叢集)。
– 強化安全隔離(可信執行環境TEE)。
技術突破
昇騰910D是華為下一代旗艦AI晶片,基於6nm工藝,採用Chiplet+3D封裝技術:

效能預測
推理效能:預計在GPT-4級模型推理中,昇騰910D效能達H200的1.2倍,成本降低50%。
訓練效能:訓練2萬億引數大模型時,昇騰910D叢集效能較H100提升30%。
生態適配:CANN 6.0支援CUDA程式碼一鍵遷移,PyTorch框架相容度達95%。
應用前景
1. 超算中心:計劃部署於國家超算深圳中心,支撐"九章四號"量子計算模擬。
2. 生物醫藥:華大基因將用於蛋白質結構預測,加速新藥研發週期。
3. 自動駕駛:百度Apollo計劃採用昇騰910D構建城市級模擬訓練平臺。
五、技術演進路線

六、生態與開發支援
1. 軟體框架:昇思MindSpore 2.6支援MOE架構,模型訓練效率提升2.8倍。
2. 開發工具:CANN 6.0提供CUDA程式碼遷移工具,開發效率提升70%。
3. 合作伙伴:與DeepSeek、商湯、寒武紀等共建行業解決方案,覆蓋30+行業。
七、選型建議

昇騰910系列透過持續的架構創新和工藝迭代,已形成覆蓋從訓練到推理、從邊緣到雲端的完整產品矩陣。其國產化率的提升和生態體系的完善,為國內AI算力自主可控提供了重要支撐。
在技術方案設計中,需根據具體應用場景的算力需求、能效要求和成本預算,綜合選擇最適合的晶片型號,並結合華為全棧AI解決方案(如Atlas硬體、MindSpore框架)構建高效的AI基礎設施。
相關閱讀:
-
海思昇騰920晶片解析:達芬奇架構進化與AI算力躍遷 -
昇騰920晶片 vs. 英偉達晶片:技術、架構革新與生態博弈 -
昇騰310晶片引數及技術概述 -
InfiniBand,撼動不了乙太網? -
InfiniBand高效能網路設計概述 -
面向E級計算的4款高效能處理器概述 -
基於鯤鵬處理器的高效能計算實踐 -
高效能計算關鍵元件核心知識 -
一文全解高效能製造模擬技術 -
高效能計算:RoCE技術分析及應用 -
高效能計算:談談被忽視的國之重器 -
高效能計算:RoCE v2 vs. InfiniBand網路該怎麼選? -
高效能網路全面向RDMA進軍



免責申明:本號聚焦相關技術分享,內容觀點不代表本號立場,可追溯內容均註明來源,釋出文章若存在版權等問題,請留言聯絡刪除,謝謝。
推薦閱讀
更多架構相關技術知識總結請參考“架構師全店鋪技術資料打包(全)”相關電子書(46本技術資料打包彙總詳情可透過“閱讀原文”獲取)。
溫馨提示:
掃描二維碼關注公眾號,點選閱讀原文連結獲取“架構師技術全店資料打包彙總(全)”電子書資料詳情。

