

關於AI和GPU架構發展,可參閱“AI+晶片+大模型專家修煉之路”,自 Volta 架構時代起,英偉達的 GPU 架構已經明顯地轉向深度學習領域的最佳化和創新。2017 年,Volta 架構橫空出世,其中引入的張量核心(Tensor Core)設計可謂劃時代之作,這一設計專門針對深度學習計算進行了最佳化,透過執行融合乘法加法操作,大幅提升了計算效率。與前一代 Pascal 架構相比,Volta 架構在深度學習訓練和推理方面的效能提升了 3 倍,這一飛躍性進步為深度學習的發展提供了強大的硬體支援。
——-《更新下載提醒》——
更新下載!《伺服器基礎知識全解終極版(第二版)》(含PPT和PDF)近日完成更新,請購買過“伺服器基礎知識全解(終極版)”和“架構師技術全店資料打包彙總(全)(46份)”的讀者,請在微店留言獲免費取更新。
本次主要更新內容:
-
1、CPU更新(Intel/AMD架構演進,國產CPU架構)
-
2、GPU更新(英偉達GPU架構,從Fermi到Hopper,Rubin Ultra)
-
3、記憶體技術、操作系統、儲存技術等更新
-
4、已知問題修正
-
5、更新內容40+頁PPT
快閃記憶體技術、產品和發展趨勢全面解析(第二版)
Infiniband架構和技術實戰(第二版)
(持續更新中…)


緊隨其後,在一年後的 2018 年,英偉達釋出了 Turing 架構,進一步增強了 Tensor Core 的功能。Turing 架構不僅延續了對浮點運算的最佳化,還新增了對 INT8、INT4、甚至是 Binary(INT1)等整數格式的支援。這一舉措不僅使大範圍混合精度訓練成為可能,更將 GPU 的效能吞吐量推向了新的高度,較 Pascal GPU 提升了驚人的 32 倍。此外,Turing 架構還引入了先進的光線追蹤(RT Core)技術。

2020 年,Ampere 架構的推出再次重新整理了人們對 Tensor Core 的認知。Ampere 架構新增了對 TF32 和 BF16 兩種資料格式的支援,這些新的資料格式進一步提高了深度學習訓練和推理的效率。同時,Ampere 架構引入了對稀疏矩陣計算的支援,在處理深度學習等現代計算任務時,稀疏矩陣是一種常見的資料型別,其特點是矩陣中包含大量零值元素。傳統的計算方法在處理這類資料時往往效率低下,而 Ampere 架構透過專門的稀疏矩陣計算最佳化,實現了對這類資料的高效處理,從而大幅提升了計算效率並降低了能耗。此外,Ampere 架構還引入了 NVLink 技術,這一技術為 GPU 之間的通訊提供了前所未有的高速通道。在深度學習等需要大規模平行計算的任務中,GPU 之間的資料交換往往成為效能瓶頸。而 NVLink 技術透過提供高頻寬、低延遲的連線,使得 GPU 之間的資料傳輸更加高效,從而進一步提升了整個系統的計算效能。



到了 2022 年,英偉達釋出了專為深度學習設計的 Hopper 架構。Hopper 架構標誌性的變化是引入了 FP8 張量核心,這一創新進一步加速了 AI 訓練和推理過程。值得注意的是,Hopper 架構去除了 RT Core,以便為深度學習計算騰出更多空間,這一決策凸顯了英偉達對深度學習領域的專注和投入。此外,Hopper 架構還引入了 Transformer 引擎,這使得它在處理如今廣泛應用的 Transformer 模型時表現出色,進一步鞏固了英偉達在深度學習硬體領域的領導地位。
2024 年,英偉達推出了 Blackwell 架構為生成式 AI 帶來了顯著的飛躍。相較於 H100 GPU,GB200 Superchip 在處理 LLM 推理任務時,效能實現了高達 30 倍的驚人提升,同時在能耗方面也實現了高達 25 倍的最佳化。其中 GB200 Superchip 能夠組合兩個 Blackwell GPU,並與英偉達的 Grace 中央處理單元配對,支援 NVLink-C2C 互聯。此外,Blackwell 還引入了第二代 Transformer 引擎,增強了對 FP4 和 FP6 精度的相容性,顯著降低了模型執行時的記憶體佔用和頻寬需求。此外,還引入了第五代 NVLink 技術,使每個 GPU 的頻寬從 900 GB/s 增加到 1800 GB/s。


總的來說,從 Volta 到 Blackwell,英偉達的 GPU 架構經歷了一系列針對深度學習最佳化的重大創新和升級,每一次進步都在推動深度學習技術的邊界。這些架構的發展不僅體現了英偉達在硬體設計方面的前瞻性,也為深度學習的研究和應用提供了強大的計算支援,促進了 AI 技術的快速發展。
在 Turing 架構中,直接進入 Sub Core(微核心)來了解第二代 Tensor Core。
此外,Turing 架構還引入了 FP16 的 FastPath,這一創新設計使得每個時鐘週期可以執行高達 32 次的計算操作。與 Volta 架構中需要 4 到 8 個時鐘週期才能完成單個多執行緒 GEMM 計算的情況相比,Turing 架構的計算頻率和吞吐量得到了顯著提升。

當談及第三代 Tensor Core 的重大改變時,首先需要提到多級快取和資料頻寬方面的最佳化。這次架構升級所引入 NVLink 技術,它主要來最佳化單機多塊 GPU 卡之間的資料互連訪問。在傳統的架構中,GPU 之間的資料交換需要透過 CPU 和 PCIe 匯流排,這成為了資料傳輸的瓶頸。而 NVLink 技術允許 GPU 之間直接進行高速的資料傳輸,極大地提高了資料傳輸的效率和速度。


2022 年英偉達提出的 Hopper 架構,這一創新架構中最為引人矚目的便是第 4 代 Tensor Core 的亮相。
回顧 Tensor Core 的發展歷程,前三代的 Tensor Core 均基於 Warp-Level 程式設計模式運作。儘管在英偉達 A100 架構中引入了軟體的非同步載入機制,但其核心運算邏輯仍基於 Warp-Level 程式設計模式進行。簡而言之,這一模式要求先將資料從 HBM(全域性記憶體)載入到暫存器中,隨後透過 Warp Scheduler 呼叫 Tensor Core 完成矩陣運算,最終再將運算結果回傳至暫存器,以便進行後續的連續運算。然而,這一流程中存在兩大顯著問題。
首先,資料的搬運與計算過程緊密耦合,這導致執行緒在載入矩陣資料時不得不獨立地獲取矩陣地址,簡而言之,Tensor Core 準備資料時,Warp 內執行緒分別載入矩陣資料 Data Tile,每一個執行緒都會獲取獨立矩陣塊地址;為了隱藏資料載入的延時(全域性記憶體到共享記憶體,共享記憶體到暫存器的資料載入),會構建多層級軟流水(software pipeline),使用更多的暫存器及儲存頻寬。這一過程不僅消耗了大量的繼承器資源,還極大地佔用了儲存頻寬,進而影響了整體運算效率。
其次,這一模式的可擴充套件性受到了嚴重限制。由於多級快取 Cache 的儲存空間限制,單個 Warp 的矩陣計算規格有上限,這直接限制了矩陣計算的規模。在大資料、大模型日益盛行的今天,這種限制無疑成為了制約計算效能進一步提升的瓶頸。
而第 4 代 Tensor Core 的引入,正是為了解決這些問題。英偉達透過全新的設計和最佳化,它旨在實現資料搬運與計算的解耦,提升儲存頻寬的利用率,同時增強可擴充套件性,以應對日益複雜和龐大的計算任務。隨著第 4 代 Tensor Core 的廣泛應用,計算性迎來新的飛躍。


英偉達在去年的GTC 2024上釋出了Blackwell架構,並推出了GB200晶片,今年將這一系列正式命名為Blackwell Ultra。
與此前傳言的GB300不同,Blackwell Ultra本質上是Blackwell的記憶體升級版,基於臺積電N4P(5nm)工藝的雙晶片架構(Blackwell GPU + GraceCPU),搭配12層堆疊的HBM3e記憶體,視訊記憶體容量提升至288 GB,頻寬達1.8 TB/s,延續第五代NVLink技術。


從技術角度看,Blackwell Ultra在FP4精度下的算力達到15 petaflops,結合Attention Acceleration機制,其推理效能比Hopper架構的H100提升2.5倍。
Rubin GPU則是英偉達的戰略重拳。以天文學家Vera Rubin命名的這款GPU,推理速度將達50 petaflops(比Blackwell的20 petaflops高出一倍多),配備288 GB HBM4記憶體。


基於Rubin的Vera Rubin NVL144機櫃(72顆Grace CPU + 144顆Rubin GPU)將提供3.6 exaflops(FP4推理)和1.2 exaflops(FP8訓練)的算力,是Blackwell Ultra NVL72的3.3倍。
到2027年,Rubin Ultra NVL576將進一步提升至15 exaflops(FP4)和5 exaflops(FP8),效能是Blackwell Ultra NVL72的14倍。這些資料表明,英偉達正全力搶佔AI計算的制高點。



免責申明:本號聚焦相關技術分享,內容觀點不代表本號立場,可追溯內容均註明來源,釋出文章若存在版權等問題,請留言聯絡刪除,謝謝。
推薦閱讀
更多架構相關技術知識總結請參考“架構師全店鋪技術資料打包(全)”相關電子書(46本技術資料打包彙總詳情可透過“閱讀原文”獲取)。
全店內容持續更新,現下單“架構師技術全店資料打包彙總(全)”一起傳送“伺服器基礎知識全解(終極版)”和“儲存系統基礎知識全解(終極版)”pdf及ppt版本,後續可享全店內容更新“免費”贈閱,價格僅收259元(原總價499元)。
溫馨提示:
掃描二維碼關注公眾號,點選閱讀原文連結獲取“架構師技術全店資料打包彙總(全)”電子書資料詳情。

