人工智慧與處理器晶片架構

OSCHINA

↑點選藍字關注我們

最近，開源中國 OSCHINA、Gitee 與 Gitee AI 聯合釋出了《2024 中國開源開發者報告》。

報告聚焦 AI 大模型領域，對過去一年的技術演進動態、技術趨勢、以及開源開發者生態資料進行多方位的總結和梳理。

在第二章《TOP 101-2024 大模型觀點》中，中國科學院計算技術研究所副所長包雲崗談到了人工智慧與處理器晶片架構是如何相互影響進而發展的。

全文如下：

人工智慧與處理器晶片架構

文 / 包雲崗

一、引言

晶片有幾十種大類，上千種小類，本文主要關注處理器晶片。這類晶片的特點是需要執行軟體，例如：微控制處理器（MCU）會執行即時作業系統或者直接執行某個特定程式；中央處理器（CPU）往往會執行 Windows、Linux 等複雜作業系統作為底座支撐整個軟體棧；圖形處理器（GPU）一般不載入作業系統而是直接執行圖形影像處理程式，神經網路處理器（NPU）則直接執行深度學習相關程式。

處理器晶片設計是一項很複雜的任務，整個過程猶如一座冰山。冰山水面上是使用者或者大眾看到的處理器晶片架構，呈現為一組微架構核心引數，比如 8 核、8 發射亂序執行、32KB 指令 Cache、2MB L2 Cache 等等。

但為何是選擇這樣的配置，不同配置對處理器的 PPA（效能、功耗、面積）有什麼影響？要搞清楚這些聯絡，則需要一整套處理器架構設計基礎設施的支撐（即冰山水面下部分）—— 從程式特徵分析技術、設計空間探索技術、高精度模擬器、系統模擬技術、驗證技術等等；還需要對大量程式特徵進行分析，需要收集大量的原始資料，需要大量細緻的量化分析，需要大量的模擬模擬……

圖 1. 處理器晶片研發之冰山模型

以蘋果於 2020 年推出的 M1 處理器為例，其微架構中有個模組 ROB（Reorder Buffer）設計為 630 項。這是一個很奇怪的數字，可以說是顛覆了傳統 CPU 架構設計人員的觀念，以致於有人在技術網站上討論 M1 微架構時提出這會不會是一個筆誤，因為一方面以往 CPU 的 ROB 一般都不超過 200 項，另一方面是 ROB 專案一般都是 32 或者 64 的倍數。更進一步，蘋果為什麼要這麼設計？為什麼不是 400 項 ROB 或者是 800 項 ROB？

顯然，蘋果在其公司內部擁有一整套 CPU 研發基礎設施，能透過分析 APP Store 上數百萬個應用來提取程式特徵，根據程式特徵開展微架構設計空間探索，開展大量實驗進行量化評估分析 PPA，最終確定微架構引數配置。

圖 2. 蘋果 M1 處理器引起的討論

從上述蘋果 M1 晶片的例子可知，處理器晶片設計過程存在程式特徵分類與提取、微架構設計空間探索、PPA 多目標最佳化等環節，在這些環節中 AI 技術可以發揮積極作用，這方面工作可歸類為 “AI for Chip”。

另一方面，隨著 AI 應用越來越廣泛，如何加速 AI 應用也成為處理器晶片領域的熱點，最近十餘年各類 AI 處理器晶片不斷湧現，這方面工作科歸類為 “Chip for AI”。本文將分別從這兩方面做簡要介紹。

二、AI for Chip

總的來說，將 AI 技術應用到處理器晶片領域，總體上都是圍繞以下目標展開，即效能更高、開發更快、面積更小、功耗更低，安全更好。具體而言，這方面的工作可分為三類：一是在 AI 嵌入晶片，在處理器晶片微架構設計中應用 AI 技術；二是 AI 設計晶片，在處理器晶片開發過程中應用 AI 技術；三是 AI 調優晶片，利用 AI 技術搜尋更優的軟體與晶片適配引數。

2.1 AI 嵌入晶片

處理器微架構設計最佳化的一個思路是發現程式行為中的共性特徵並進行加速。過去，業內戲稱處理器微架構最佳化有 “三大法寶”：快取、流水線、並行。今天，還可以加上一個法寶，即預取。這 “四大法寶” 都對應著程式行為的共性特徵，比如快取和預取為了充分利用程式的區域性性特徵。今天的教科書中都會介紹區域性性特徵，並進一步細化為時間區域性性與空間區域性性，這些特徵又是因為程式是順序執行且存在大量迴圈。不過順序執行、大量迴圈這些顯而易見的特徵早在 1960 年代就已被提煉與總結，今天再要從大量程式中提煉出執行時的共性特徵已不是那麼容易，因為有些特徵不再是人類能夠直觀理解，很多表現為統計意義上的特徵。

AI 技術正是挖掘統計意義特徵的有效手段。過去十幾年，很多體系結構研究開始考慮在晶片微架構中引入一些借鑑 AI 思想可挖掘統計特徵的模組。

以分支預測單元 BPU（Branch Prediction Unit）為例，這是現代高效能處理器的一個重要組成部分，負責根據分支指令執行歷史預測分支的走向，從而提前執行對應方向上的指令。BPU 的預測準確率直接影響著處理器整體的效能和功耗，當 BPU 預測準確率高，則處理器流水線的空泡（Stall）就比較少，甚至完全消除。但當 BPU 出現預測錯誤，不僅已執行的錯誤路徑上的指令都被浪費，而且還需要衝刷流水線等來保證後續執行的正確性，這降低了處理器效能，也帶來額外的功耗。

BPU 的本質作用就是提煉程式執行過程中的分支行為特徵，這是一項很有挑戰的任務，一直以來都屬於前沿研究，基於神經網路的動態預測便是一條技術路線。其中一項經典工作是 2001 年德州大學奧斯汀分校的 Daniel Jiménez 和 Calvin Lin 提出的一種可用硬體實現的使用基於單層感知機的預測器 [1]。如今，基於感知機的分支預測器已應用在商業處理器中。根據公開資料，AMD、三星的多款處理器中都包含了基於感知機的神經分支預測器。

還有很多研究提出將 AI 設計嵌入到晶片微架構的設計，但總體而言這類工作面臨的一大難點是如何在硬體上可實現。很多設計方案由於硬體實現開銷較大，實現複雜的 AI 演算法存在困難而無法落地。

2.2 AI 設計晶片

AI 設計晶片已成為近年來的熱點，各類工作層出不窮，大家的理解也各有不同。在這裡，本文將 “AI 設計晶片” 定義為從設計規範（specification）到 GDS 檔案的整個晶片設計流程中，存在一個或多個環節使用 AI 技術參與設計，將一個格式的輸入轉換為另一種格式的輸出。在這個定義下，AI 設計晶片的智慧化的程度可由覆蓋的環節數量來確定，比如：谷歌的 AlphaChip[2]、Cadence 的 iSpatial[3] 工作覆蓋了佈局佈線（輸入為 RTL，輸出為佈局佈線後的 Layout）；紐約大學、中科院計算所開展的基於 ChatGPT 設計晶片則覆蓋了從規範到 RTL 的整個前端設計環節 [4][5]；中科院計算所的啟蒙 1 號工作則覆蓋了從設計規範到 GDS 的全流程 [6]，自動化程度最高。（值得一提的是這個定義不涵蓋一些引數最佳化配置類的工作，這類工作可歸到下一節 “AI 調優晶片”）

AI 設計晶片仍然處於起步階段，各界都在積極探索，雖然已有一些亮點成果，但尚無被業界廣泛使用的成熟解決方案。中科院計算所陳雲霽團隊曾在 2022 年《中國科學院院刊》上發表了一篇題為 “Chip Learning：從晶片設計到晶片學習” 的觀點文章 [7]，對 AI 設計晶片做了很好的總結與展望，在此引用其中一些觀點。文章認為 AI 設計晶片可以分成 3 個重要問題（如圖 3）：

圖 3.AI 設計晶片流程 [7]

①功能確定。根據使用者意圖確定系統正確的功能，並生成系統的準確表達。這種準確表達可以是硬體程式碼，也可以是表示式，也可以是真值表。這個問題對應著傳統晶片設計流程的邏輯設計。

②邏輯圖生成。在準確表達的基礎上生成電路的邏輯圖表達，並在這張邏輯圖上進行最佳化，最後生成物理無關（包括工藝）的邏輯圖表達。這個問題對應著傳統晶片設計流程的電路設計。

③物理圖生成。在電路邏輯圖基礎上生成電路的具體物理版圖，這等價於一種多種約束下（如面積、功耗、物理等限制）的圖對映和最佳化問題。這個問題對應著傳統晶片設計流程的物理設計。

針對上述問題，該文章由梳理了一系列從邏輯設計、電路設計、物理設計、驗證測試各環節上的技術挑戰。例如，驗證測試環節要解決的核心挑戰就是黑盒解決方案的精度保證，一方面端到端全自動設計的晶片是一個黑盒，驗出 bug 後的可除錯性將會是一個挑戰，另一方面現有的 AI 技術也像個黑盒，缺乏可解釋性，對於輸出結果的精度無法保證與解釋。關於 AI 設計晶片的更多內容，推薦大家閱讀該觀點文章。

2.3 AI 調優晶片

處理器晶片的最終效能取決於三個階段的設計（引數）空間探索（Design Space Exploration，DSE）：第一階段是前端微架構設計，即探索各種微架構引數的最優組合提高處理器晶片效能，就如前面提到的蘋果 M1 處理器的 630 項 ROB 設計方案；第二階段為後端物理設計，即探索不同的佈局佈線方案，不同的工藝引數提升 PPA；第三階段是晶片執行過程中根據軟體特徵動態調整晶片引數，或者反過來對軟體進行最佳化從而讓晶片執行更高效，這是一種軟硬體協同最佳化思路，例如根據軟體負載輕重來動態調整電壓頻率以降低處理器晶片執行功耗，也可以最佳化軟體提高處理器執行效率以縮短軟體執行時間。

AI 技術在上述三個階段都能發揮重要作用，事實上近年來已有大量的相關工作，有些甚至已經成為落地應用到產品中（比如 Synopsys 推出的 DSO.ai 工具 [8]）。這裡不再展開介紹，僅介紹兩個具有代表性的華人學者的工作。

早在 2010 年左右，中科院計算所陳雲霽研究員團隊與南京大學周志華教授合作研究如何在微處理器設計階段使用 AI 技術來提高設計空間探索（DSE）的效率和效果。傳統的 DSE 方法依賴於大規模的週期精確架構模擬，非常耗時。研究團隊提出了一種新的 COMT（Co-Training Model Tree）方法，能夠利用未標記的設計配置來提高模型的預測準確性。這項工作發表於 2011 年的 IJCAI 會議 [9]，是 AI 調優晶片方向的早期工作之一。

2021 年，杜克大學陳怡然教授團隊與 ARM 公司合作，使用一套統一的機器學習模型同時對設計和執行階段的 CPU 功耗進行快速即時計算，發表於 2021 年計算機體系結構領域 MICRO 會議，論文題目為《可用於大規模商業化處理器的全自動化功耗模擬架構（APOLLO:An Automated Power Modeling Framework for Runtime Power Introspection in High-Volume Commercial Microprocessors）》[10]（一作謝知遙博士目前已在香港科技大學任教），獲得當年最佳論文。

2.4 未來方向

在晶片開發中應用 AI 技術已成為主流方向。2024 年 Hot Chips 會議第一天專門組織了一個主題為 “AI Assisted Hardware Design-Will AI Elevate or Replace Hardware Engineers?” 的教程，來自 UCSD、英偉達、Synopsys 的專家系統地介紹了當前 AI 輔助硬體（晶片）設計的最新進展。

總體來看，除了傳統的基於強化學習的 AI 輔助設計方法，學術界與產業界都在積極探索如何將大語言模型（LLM）應用到晶片設計的各個環節中（如圖 4）。感興趣的讀者可以訪問 Hot Chips 2024 網站查閱相關資料。

圖 4. 大語言模型（LLM）在晶片設計中的應用

三、Chip for AI

雖然 Hinton 教授團隊在 2006 年發表了關於深度神經網路的工作後並未受到廣泛關注，但是在體系結構領域卻有專家較早地認識到深度神經網路的潛在影響，從 2010 年便開始探索加速深度神經網路的處理器架構設計。另一方面，2003 年前後，英偉達開始追求 GPU 的高效能算力與可程式設計性，為 GPU+CUDA 生態大廈打下地基，成為今天 AI 算力生態的統治者。

3.1 先驅者：DianNao 家族 AI 處理器

2010 年的體系結構領域國際旗艦會議 ISCA 在法國召開，當時來自法國 INRIA 的 Olivier Temam 教授做了題為 “The rebirth of neural networks” 的大會報告 [11]，向體系結構界介紹深度神經網路以及為其硬體加速器的可行性。

在 2012 年的 ISCA 上，Temam 教授提出了第一個機器學習加速器設計 [12]。隨後，中科院計算所陳雲霽研究員和 Temam 教授啟動了一個學術合作專案 ——DianNao 家族加速器設計 [13][14]。DianNao 在 ISCA-2012 加速器的基礎上增加了區域性儲存，解決了嚴重影響加速器效能的記憶體頻寬限制，發表於 ASPLOS-2014，獲得了該會議的最佳論文獎，得到各界的廣泛關注。從此，DianNao 家族系列加速器不斷推出，DaDianNao 發表於 MICRO-2014 並獲得最佳論文獎；ShiDianNao 發表於 ISCA-2015；PuDianNao 發表於 ASPLOS-2015。2016 年以後，陳雲霽研究員團隊為一大類神經網路加速器設計了一套名為 Cambricon 的指令集，發表於 ISCA-2016，併成立寒武紀公司。

DianNao 家族加速器向全球展示了為 AI 應用設計專用加速器這條技術路線充滿前景，此後各界都開始積極投入各類 AI 處理器晶片的設計，例如谷歌於 2014 年開始部署 TPU[15]、Meta 開始自研 MTIA 晶片、Tesla 自研 Dojo 晶片等等。可以說，在這一輪全球 AI 處理器熱潮中，中國科研團隊起到了當之無愧的引領作用。

3.2 英偉達 GPU 與 CUDA

2001 年，斯坦福大學 Bill Dally 教授團隊在處理器微結構旗艦期刊《IEEE Micro》上發表了一篇題為 “Imagine:Media Processing with Streams” 的論文正式介紹 Imagine 專案 [16]，一個可加速多媒體應用的流處理器（Stream Processor）結構。這項工作很快引起了英偉達的關注，並向 Dally 教授伸出橄欖枝。

隨後在 2003 年，Dally 教授擔任英偉達的顧問，參與 GeForce 8800 系列 GPU 的微架構設計，指導如何在 GPU 中加入流處理器。2006 年 11 月，第一款 GeForce 8800 GTX GPU 釋出，包含 128 個流處理器，單精度浮點運算效能達到 345.6GFLOPS，訪存頻寬 86.4GB/s，遠高於同期 CPU 效能。

與此同時，斯坦福大學一位年輕的博士生 Ian Buck 在導師 Pat Hanrahan 教授（2019 年圖靈獎得主）的指導下開展如何方便且高效發揮 GPU 能力的研究。2004 年，Buck 發表了一篇題為 “Brook for GPUs:Stream Computing on Graphics Hardware” 的論文 [17]，為 GPU 設計了一套支援流程式設計（Stream Programming）語言的編譯器和執行時系統 Brook，從而能讓開發者像在通用 CPU 上那樣進行程式設計。這項工作旋即得到英偉達的青睞，於是 Buck 博士畢業後便立刻加入英偉達，帶領兩位工程師創立了 CUDA 專案。2007 年，CUDA 1.0 正式釋出，全面適配 GeForce 8800 系列 GPU。隨後，UIUC 胡文美教授團隊在 GeForce 8800 GPU 上用 CUDA 實現一些程式，效能比通用 CPU 高 10 倍到 400 倍不等，充分展示了 GPU 的高效能與可程式設計性 [18]。至此，英偉達的 GPU 生態大廈的地基已基本構成，英偉達的 GPU 開始被稱為 GPGPU（General Purpose GPU）。

彼時的 GPU 生態大廈中其實還缺一塊拼圖 —— 應用。當傳統上用於圖形處理的 GPU 具備了高效能浮點運算能力，且能像通用 CPU 那樣可程式設計，那它可以用來做什麼呢？對於這個問題，中國的計算機科學家給出了答案 —— 科學計算與超級計算機。2007 年，國防科大楊學軍院士帶領團隊在國際計算機體系結構旗艦會議 ISCA 上發表題為 “A 64-bit stream processor architecture for scientific applications” 的學術論文 [19]，揭示了流處理器架構可大幅加速科學計算。這項工作不僅為具備大量流處理器的 GPU 開闢了新應用場景，也為超級計算機架構設計開闢一條新技術路徑，即採用 “CPU+GPU” 異構結構提升效能。

此後，GPU 便開始出現在超級計算機排行榜（Top500）上，並逐步成為主流：2009 年 11 月，採用 Intel CPU+ATI GPU 異構結構的 “天河一號” 名列 Top500 排行榜第五；2010 年 6 月，採用 Intel CPU+Nvidia GPU 異構結構的 “曙光 6000” 位列 Top500 排行榜第二；2010 年 11 月，採用 Intel CPU+Nvidia GPU+FT-1000 異構結構的 “天河一號大江 A” 榮登 Top500 榜首，打破了長期以來美日霸榜的格局。

雖然彼時的英偉達 GPU 與 CUDA 已被證明是構建超級計算機的神器，但卻尚未與這一輪 AI 浪潮直接關聯起來。

3.3 匯聚：演算法 + 資料 + 算力

普林斯頓大學李飛飛教授於 2009 年釋出 ImageNet[20]，隨後為了推廣 ImageNet，他們決定啟動一項基於 ImageNet 的物體識別競賽。2010 年第一屆競賽冠軍識別錯誤率為 28%，2011 年第二屆競賽冠軍錯誤率降到約 25%。2012 年的第三屆競賽正是轉折點 —— 加拿大多倫多大學的 Jeffrey Hinton 教授與其兩位學生 Ilya Sutskever 和 Alex Krizhevsky 帶著使用英偉達 GPU+CUDA 訓練出來的深度神經網路 AlexNet 參加競爭，將錯誤率大幅降低了近 11 個百分點，高出第二名 41%。

演算法、資料、算力在 2012 年的 ImageNet 競賽上匯聚了，形成一條勢不可擋的 “大江”，在學術界掀起了驚濤駭浪。而英偉達的 GPU 晶片與 CUDA 軟體生態也正式搭上了 AI 快車，不斷發展壯大。

3.4 新機遇：RISC-V+AI

英偉達的 GPU 晶片和 CUDA 軟體生態已在當前 AI 浪潮中佔據算力主導地位並形成高度壟斷。打破這種壟斷格局成為全球的共識，Google、Meta 等企業都自研各自的 AI 處理器晶片。

在具體技術路線上，一個有趣的觀察是幾乎全球企業都選擇基於 RISC-V 研製 AI 處理器晶片。根據不完全統計，OpenAI、Google、Meta、Microsoft、Tesla 等 AI 領域系統與應用巨頭，均宣佈或者已經基於 RISC-V 指令架構搭建自有 AI 晶片與系統。而大量初創企業如 Tenstorrent、Rivos、Semidynamics 等不約而同地選擇 RISC-V+AI 解決方案。

Semidynamics 公司在 2024 年 6 月的歐洲峰會上總結了基於 RISC-V 擴充套件 AI 指令集，有如下幾點優勢 [21]：

單一軟體棧。傳統 AI 處理器架構中 CPU 一般採用 ARM、GPU 往往採用 Imagination，NPU 自研，因而需要三套軟體棧，如果都是採用基於 RISC-V 為基座來擴充套件 AI 指令集，那麼就可以使用一套編譯器和執行時（不同編譯選項）。
無需考慮 DMA 操作的程式設計正規化。當前 AI 處理器解決方案中需要透過 DMA 複製資料，基於 RISC-V 可實現緊耦合設計共享地址空間，從而避免顯式的 DMA 操作。
其他優點包括更低延遲，更低功耗，更高效的 Cache 共享等等。因此，Semidynamic 推出了一款基於 4 發射亂序高效能 RISC-V 核實現向量擴充套件單元與張量擴充套件單元的 AI 處理器晶片解決方案（圖 5）。

圖 5.RISC-V+AI 解決方案

事實上，RISC-V 國際基金會也有佈局。2023 年 10 月，RISC-V 國際基金會成立 AI/ML SIG 組，推動全球 RISC-V AI 指令架構、基礎軟體和核心應用技術的研究與標準化。目前，RISC-V AI 向量（Vector）已形成全球統一的標準（RVV1.0 指令集標準），正在推動矩陣（Matrix）和張量（Tensor）標準制定。

若能形成統一的基於 RISC-V 的 AI 擴充套件指令集，那就有望在軟體生態上形成合力，從而形成一個能平衡 CUDA 生態的新的 AI 軟體生態（圖 6）。道阻且長，行則將至。

圖 6. 統一基於 RISC-V 的 AI 擴充套件指令集支撐統一 AI 軟體生態

四、結語

四川宜賓，長江、金沙江、岷江三江匯流於此。有人說，長江自此始稱 “長江”，一路奔流向東，最終成為一條波瀾壯闊的大江。

今天，人們也常說這一輪 AI 浪潮離不開三個要素的匯聚，即演算法、資料與算力。這一輪 AI 浪潮是顛覆性的，但這種顛覆性技術能被預測嗎？又有多少人提前預測到了？

事實上，當 Hinton 教授在 2006 年發表兩篇關於深度神經網路的論文時 [22][23]，即使是大多數同行也並沒認識到這將會在未來成為顛覆性技術，直到 2012 年的 ImageNet 競賽。進一步，雖然 ImageNet 競賽讓學術同行感知到了深度學習技術的顛覆性，但彼時絕大多數企業、風投機構、政府部門以及社會大眾都還未感知到深度學習將會掀起新一輪 AI 浪潮，直到 2016 年 AlphaGo 戰勝圍棋世界冠軍李世石。

改變人的思想和觀念也許是世界上最難的事情之一。

此時此刻，我們又該如何預測這一輪 AI 浪潮對晶片產業發展的影響？這個問題便留給讀者思考了。

參考文獻

[1] Jiménez D A, Lin C. Dynamic branch prediction with perceptrons [C], Proceedings HPCA Seventh International Symposium on High-Performance Computer Architecture. IEEE, 2001: 197-206

[2] Mirhoseini, A., Goldie, A., Yazgan, M. et al. A graph placement methodology for fast chip design. Nature 594, 207–212 (2021)

[3] Cadence. Ispatial flow in genus: A modern approach for physical synthesis. (2020-06-14)[2021-11-25]. https://community.cadence.com/cadence_blogs_8/b/di/posts/ispatial-flow-in-genus-a-modern-approach-for-physicalsynthesis

[4] Jason Blocklove, Siddharth Garg, Ramesh Karri, Hammond Pearce. Chip-chat: Challenges and opportunities in conversational hardware design [C]//2023 ACM/IEEE 5th Workshop on Machine Learning for CAD (MLCAD). IEEE, 2023: 1-6.

[5] Kaiyan Chang, Ying Wang, Haimeng Ren, Mengdi Wang, Shengwen Liang, Yinhe Han, Huawei Li, Xiaowei Li. Chipgpt: How far are we from natural language hardware design [J]. arXiv preprint arXiv:2305.14019, 2023.

[6] Shuyao Cheng, Pengwei Jin, Qi Guo, Zidong Du, Rui Zhang, Yunhao Tian, Xing Hu, Yongwei Zhao, Yifan Hao, Xiangtao Guan, Husheng Han, Zhengyue Zhao, Ximing Liu, Ling Li, Xishan Zhang, Yuejie Chu, Weilong Mao, Tianshi Chen, Yunji Chen. Pushing the limits of machine design: Automated cpu design with ai [J]. arXiv preprint arXiv:2306.12456, 2023

[7] 陳雲霽，杜子東，郭崎，李威，譚懿峻. Chip Learning：從晶片設計到晶片學習，中國科學院院刊，2022.

[8] https://www.synopsys.com/ai/ai-powered-eda/dso-ai.html

[9] Qi Guo, Tianshi Chen, Yunji Chen, Zhi-Hua Zhou, Weiwu Hu, Zhiwei Xu. Effective and Efficient Microprocessor Design Space Exploration Using Unlabeled Design Configurations. IJCAI 2011.

[10] Zhiyao Xie, Xiaoqing Xu, Matt Walker, Joshua Knebel, et al. APOLLO: An Automated Power Modeling Framework for Runtime Power Introspection in High-Volume Commercial Microprocessors, MICRO, 2021.

[11] Olivier Temam. The rebirth of neural networks. ISCA 2010. https://pages.saclay.inria.fr/olivier.temam/homepage/ISCA2010web.pdf

[12] Olivier Temam. A defect-tolerant accelerator for emerging high-performance applications. ISCA 2012.

[13] DianNao 專案介紹 —- 智慧計算系統官方網站，https://novel.ict.ac.cn/diannao/

[14] from DianNao to Cambricon|The evolution of AI Accelerator，http://zhifeiding.github.io/programming/history/2024/01/31/from-DianNao-to-Cambricon-The-Evolution-of-AI-Accelerator/

[15] David Patterson. A Decade of Machine Learning Accelerators:Lessons Learned and Carbon Footprint, 2022. (中文翻譯：TPU 演進十年：Google 的十大經驗教訓. https://zhuanlan.zhihu.com/p/573794328)

[16] Brucek Khailany, William J. Dally, Ujval J. Kapasi, Peter R. Mattson, Jinyung Namkoong, John D. Owens, Brian Towles, Andrew Chang, Scott Rixner, Imagine: Media Processing with Streams. IEEE Micro 21(2): 35-46 (2001)

[17] Ian Buck, Theresa Foley, Daniel Reiter Horn, Jeremy Sugerman, Kayvon Fatahalian, Mike Houston, Pat Hanrahan, Brook for GPUs: stream computing on graphics hardware. ACM Trans. Graph. 23(3): 777-786 (2004)

[18] Ryoo, S., Rodrigues, C. I., Stone, S. S., Baghsorkhi, S. S., Ueng, S. Z., Stratton, J. A., & Hwu, W. M. W. Program optimization space pruning for a multithreaded GPU. In Proceedings of the CGO, 2008

[19] Xuejun Yang, Xiaobo Yan, Zuocheng Xing, Yu Deng, Jiang Jiang, Ying Zhang，A 64-bit stream processor architecture for scientific applications. ISCA 2007: 210-219

[20] Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li, Li Fei-Fei. ImageNet: A large-scale hierarchical image database. CVPR 2009.

[21] Roger Espasa. All-in-One RISC-V AI compute engine, RISC-V Summit Europe, 2024. https://riscv-europe.org/summit/2024/media/proceedings/plenary/Tue-09-40-Roger-Espasa.pdf

[22] Hinton, G. E., Osindero, S. and Teh, Y. A fast learning algorithm for deep belief nets. Neural Computation, 18, pp 1527-1554, 2006.

[23] Hinton, G. E. and Salakhutdinov, R. R. , Reducing the dimensionality of data with neural networks. Science, Vol. 313. no. 5786, pp. 504 – 507, 28 July 2006.

作者簡介