海歸學者發起的公益學術平臺
分享資訊,整合資源
交流學術,偶爾風月

近日,清華大學積體電路學院錢鶴、吳華強教授團隊在存算一體晶片領域取得研究突破,在《自然・電子》(Nature Electronics)上發表了題為 “A dual – domain compute – in – memory system for general neural network inference” 的最新成果。該研究提出了一種新型數模融合存算一體計算架構(AnDi)與硬體系統,並首次完整硬體實現了以 YOLO(You Only Look Once)為代表的複雜迴歸類神經網路計算,標誌著模擬存算一體技術在通用神經網路計算領域邁出了關鍵一步(圖 1)。

圖 1 搭載AnDi架構的存算一體計算系統,能夠進行使用浮點數資料流的通用神經網路推理。首次實現了基於ACIM的迴歸類YOLO目標識別任務
近年來,模擬存算一體技術(ACIM)逐漸受到業內科研人員的廣泛關注。相較於傳統數位電路,ACIM在神經網路計算方面具備顯著的能效、算力、與整合密度的優勢。然而,ACIM使用物理定律進行模擬計算,因此存在天然的計算噪聲與資料相容性等問題。目前,該領域的前沿工作主要集中在利用 ACIM 進行簡單的分類任務計算(如影像分類、文字識別),然而對於複雜迴歸類任務(如目標識別)的計算仍然存在較大挑戰(圖 2a)。分類任務和迴歸任務是神經網路的兩大重要分支。二者的核心差異在於,分類任務只需計算結果的相對值大小,選擇輸出值最高對應的類別;而回歸任務則要求計算系統輸出連續、精確且動態範圍大的浮點數(FP)計算結果。這對於僅能以低精度進行整數(INT)計算的ACIM技術而言,是一項重大挑戰。

圖 2 模擬存算一體技術當前僅適用於簡單分類任務計算,而難以處理使用高精度浮點數的複雜迴歸類任務。AnDi計算架構融合了高能效的模擬計算,與高精度的數字計算,能夠進行高精度的通用浮點數神經網路推理
基於以上背景,清華大學積體電路學院錢鶴、吳華強教授團隊提出了AnDi存算一體計算架構(圖 2b),系統性地解決了ACIM面臨的計算噪聲與浮點數相容性問題。Andi架構採用新型的雙域浮點數(DDFP)資料標準,並配合共享快取的設計,能夠同時相容模擬與數字計算核,併發揮兩者高能效、高精度的互補優勢。架構主要包含三個部分,分別為模擬存算一體計算核,通用數字計算核,以及DDFP處理單元。前兩者負責神經網路中的矩陣乘法計算,後者負責架構中的資料流轉換,解決了模擬與數字域的相容性問題。DDFP資料結構採用INT-8格式儲存特徵圖資料,併為每個特徵圖配備一個自定義的FP-15格式的縮放係數,兩者相乘即可得到對應的FP-32通用格式的特徵圖資料,並與外部匯流排進行資料互動。
基於該架構,作者還提出了神經網路特徵增強技術。在深度神經網路的計算中,ACIM的噪聲會持續累積並向下傳遞,最終嚴重影響計算精度。然而,AnDi架構可以透過在網路中插入輕量級的特徵增強層,並交由數字核進行計算,從而有效阻斷噪聲的累積,大幅提升了每層特徵圖的信噪比,以及最終的計算精度。另一方面,AnDi架構還具備計算資源動態排程技術,可以根據任務場景的需求,靈活呼叫高精度的數字計算核,或高能效的ACIM計算核,實現在精度與能效之間的動態平衡,對於無需時刻保持高精度計算的邊緣端任務有著廣泛的應用前景。
透過硬體實際測試(圖 3),AnDi架構實現了對2D遊戲賽車遊戲的自動駕駛,能夠根據道路的複雜情況自動選擇使用高能效的ACIM核或者高精度的數字核。相比於傳統的ACIM計算系統在精度和能效上均有較大提升。更重要的是,AnDi架構首次實現了基於ACIM的YOLO目標檢測任務,突破了ACIM技術在處理浮點數迴歸類神經網路計算上的限制。透過引入特徵增強技術,AnDi的計算精度已經接近軟體。

圖 3 AnDi架構的硬體實測結果。完成了2D賽車遊戲的自動駕駛,與YOLO迴歸類神經網路推理
近期,該工作發表在《自然・電子》(Nature Electronics)期刊上,題目為“A dual – domain compute – in – memory system for general neural network inference”。清華大學積體電路學院高濱副教授、吳華強教授是本論文的共同通訊作者,王澤博士生為第一作者。該研究得到了科技創新2030“腦科學與類腦研究”重大專案、國家自然科學基金委後摩爾新器件重大研究計劃、傑出青年基金及青年學生基礎研究專案、上海市科技重大專項、科學探索獎等專案,以及北京積體電路高精尖創新中心、清華-中國移動聯合研究中心等機構的支援。

點選下方知社人才廣場,檢視最新學術招聘
擴充套件閱讀
