Arm釋出最小的CPU

👆如果您希望可以時常見面,歡迎標星🌟收藏哦~
來源:內容編譯自theregister,謝謝。
Arm 預測 AI 推理很快就會無處不在。為了給裝置提供所有神經網路處理所需的動力,該公司正在透過首款針對邊緣工作負載的 64 位 Armv9 CPU 核心增強其嵌入式平臺。
軟銀旗下的英國晶片設計公司表示,人工智慧發展正在迅速,並聲稱幾年前網路邊緣機器學習工作負載要簡單得多,專注於基本的降噪或異常檢測。
Arm 物聯網業務線高階副總裁兼總經理 Paul Williamson 表示:“以不起眼的門鈴為例。”他補充說,它從一個簡單的蜂鳴器發展成為一個基本的攝像頭檢視器,現在又發展成為一個更智慧的人工智慧驅動裝置,能夠確定它是否在檢測人,甚至識別特定的個人。
為了解決這一問題,該處理器設計公司推出了Cortex-A320 CPU 核心,旨在與 Arm 的嵌入式神經處理單元 (NPU) 加速器 Ethos-U85 搭配用於邊緣 AI 片上系統 (SoC) 設計。它可以配置為四個核心的叢集,以擴充套件並滿足各種效能需求。
據稱,A320 是“最小的 Armv9 實現”,提供 AArch64 指令集,是一個相對簡單的單發射、有序、八級核心,L1 快取高達 64KB,L2 快取高達 512KB。很高興看到 RISC-V 讓 Arm 保持警惕。
為了表明事物發展的速度,Arm 推出了一個邊緣 AI參考平臺,將 Ethos-U85 與微控制器級 CPU 核心設計 Cortex-M85 配對,迄今還不到一年。
相比之下,Cortex-A320 是 Arm 全功能應用處理器系列的一部分,儘管它是一款“超高效”的處理器,基於較新的 Armv9 架構,並具有各種增強功能。Williamson 聲稱,新組合的機器學習效能是去年平臺的八倍以上,並且能夠處理超過十億個引數的大型 AI 模型。
威廉姆森說:“對於高效執行更大網路的硬體的持續需求正在推動記憶體大小的要求,因此具有更好記憶體訪問效能的系統對於執行這些更復雜的用例變得非常必要。”
“Cortex-A 處理器解決了這一挑戰,因為它們比基於 Cortex M 的平臺對更多可定址記憶體具有內在支援,並且在處理多層記憶體訪問延遲方面更加靈活。”
在 Armv9 處理器系列中,Cortex-A320 被認為是迄今為止最節能的處理器,據稱它僅使用 Cortex-A520(一些參考設計中使用的高效核心)的一半功率。
轉向 Armv9 帶來了該架構中引入的安全功能,例如用於捕獲記憶體異常的記憶體標記擴充套件,而對於 AI 處理,它還具有可擴充套件向量擴充套件 (SVE2) 和對 BFloat16 資料型別的支援。
軟體開發也至關重要,Arm 在其 Arm Kleidi 庫中為新的邊緣硬體提供支援。其中包括用於構建 AI 框架的一組計算核心 Kleidi AI 和用於計算機視覺應用的 Kleidi CV。
據威廉姆森稱,這還支援 Armv9 中的最佳化,例如 Neon 和 SVE2,並整合到 llama.cpp、ExecuTorch 和 LiteRT 等流行的 AI 框架中。
Cortex-A320 還能夠使用 FreeRTOS 和 Zephyr 等即時作業系統執行應用程式,並支援 Linux。
與其他 Arm 產品一樣,授權商將負責圍繞新的 Cortex-A320 和 Ethos-U85 構建晶片。該公司表示,預計明年將推出該晶片,但未透露將使用該晶片的具體合作伙伴或產品。
除了網路邊緣應用之外,其低功耗設計還使其適用於各種用途,包括智慧手錶和可穿戴裝置。Williamson 表示,Cortex-A320 還可能是“伺服器和基礎設施中基板管理控制器的理想 CPU”。
Cortex-A320:針對物聯網最佳化的超高效 Armv9 CPU
在當今不斷發展的物聯網領域,軟體複雜性不斷增加,邊緣裝置比以往任何時候都需要更高的效能、效率和安全性。Arm Cortex-A產品組合透過為功率受限的裝置提供先進的計算能力來滿足這一需求 ,為不同的市場提供增強的 AI 處理、強大的安全性和最佳化的效率。Cortex-A3xx 系列專門為包括消費裝置和雲服務在內的各個細分市場提供超高效的解決方案和最佳化的效能。更重要的是,它為快速增長且高度多樣化的物聯網市場提供了強大且可擴充套件的解決方案,使其特別適合邊緣 AI應用。
邊緣 AI 需要越來越高的計算效能、更強的安全性和更大的軟體靈活性。隨著軟體複雜性的增加,Armv9架構已被引入,以提供先進的機器學習 (ML) 和 AI 功能以及增強的安全功能。這種尖端架構現已部署在超高效的 Cortex-A3xx 層中,為下一代邊緣 AI 應用提供了堅實的基礎。 
今天,Arm 推出了Cortex-A320,這是首款採用 Armv9 架構的超高效 Cortex-A 處理器。Cortex-A320 是一款基於Armv9.2-A版架構的 AArch64 CPU。其微架構源自Cortex-A520,但經過了顯著最佳化,以改善面積和功耗。 
與 Cortex-A520 相比,透過多項微架構更新實現了超過 50% 的效率提升。這些包括窄化提取和解碼資料路徑、密集儲存的 L1 快取、減少埠的整數暫存器檔案和其他最佳化。 
高效的分支預測器和預取器等重要的微架構創新以及記憶體系統的改進也提高了 Cortex-A320 的標量效能,與其前代產品 Cortex-A35 相比,在 SPECINT2K6 中提高了 30% 以上。
最重要的是,透過整合NEON和可擴充套件向量擴充套件 ( SVE2 ) 向量處理技術中的 Armv9 增強功能,Cortex-A320 的 ML 處理能力比Cortex-A35提高了數倍(10 倍) ,以 int8 通用矩陣乘法 (GEMM) 為衡量標準。Cortex-A320 支援BF16等新資料型別以及新的點積和矩陣乘法指令,ML 效能比世界上最受歡迎的 Armv8-A CPU  Cortex-A53高出 6 倍。
ML 功能的顯著提升,加上高面積和能效,使得 Cortex-A320 成為所有 Arm Cortex-A CPU 中 ML 應用中最高效的核心。
與 Arm Cortex-M 處理器相比,Cortex-A320 的 ML 效能也提高了數倍,例如,與效能最高的Cortex-M CPU Cortex-M85相比,GEMM 效能提高了 8 倍。這種效能提升不僅僅是因為 Armv9 在 AI 處理方面的增強,還源於 Cortex-A320 顯著提高的記憶體訪問效能和更高的頻率。
此外,由於其 A 型架構、多核執行和靈活的記憶體管理,Cortex-A320 成為將效能擴充套件到高效能 Cortex-M 微控制器的合適選擇。
Cortex-A320是單發射、有序32位指令提取的CPU,實現了最佳化的8級流水線,具有緊湊的轉發網路,從而實現比Cortex-A520更高的頻率點。
Cortex-A320 支援從單核到四核的配置,從而在叢集內提供可擴充套件性。它採用 DSU-120T,這是一種精簡的 DynamIQ 共享單元 ( DSU ),可實現僅限 Cortex-A320 的叢集。DSU-120T 是一種極簡 DSU 實現,可顯著降低複雜性、面積和功耗,從而最大限度地提高基於低端 Cortex-A 的設計的效率。 
Cortex-A320 支援高達 64KB 的 L1 快取和高達 512KB 的 L2 快取,並且具有一個 256 位 AMBA5 AXI 介面,可連線到外部儲存器。L2 快取和 L2 TLB 可在 Cortex-A320 CPU 之間共享,而向量處理單元(實現 NEON 和 SVE2 SIMD(單指令、多資料)技術)可在單核複合體中專用,也可在雙核或四核實現中在兩個核之間共享。
Cortex-A320 確保與邊緣和基礎設施裝置的相容性,同時提供效率和可擴充套件性。它受益於廣泛的開源 Linux 支援、強大的安全生態系統,以及——更重要的是——關鍵的 Armv9 架構改進。
除了透過 NEON 和 SVE2 向量處理技術更新實現的 ML 改進之外,Armv9 架構還顯著增強了安全性,而安全性是任何物聯網和嵌入式系統的關鍵。Cortex-A320 為超高效 Cortex-A 層帶來了重要的安全功能,例如提供增強記憶體安全性的記憶體標記擴充套件 (MTE),以及可緩解跳轉和返回導向程式設計攻擊的指標認證 (PAC) 和分支目標識別 (BTI)。
Cortex-A320 採用的 Armv9 關鍵功能之一是安全 EL2(異常級別 2)。有關更多詳細資訊,請訪問安全虛擬化頁面。安全 EL2 增強了 TrustZone 中的軟體隔離,有助於在邊緣裝置上安全執行軟體容器。
Cortex-A320 在各種應用中都發揮了所有這些優勢,從低端通用 MPU、智慧揚聲器和軟體定義智慧相機,到工廠車間自動駕駛汽車、自動化邊緣 AI 助手、支援 AI 的人機介面和實用機器人控制器。除了邊緣 AI 應用外,其他主要細分市場也受益於 Cortex-A320,例如智慧手錶和智慧可穿戴裝置,以及基礎設施裝置,例如伺服器的基板管理控制器 (BMC)。
Cortex-A320 也非常適合傳統上使用高效能 Cortex-M 的應用,例如電池供電的 MCU 用例或執行即時作業系統 (RTOS) 的應用,這些應用需要透過對稱多處理來擴充套件效能,而這在 A 型架構中是開箱即用的。 
它還可以成為需要 Cortex-A 記憶體管理或地址轉換功能的 RTOS 應用程式的合適候選者,以增強軟體靈活性。例如,Cortex-A320 可能適合需要在 MCU 裝置上下載應用程式的用例,因此記憶體管理單元 (MMU) 是跨記憶體對映的程式碼重定位所必需的。
同時,由於定址空間更寬,Cortex-A320 可以成為將大型 Cortex-A 與微控制器類核心相結合的異構多核用例的有效解決方案。Cortex-A320 使 Arm 的合作伙伴能夠將小型架構相容核心與更大的 Cortex-A 處理器一起使用,從而簡化記憶體架構。 
另一方面,得益於其 A 級特性,Cortex-A320 可提供開箱即用的 Linux 支援,並支援 Android 或任何現有豐富作業系統的軟體移植。Cortex-A320 帶來了前所未有的靈活性,可針對多個細分市場、應用和作業系統。
我們最新的Ethos-U85 NPU設計用於容忍基於 Cortex-A 的系統中常見的更高延遲記憶體,並且可與 Cortex-A320 配合良好。
Ethos-U85 驅動程式現已更新,因此 Ethos-U85 可由 Cortex-A320 直接驅動,而無需基於 Cortex-M 的 ML 島。此更新可改善延遲,並允許 Arm 合作伙伴消除使用 Cortex-M 驅動 NPU 的成本和複雜性。
此外,Cortex-A320 的記憶體訪問效能和增強的記憶體系統允許執行更大的 ML 模型,例如超過 10 億個引數的大型語言模型 (LLM),由於可定址記憶體空間有限,這些模型無法在基於 Cortex-M 的系統上有效執行。
Ethos-U NPU 與量化資料型別配合使用,可滿足最受限的邊緣 AI 用例的成本和能源需求。任何不受 Ethos-U85 支援的 ML 運算子和資料型別都將自動回退到 Cortex-A320,利用 Neon/SVE2 引擎進行加速。
由於 Armv9 架構在機器學習方面有了顯著改進,四核 Cortex-A320 在 2GHz 頻率下執行時,可以執行高達 256 GOPS(以 8 位 MAC/週期為單位)。因此,Cortex-A320 可以直接在 CPU 上執行高階機器學習和人工智慧用例,甚至無需外部加速器。對於面向各種機器學習和人工智慧應用的裝置,這可以節省系統面積、功耗和複雜性,最高可達 0.25 TOPs。
Cortex-A320 將 Armv9 安全性和前所未有的 AI 效能水平帶入超高效的 Cortex-A 層,為軟體開發人員提供了開發和部署要求越來越高的用例的新可能性,為邊緣 AI 裝置開啟了新時代。透過將 A 級架構及其周圍的軟體生態系統與效率和靈活性相結合,Cortex-A320 帶來了可擴充套件性和多功能性,可瞄準物聯網及其他領域的多個市場。
參考連結
https://www.theregister.com/2025/02/26/armv9_cortex_a320/
https://newsroom.arm.com/blog/introducing-arm-cortex-a320-cpu
END
👇半導體精品公眾號推薦👇
▲點選上方名片即可關注
專注半導體領域更多原創內容
▲點選上方名片即可關注
關注全球半導體產業動向與趨勢
*免責宣告:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察轉載僅為了傳達一種不同的觀點,不代表半導體行業觀察對該觀點贊同或支援,如果有任何異議,歡迎聯絡半導體行業觀察。
今天是《半導體行業觀察》為您分享的第4048期內容,歡迎關注。
推薦閱讀
『半導體第一垂直媒體』
即時 專業 原創 深度
公眾號ID:icbank
喜歡我們的內容就點“在看”分享給小夥伴哦


相關文章