
近日,Arm 正式釋出了其全球首款 Armv9 邊緣 AI 計算平臺。據介紹,該平臺以全新的 Arm Cortex-A320 CPU 和邊緣 AI 加速器 Arm Ethos-U85 NPU 為核心,可支援執行超 10 億引數的端側 AI 模型。
全新發布的 Arm Cortex-A320 是 Arm 首款基於 Armv9 架構的超高能效 CPU,專為物聯網應用最佳化,也是該全新計算平臺的核心元件。與上一代 Cortex-A35 相比,Cortex-A320 在機器學習(ML)計算能力上提升了 10 倍,標量計算效能提高了 30%。同時其能效比較 Cortex-A520 提升了 50%。此外,Cortex-A320 支援四核共享叢集,可根據不同需求靈活擴充套件,滿足各種應用場景的需求。
作為此次邊緣 AI 計算平臺的另一核心, 對 Transformer 網路具有原生支援的 Ethos-U85 NPU 是 Arm Ethos-U 產品線中的第三代 NPU。與前一代產品相比,該 NPU 的效能提升了四倍,能效提高了 20%,並且可在主流網路上實現高達 85% 的利用率。
Cortex-A320 CPU 和 Ethos-U85 NPU 實現了深度配合:Cortex-A320 可以為 Ethos-U85 提供更高的記憶體容量與頻寬,讓大模型在 Ethos-U85 上的執行如虎添翼;任何開發者們不希望在 Ethos-U85 上執行的 AI 操作,可以回退到 Cortex-A320,利用其 Neon/SVE2 引擎更靈活有效地在 CPU 上執行。這使智慧物聯網與消費類電子生態系統能夠在正確的時間,並在合適的地方執行最適合的工作負載。
與去年釋出的基於 Cortex-M85 搭配 Ethos-U85 的平臺相比,全新 Armv9 邊緣 AI 計算平臺的 ML 計算效能提升了 8 倍,帶來了顯著的 AI 計算能力突破, 助力大模型與生成式 AI 在物聯網領域的落地。
值得一提的是,Cortex-A320 充分利用了 Armv9 增強的安全性和 AI 計算特性, 這些特性此前已經在其他市場得到廣泛應用,而 Arm 現在也將其引入物聯網領域。
在安全性方面,Cortex-A320 引入了 Secure EL2, 該特性增強了 TrustZone 內部的隔離性,支援更安全地執行軟體容器 ; 指標驗證 / 分支目標識別(PACBTI)可有效緩解跳轉和返回程式設計中的指標安全隱患 ; 記憶體標記擴充套件(MTE)可透過記憶體標記機制,使駭客更難利用漏洞進行攻擊,提高整體系統安全性。
在 AI 計算能力方面,增強的 Neon 和可伸縮向量擴充套件 (SVE2) 技術,可提供更高效的 ML 計算能力 ; 支援 BFloat16 等新資料型別,提高了 AI 計算的精度和能效 ; 而新增的矩陣乘法指令,優化了 AI 和 ML 計算效能,加速神經網路推理和訓練任務。
去年,Arm 推出了 Kleidi 軟體庫,並將其引入了智慧手機和伺服器市場,它包含最佳化 AI 負載在 Arm CPU 上執行的 KleidiAI 和加速機器視覺的 KleidiCV。現在,Arm 將 Kleidi 擴充套件到了物聯網。KleidiAI 是一套專為 AI 框架開發者設計的計算核心,讓開發者可以無縫地在 Arm CPU 上獲取最佳效能。它支援如 Neon 和 SVE2 等 Armv9 架構的關鍵特性,大幅提升了 AI 的計算效率。此外,KleidiAI 已經整合到多個主流 AI 框架,包括 Llama.cpp、ExecuTorch 和 LiteRT(透過 XNNPACK),可加速 Meta Llama 3 和 Phi-3 等主流 AI 大模型,進一步釋放 AI 計算效能。
從 AI 發展初期開始,Arm 技術一直推動著邊緣智慧創新的發展軌跡。此次釋出的全新 Armv9 邊緣 AI 計算平臺可覆蓋多個應用場景,實現包括視覺和自然語言在內的多模態的環境感知與理解,進而執行智慧體 AI、自主規劃、執行復雜任務。展望未來,Arm 全新的邊緣 AI 計算平臺對物聯網生態系統帶來的影響值得期待。
點選底部閱讀原文訪問 InfoQ 官網,獲取更多精彩內容!
