LiquidAI推出新“液態”邊緣模型HyenaEdge,實測效率質量均超Transformer

還記得之前那個提出了新的液體基礎模型(LFM,Liquid Foundation Model)的 Liquid AI 嗎在被 AMD 投資數月後,這家來自美國麻省理工學院的初創公司又帶來新成果了。
4 月 25 日,Liquid AI 正式釋出了面向邊緣裝置的全新 AI 架構“Hyena Edge”。與目前主流的基於 Transformer 的模型架構不同,Hyena Edge 是一種基於卷積的多混合模型,專為智慧手機等邊緣裝置最佳化設計。
“人工智慧正迅速變得無處不在,從大規模雲端部署到智慧手機和筆記型電腦等資源受限的邊緣裝置。”Liquid AI 科學團隊成員 Armin Thomas、Stefano Massaroli 和 Michael Poli 在研究報告中表示,“儘管有令人印象深刻的進步,大多數為邊緣部署最佳化的小型模型,如 SmolLM2、Phi 模型和 Llama 3.2 1B,主要依賴於基於注意力運算子的 Transformer 架構。”
這些傳統架構雖然具有可平行計算和高效核心的特點,但在邊緣裝置上仍面臨效率瓶頸。而 Hyena Edge 作為一種 Liquid 架構,天生就在計算效率上具有優勢,非常適用於邊緣部署。據 Liquid AI 宣稱,Hyena Edge 在真實硬體測試中,於計算效率和模型質量兩方面均展現出超越 Transformer 基線的效能。
他們在三星 Galaxy S24 Ultra 上對 Hyena Edge 進行了測試,結果顯示該模型在多個關鍵指標上均超越強大的基於 Transformer 的基準模型。
在效率方面,Hyena Edge 展示了更快的預填充(prefill)和解碼延遲。特別是對於超過 256 個標記的序列,解碼和預填充延遲最高可提高 30%。值得注意的是,其在短序列長度下的預填充延遲也優於 Transformer 基線,這一點對響應式裝置應用至關重要。在記憶體使用方面,Hyena Edge 在所有測試序列長度下均使用更少的記憶體。
圖丨在三星 S24 Ultra 智慧手機上收集的延遲和記憶體配置檔案(來源:Liquid AI)
在模型質量方面,Hyena Edge 在經過 1000 億 tokens 的訓練後,在包括 Wikitext、Lambada、Hellaswag、Winogrande、Piqa、Arc-easy 和 Arc-challenge 在內的各種常見語言建模基準測試中表現出色。例如,在 Wikitext 上的困惑度(perplexity)從 17.3 降至 16.2,在 Lambada 上從 10.8 降至 9.4,在 PiQA 上的準確率從 71.1% 提升至 72.3%,在 Hellaswag 上從 49.3% 提升至 52.8%,在 Winogrande 上從 51.4% 提升至 54.8%。
“這些結果表明,模型的效率提升並不以預測質量為代價——這是許多邊緣最佳化架構常見的取捨。”研究團隊表示。
而 Hyena Edge 的核心技術,正在於團隊此前提出的 STAR(Synthesis of Tailored Architectures)框架及其最佳化技術。STAR 框架的核心思想是利用進化演算法(Evolutionary Algorithms)和線性輸入變化系統(LIVs,Linear Input-Varying Systems)的數學理論,來高效地探索廣闊的神經網路架構空間,並自動合成出針對特定目標(如低延遲、小記憶體佔用、高模型質量、小引數量等,可多目標同時最佳化)的“量身定製”的架構。
圖丨 STAR 框架說明(來源:Liquid AI)
與傳統的依賴人工經驗和直覺進行模型設計,或在有限空間內進行自動化搜尋的方法不同,STAR 提供了一個更全面的解決方案。LIV 理論是一個關鍵的理論基礎,它能夠統一地描述和泛化深度學習中常見的多種計算單元,包括各種注意力變體、線性迴圈網路、卷積網路以及其他結構化運算元。STAR 基於 LIV 理論,構建了一個新穎的、分層的架構搜尋空間。
在這個框架下,模型架構被編碼成一種“基因組(Genome)”。這種基因組包含了架構的多個層級資訊,從底層的特徵化(Featurization)方式、運算元結構(Operator Structure,定義了 Token 和 Channel 的混合方式),到頂層的骨幹網路(Backbone,定義了 LIV 單元之間的連線和組合方式)。STAR 的基因組設計具有良好的層次化和模組化特性。
隨後,STAR 運用進化演算法的原理,對這些架構基因組進行迭代最佳化。主要包括評估(根據預設目標衡量架構效能)、重組(組合優秀父代架構的特徵)和變異(引入隨機變化以探索新架構)等步驟。該框架支援多目標最佳化,能夠同時考慮模型質量、引數量、推理快取大小、延遲等多個可能相互衝突的指標,以尋找在這些目標間達到較好平衡的架構方案。
根據其技術文件,STAR 在最佳化大型語言模型架構時,無論是在純質量最佳化、質量與引數量聯合最佳化,還是質量與推理快取大小聯合最佳化方面,其生成的架構均能在各項指標上顯著優於高度最佳化的 Transformer++ 和 StripedMamba 等基準模型。例如,在最佳化質量和引數量時,7/8 的 STAR 進化架構在下游任務基準上超越了 Transformer++ 和混合模型,同時引數量減少高達 13%。在最佳化質量和快取大小時,7/8 的 STAR 進化架構實現了比混合模型小 37%、比 Transformer 小 90% 的快取,同時質量相當甚至更好。
在 Hyena Edge 的設計中,Liquid AI 團隊就應用了 STAR 框架。他們從一個包含 16 個候選架構的初始種群開始,進行了 24 代的進化迭代。其搜尋空間設計得非常豐富,包含了多種卷積運算元的變體,這些變體主要受到 Hyena 架構的啟發:
  • Hyena(Full):在門控機制(Gating Mechanism)和 Hyena 內部卷積中都包含卷積操作。
  • Hyena-X:排除了內部卷積。
  • Hyena-Y:排除了特徵組(門)中的卷積。
除了這三種主要的 Hyena 型別,搜尋空間還考慮了它們學習到的短距離、顯式卷積核的長度變化(從 3 到 128),總共構成了 18 種不同的卷積運算元。此外,搜尋空間還包括了分組查詢注意力的變體(具有不同的 KV 頭數量)和 SwiGLU(具有不同的內部寬度)等常見的 Transformer 元件。
在進化過程中,STAR 框架透過對每個候選架構在三星 S24 Ultra 上的初始延遲和記憶體佔用進行效能分析,並結合模型在訓練過程中的困惑度表現,不斷地將架構種群向著效率-質量前沿(Efficiency-Quality Frontier)進行最佳化。
影片丨 Hyena 運算元演化概述(來源:Liquid AI)
有意思的是,隨著進化過程的推進,當架構接近效率-質量最優邊界時,STAR 明顯地偏愛選用 Hyena-Y 型別的卷積。這表明 Hyena-Y 卷積在延遲、記憶體和模型質量之間取得了更優越的平衡。
基於這一發現,最終的 Hyena Edge 架構在一個 GQA-Transformer++ 基準模型的基礎上,將部分 GQA 運算元替換為由 STAR 最佳化選出的 Hyena-Y 門控捲積。
而最終結果如基準測試所表明的,Hyena Edge 在提升效率的同時,保持了較高的模型質量,這對於效能和資源都受限的邊緣裝置應用而言是一個重要的特性。
Liquid AI 已表示計劃在未來數月內開源包括 Hyena Edge 在內的一系列基礎模型,其目標是構建能夠適應從雲端到邊緣多種環境的 AI 系統。除了模型本身,其所展現出的設計方法,或許更值得我們的期待。
參考資料:
1.https://www.liquid.ai/research/convolutional-multi-hybrids-for-edge-devices
2.https://arxiv.org/abs/2411.17800
3.https://venturebeat.com/ai/liquid-ai-is-revolutionizing-llms-to-work-on-edge-devices-like-smartphones-with-new-hyena-edge-model/
運營/排版:何晨龍


相關文章