或能讓大模型看懂所有手機資訊？科學家基於驍龍8Gen3處理器打造小語言模型家族，已進行全流程開源

近日，北京郵電大學徐夢煒教授和團隊面向高通的旗艦版手機晶片驍龍 8gen 系列，訓練出一個小語言模型家族 PhoneLM。PhoneLM 包括 5 億和 15 億引數量兩種規模，以及基座版本和微調後的版本。PhoneLM 在模型能力和手機側推理效率兩方面都達到了很好效果：在各種公開基準測試集中的結果顯示，PhoneLM 處在同尺寸且基於開源資料集的模型中的最強梯度。同時，在未使用任何推理最佳化技術的前提下，PhoneLM-1.5B 在驍龍 CPU 上的解碼效率達到每秒 58tokens，比其他同尺寸模型普遍快 1.2-1.6 倍。

圖 | 本地執行的 PhoneLM 示例。左圖為 Chat 模型 demo；右圖為端到端個人代理 demo（來源：arXiv）

此外，PhoneLM 全流程進行開源 [1]，開源內容包括整個模型結構、資料集的構建、訓練和微調程式碼等，保證所有結果都是可復現的。此外，他們還基於 PhoneLM 構建出一個純端側個人代理的端到端 demo，完全本地化地實現了檢索增強生成（RAG，Retrieval Augmented Generation）和大模型推理過程，能夠將使用者自然語言指令轉換成具體的 APP 意圖呼叫，例如“給張三發簡訊恭喜他的論文被錄用”。據該團隊介紹，這個 demo 是基於該團隊自研的端側大模型推理高效引擎 mllm 實現的 [2]。

日前，相關論文以《PhoneLM：透過原則性預訓練的高效和強大小語言模型家族》（PhoneLM：an Efficient and Capable Small Language Model Family through Principled Pre-training）為題發在 arXiv。

圖 | 相關論文（來源：arXiv）

讓大模型能看懂所有手機上的資訊

從宏觀層面講，本次研究提出了一個既樸素又有效的觀點：即大模型在設計階段就應該充分考慮目標部署硬體的特性，將模型訓練和部署用統一的視角進行最佳化設計，以便充分釋放硬體能力。具體來說，他們發現大模型經典架構下各種超引數的配置，比如長寬比、注意力頭數等對於模型推理效率的影響很大。而最終的模型能力則主要受到資料集質量和訓練演算法的影響，與模型超引數反而相關性較小。因此，他們提出如下觀點：要在目標硬體上針對模型超引數進行搜尋，確定一個推理效率比較高的模型架構，然後再使用高質量資料集對它進行訓練。一言以蔽之，在面向端側受限資源的部署場景下，模型應該更加積極地去適配硬體。

徐夢煒表示，他們團隊在做端側大模型最佳化的時候，最關注的應用就是端側 Agent（個人代理），這基本上也是大模型在端側裝置上公認的“殺手”應用。雖然具體的技術路線和形態還沒有共識，但大家都在期待大模型可以真正地把智慧終端變成一個無所不能的私人助理，既可以理解使用者也能端到端地準確執行復雜指令。目前，幾乎每一個手機廠商和大模型廠商都在試圖在這個方向上先拔頭籌，畢竟手機現在幾乎成為人類的一個“新器官”。如果大模型能看懂所有手機上的資訊，可以很大程度上理解使用者並提升我們的日常互動體驗。

端側個人代理是一個非常需要大模型本地化的場景，因為大模型需要大量的個人資訊作為輸入以提升生成和互動效果。以現在很流行的 GUIAgent 為例，透過讓大模型理解螢幕上的 UI 資訊並模擬使用者的 UI 操作，實現使用者複雜任務的自動化執行。在這個過程中，UI 資訊可能包括各類使用者隱私，比如聊天記錄、郵件資訊、賬戶密碼等，如果將這些資訊全都上傳至雲端（例如 OpenAI 的伺服器），對很多使用者來說是不可接受的。這也是之前微軟推出記憶功能（Recall）後，受到極大爭議的原因。而透過將大模型進行端側部署，可以將隱私資訊在本地直接消費，從而能夠極大降低隱私洩露的風險。

模型和硬體應該在更深層次進行協同設計

據瞭解，該團隊一直在從事端側機器學習方向的研究，長期目標是希望每個端側裝置（手機、PC、可穿戴裝置等）可以在本地執行強大的機器學習模型，實現“自治智慧”。意識到大模型的顛覆式能力之後，課題組開始重點研究端側大模型（包括語言和多模態模型）的相關最佳化技術。

相比雲端，端側大模型最大的挑戰就是資源，即端側裝置的記憶體、算力、電量等物理資源受限，這和大模型的 Scaling Law 是相悖的。這就需要在演算法、模型、系統、硬體等多個層面進行最佳化設計，實現端側大模型的高效執行。例如，最近很多大廠和創業公司釋出了一系列“小語言模型”（Small Language Model），引數量在 0.5B-5B 範圍內，透過使用更高質量的訓練資料和演算法，達到和更大引數量模型相當甚至更強的效能。但是，已有研究在演算法層面和系統層面依然比較割裂。即：模型訓練的團隊主要負責在給定引數量下設計模型結構和引數，並訓練出儘量高質量的模型；在端側硬體上的部署最佳化工作，則由另一個團隊實現。

徐夢煒認為，除了約定一個引數量限制以外，模型和硬體應該在更深的層次上進行協同設計（co-design），只有這樣才能充分釋放硬體能力，提升模型推理效率。尤其是對於領域特定加速器（如手機端 NPU）而言，如果在模型架構層沒有考慮硬體特性，就導致模型運算元和硬體設計存在語義上的重大 Gap，即使通過後續的最佳化也很難彌補。

此外，他們也意識到現在全流程開源的高質量小語言模型數量不多，對於 AI 研究社群的貢獻有限。因此，他們也希望透過開源自己的新成果，進一步降低模型的設計門檻和訓練門檻，為端側“自治智慧”貢獻力量。

圖 | 徐夢煒（來源：徐夢煒）

另闢蹊徑，做出同樣有影響力的成果

與此同時，徐夢煒也感慨道：“我們最大的感受就是大模型研究太‘卷’了。在本次專案剛啟動的時候，全流程開源的小語言模型還很少，比較有代表性的還是 TinyLlama，資料集的質量也比較一般。”但是隨著專案的進行，幾個很強的開源預訓練資料集被放出來，後來他們最終使用的是蘋果公司聯合多家單位開發的 DCLM 資料集。為此，徐夢煒團隊只能在有限的計算資源下不停地調整資料集配置，透過重複實驗來追趕 SOTA 模型的效果。儘管最終效果還算可以，但是整個過程可謂是膽戰心驚。“這給我的一個很大的體會是在大模型浪潮中，每個研究者或者團隊都因為資源的富裕度被動地被劃分到了不同的賽道。有更多的 GPU 資源，通常就有更大的研究空間。對於高校老師來說只有兩條路，第一是和企業合作獲取資源，主動地將自己的研究空間變寬；另一條路是在一條窄的賽道中另闢蹊徑，做出一樣有影響力的成果。”徐夢煒說。

因此，他和團隊將在端側大模型效能最佳化和上層 Agent 應用上繼續深入探索，包括但不限於以下幾個方面。

首先，他們將打造端側 AI 硬體友好的大模型架構和量化演算法。端側的 CPU 和 GPU 並不是為大模型設計的，而且已經在一些通用任務和渲染任務上被“用得很滿”。端側大模型的未來必然是屬於 NPU 的，但當前大模型的推理模式和 NPU 硬體特性還存在很大的 Gap，因此需要演算法-系統-硬體加以協同設計和最佳化。

其次，他們將打造端側視覺多模態大模型。當前 PhoneLM 還只能處理純文字，後續他們計劃將它擴充套件至多模態的場景，讓它可以理解端側裝置捕捉的視覺資訊。在這個場景中，他們會重點關注螢幕 GUI 資料，讓 PhoneLM 像人一樣讀懂螢幕並能進一步操作螢幕。

參考資料：

1.PhoneLM 程式碼：https://github.com/UbiquitousLearning/PhoneLM

2.端側大模型推理引擎 mllm：https://github.com/UbiquitousLearning/mllm

https://arxiv.org/pdf/2411.05046

https://xumengwei.github.io

運營/排版：何晨龍