在柏拉圖的《理想國》中有一個洞穴隱喻的故事,一群囚徒從小就被鎖在一個洞穴裡面對牆壁,身後有一堆火,囚徒們一生所見只有映在牆壁上的影子,便以為這些影子就是真實的世界。
大模型也曾被類似的「影子」誤導,一度將大力出奇跡的預訓練奉為圭臬。直到 2025 年初 DeepSeek R1 展現的推理能力,AI 從僅僅觀察影子的階段,轉向以自省和辯證的方式探尋真知。
DeepSeek 讓模型走出「洞穴」,也在改變智慧終端的正規化。
DeepSeek 蒸餾模型在問世不到兩週內便實現在搭載驍龍平臺的商用終端上的執行,AI 硬體將不再只是提升估值的「性感故事」,而是已經具備實際的應用價值和商業潛力。
高通最新發布的白皮書《AI 變革正在推動終端側推理創新》指出,DeepSeek 的推出標誌著 AI 進入推理創新時代,訓練成本下降、快速推理部署和針對邊緣環境的創新,正在推動高質量小模型的激增,加速 AI 跨邊緣終端的部署。
清華大學副教授、面壁智慧聯合創始人兼首席科學家劉知遠也提出,這種從「規模至上」到「效率優先」的轉變,為端側 AI 提供了重要啟示:透過模型壓縮、引數最佳化和演算法創新,可以在保持模型效能的同時,大幅降低計算資源需求,使其適合在終端裝置上執行。
使用 DeepSeek 蒸餾後的 Qwen-7B 模型,已經能夠在效能上與去年所推出的且當時最為先進的 GPT-4o 雲端模型持平。
這也意味著,過去很多隻能在雲端執行大規模引數的模型,能部署到隨身的終端裝置中,在本地完成複雜的推理過程,甚至可能實現滿血執行。同時,在端側 AI 的新浪潮下,我們正見證智慧終端的又一次關鍵轉折——從單純的功能性裝置到具有自主理解和行動能力的智慧體(Agent)。
端側 AI 的技術拐點:從「規模至上」到「推理創新時代」
兩年前,比爾·蓋茨釋出了一篇部落格,稱在有生之年見證了兩次革命性的 Demo ,第一次是在 1980 年看到了圖形使用者介面(GUI)——現代作業系統的前身,另一次則是在 GPT-3.5 前幾個月看到 AI 的回答方式。
然而作為普通使用者,對這種改變的感知顯然沒那麼強烈,因為互動的變革的載體離不開智慧終端,就像 iPhone 將功能機時代的按鍵操作轉變為觸控互動,進而重塑了整個智慧手機生態。
或許未必是一個全新形態的終端,而是智慧終端帶來的全新體驗形式——從應用驅動向智慧體驅動。
就像高通 CEO 安蒙在去年年底提到的新趨勢,AI 是新的使用者介面(UI)。端側 AI 的落地將改變傳統的互動邏輯。
使用者無需開啟特定應用,AI 智慧體可透過多模態輸入(語音、影像、影片)直接執行任務。這些功能背後其實離不開邊緣側 AI 支援。
比如榮耀 Magic7 系列中 YOYO 智慧體的許多互動功能就需要終端側 AI 處理能力的支援,驍龍 8 至尊版搭載的高通 Hexagon NPU 為終端側提供了足夠強 的 AI 算力,可以在手機本地完成推理和理解等 AI 任務。
過去端側 AI 受限於硬體效能,而大模型的計算需求卻在快速增長,雖然此前搭載驍龍 8 至尊版的智慧手機已經能在端側執行 7B 規模的模型,但針對一些複雜的生成式 AI 用例和高質量影像生成等任務,還是需要結合雲端算力。
不過現在端側 AI 的技術拐點已經出現,《AI變革正在推動終端側推理創新》白皮書中指出了加速端側 AI 落地的四大趨勢:
當前先進的AI小模型已具備卓越效能,透過模型蒸餾和新型網路架構,效能已經超越一年前僅能在雲端執行的更大模型
模型引數規模正在快速縮小,先進的量化和剪枝技術使開發者能在保持準確性的同時減小模型體積
開發者能夠在邊緣側打造更豐富的應用,如文字摘要、程式設計助手和即時翻譯
讓 Agent 成為新互動入口,個性化多模態AI智慧體將簡化互動
高通技術公司高階副總裁、技術規劃和邊緣解決方案業務總經理馬德嘉告訴愛範兒,隨著模型規模不斷地下降,日後 10-20 億引數規模的模型將會佔用更少的執行記憶體,更好地適配 8-12GB 記憶體設定的終端。
高通技術公司擁有三大業界領先的處理器單元,這些處理器對於端側 AI 的發展非常重要。
馬德嘉表示,「我們有業界領先的定製高通 Oryon CPU,並已經應用於我們的 PC、移動和汽車平臺。」
高通 Adreno GPU 能夠滿足終端側 AI 執行所需要的眾多功能需求;此外,高通 Hexagon NPU 完全面向處理生成式 AI 工作負載而設計。
這三大處理器單元必須都具備業界領先的能力且能夠協同工作,才能實現異構計算,滿足生成式 AI 的發展需求,而在這一領域高通有著非常強大的優勢。
端側 AI 的落地對晶片架構提出了更高的要求,高通的做法是,將 NPU、GPU 和 CPU 整合到終端中的異構計算架構,從而在更低功耗下輸出更高算力,且滿足不同場景的 AI 處理任務需求。
這一架構的核心是三大處理器單元之間,如同一支交響樂隊般的協同合作:
高通自研 Oryon CPU:最新的第二代 Oryon CPU 採用臺積電 3nm 工藝,最高主頻達 4.32GHz,超大快取設計(業界最大 24MB 二級快取)顯著降低 AI 推理時延。
高通 Adreno GPU:滿足終端側 AI 執行的多樣化功能需求,特別在平行計算和影像處理方面表現出色。
高通 Hexagon NPU:專為處理生成式 AI 工作負載而設計,讓驍龍 8 至尊版上實現了45% 的 AI 效能提升和 45% 的 AI 能效提升。
其中 Oryon CPU 在手機與汽車晶片中的複用。這意味著這些終端裝置可以採用共通的底層架構,有更好的相容性,互相之間的互聯互通也會更加通暢。
這種異構計算架構在最新發布的眾多驍龍 8 至尊版旗艦手機上已經有所體現, iQOO 13 利用驍龍 8 至尊版的 AI 算力,打造了 AI 電競訊號引擎,透過 AI 智慧最佳化網路,實現多工場景下時延更低,可以邊玩遊戲邊影片或直播。
REDMI K80 Pro 則將 AI 技術應用於連線體驗,帶來了小米星辰 AI 多網融合,可以進行智慧訊號預測,讓網路自動最佳化。在地鐵場景下,微信影片卡頓率降低 31%,短影片卡頓率降低 29%。
如果說智慧終端已經進入 Agent 時代,那麼異構計算架構就是智慧體的「中央神經系統」,不僅處理各種感官資訊,還能協調「思考」與「行動」,保證端側 AI 高效、流暢、穩定地執行。
正如高效能賽車不僅需要強勁的引擎,還需要精密的調校和優秀的賽車手一樣。端側 AI 的實現不僅僅依賴於強大的硬體算力,同樣離不開高效、完善的軟體工具支援。
對開發者來說,其實不需要知道硬體端的具體設計細節,更重要的是軟體工具庫支援,讓他們能夠按照自己所需,非常自由、靈活地選擇所需的框架、runtime 和工具,面向任何作業系統設計 AI 應用和智慧體。
在提供硬體基礎的同時,高通也在構建 AI 軟體棧,包括庫(libraries)、SDK 和最佳化工具,可簡化模型部署並提升效能。
開發者可以利用這些資源,面向高通平臺高效進行模型適配,縮短 AI 賦能應用的上市時間。無論端側 AI 的算力有多強大,也只有透過應用來釋放出來,最終才能轉化為使用者體驗。
在實際應用中,你可以拿起手機識別你將用於烹飪的食材,成功識別後,讓手機幫你生成對應的菜譜,還能讓手機給你一些低卡路里選單組合。
烹飪完成後,你可以透過攝像頭,向手機詢問這些食物所包含的卡路里。憑藉智慧手機如今對多模態 AI 能力的支援,這個用例可以完全在終端側實現。
這種場景正是智慧體作為新平臺的典型應用——使用者不再需要開啟多個應用,而是透過自然互動直接完成複雜任務。
這種以開發者為中心的策略,大大簡化了在消費和商用產品中整合先進 AI 特性的過程,也在加速 AI 推理創新在端側的應用。
目前已經有眾多智慧手機、PC、汽車廠商在終端裝置中接入 DeepSeek,開始了利用高質量小模型在終端側升級AI體驗,或是打造全新 AI 應用的實踐。邊緣側 AI 應用的創新蓄勢待發。
如果你是一個開發者,對不同細分領域的晶片平臺的 AI 部署也有了更迫切的需求。高通去年釋出的高通 AI Hub 跨出了一大步,讓開發者選擇相應平臺和開發模型、編寫應用,最後在不同型別的移動終端上進行部署。
高通 AI Hub 包含超過 100 個預最佳化的 AI 模型,如Llama、Allam 3B、通義千問、OpenAI 等廠商模型,支援在搭載驍龍平臺的終端上無縫部署,釋出一年以來,目前已有超過 1500 家企業在使用,進一步推動了端側 AI 應用的普及。
AI Hub 覆蓋的終端也不斷增加,馬德嘉向我們介紹,高通 AI Hub 可支援移動、PC、IoT、汽車,甚至 Wi-Fi 聯網終端平臺,比如第二代高通機器人 RB3 平臺這一面向 IoT 領域的機器人平臺。
高通正在成為端側 AI 生態構建者,透過與全球 AI 模型廠商的積極合作,不僅提供了強大的計算平臺,還開發了完整的軟體棧和開發工具,使開發者能夠更輕鬆地將 AI 模型整合到應用程式中。
智慧終端的 Agent 時代真正到來之前,這個行業需要先構建完整的端側 AI 生態系統。
在中國隋朝,曾誕生了一個名留千史的建築工程專家宇文愷,他不僅規劃了貫通南北的水道網路,更創新性地設計了船閘系統,解決了不同水位間船隻通行的技術難題。用「通則興,塞則衰」的系統思維,將分散的河道整合成一個互聯互通的交通網路。
這與高通為端側 AI 提供的統一而高效的計算基礎頗為相似。正如大運河的修建需要克服地形、水文等諸多挑戰,端側 AI 所面對的,是來自不同終端裝置、不同應用場景的更加多樣化和複雜的需求。這其中不僅包括了硬體效能的限制,還包括了模型大小、功耗、延遲等多重約束。
而要讓 AI 真正融入到這些多樣化的終端中,正如宇文愷當年規劃大運河一樣,需要一位「首席架構師」來進行頂層設計,打造出強大的底層架構來支撐其高效執行。這個架構不僅要能處理海量資料,還要能靈活適應各種應用場景。
這種從具體到抽象、從工程到技術的遞進,實際上也反映了人類文明發展的基本脈絡。
人類文明的傳承本質就是資訊蒸餾的過程。從中世紀一字一句地謄抄、資訊時代的系統化結構,到 AI 推理時代,資訊的提煉呈現出新的形態——模型透過強化學習來發展推理能力,像嬰兒透過不斷的自我探索來認識世界。
像前面提到的高通 AI Hub ,它構建的預最佳化模型庫,使開發者能將適應終端裝置的模型的,應用在高通手機、PC 和汽車等多終端中的技術基礎。
模型輕量化是端側 AI 普及的關鍵。DeepSeek 蒸餾模型已經可在驍龍平臺智慧手機和 PC上直接執行。這種技術突破類似於大運河工程中的節水閘門設計,以最小的資源消耗實現最大的通行效率。
研究機構 Counterpoint Research 預測,2025 年將成為生成式 AI 手機的關鍵拐點。
生成式AI技術正在成為中高階手機的標配。預計 2025 年全球生成式 AI 手機滲透率將從 2024 年的 19%提升至29%,出貨量約 4 億臺,到 2027 年 ,生成式 AI 手機出貨量預計達 5.5 億臺(佔整體市場 43%)。
此外,全球邊緣 AI芯 片規模預計從 2023 年 76 億美元增至 2027 年 252 億美元(CAGR 27.1%),汽車、工業物聯網和醫療是核心增長領域。
端側 AI 的能力注入到終端的每一個角落,從智慧手機到汽車,從 XR 頭顯到 PC,一條連線不同終端、促進智慧體自由流動的技術「大運河」正在形成。