算力普及時代,高通如何用“終端側AI”重新定義行業規則?

2022 年底,ChatGPT 以“對話即服務”的模式掀起全球 AI 革命。這場由 1750 億引數大模型引發的浪潮將科技行業捲入了一場算力儲備競賽:雲端 GPU 叢集規模不斷擴大,訓練成本持續攀升。
然而短短兩年後,這場競賽的規則正被改寫。2025 年初,DeepSeek-R1 的亮相又一次在全球掀起了熱潮,其以“極少”的引數量在 GPQA、LiveCodeBench 等基準測試中接近甚至超越 GPT-4o 等千億級引數模型,破除了“引數至上的行業迷信”。
在技術層面,作為一款推理模型,它打破傳統模型開發模式,透過演算法最佳化構建出效能強大的模型,從而降低了算力需求,讓“靠硬體堆算力”的時代逐漸進入尾聲。
在產業層面,它開啟了 AI 普惠化,中小開發者無需斥巨資搭建算力叢集,也可在智慧手機、工業控制器等邊緣裝置上部署高效能 AI 應用。
DeepSeek-R1 的出現加速了模型向終端側的過渡程序,未來將有越來越多的高質量小模型執行在終端裝置上。而這也正是接下來的發展趨勢:AI 從雲端“巨無霸”向終端“輕騎兵”的正規化轉移。
近期,作為始終引領終端側 AI 發展的企業,高通釋出了《AI 變革正在推動終端側推理創新》的白皮書 [1](下文簡稱《白皮書》),揭示了這一發展趨勢的技術邏輯,同時也描繪了未來 AI 融入生活的全景圖。
圖|高通《AI 變革正在推動終端側推理創新》白皮書截圖(來源:高通)
下面,本文將從技術突破、行業變革、生態佈局三個層面解讀白皮書的核心觀點,並探討 DeepSeek 的崛起如何加速 AI 從雲端向終端的正規化轉移。
演算法最佳化讓大模型變得“小而美”
隨著演算法技術的發展,基於大模型進行蒸餾、量化、剪枝等一系列技術最佳化處理後得到的小模型,可在不犧牲質量的前提下簡化開發過程,能夠實現本地部署,甚至執行在智慧手機、筆記本等移動裝置上。
以蒸餾為例,其利用一個複雜、龐大的模型(教師模型)去訓練一個更小、更簡單的模型(學生模型),在遷移知識的同時保持準確性,使後者能夠達到相似的效能。如今,蒸餾已經成為開發高效小模型的關鍵技術之一,催生出一系列高效小模型,尤其是面向特定任務調優的模型。
圖|兩款模型的 LiveBench AI 基準測試平均結果對比(來源:《白皮書》)
如上圖所示,透過兩個模型(Llama-3.3-70B 模型與 DeepSeek R1 對應蒸餾模型)的 LiveBench 平均基準測試資料可以看出,蒸餾在相同引數規模下可顯著提高推理、程式設計和數學任務的效能。
要知道,DeepSeek R1“滿血版”擁有 6710 億(671B)的龐大引數,但蒸餾等技術則可以將原本需雲端執行的數千億級引數大模型的“知識”壓縮至終端可承載的百億乃至十億級規模,使引數量大幅縮減的同時保留較強數學推理能力。
這也就是我們看到的引數規模從 1.5B 到 70B 不等的一系列 DeepSeek R1 蒸餾模型,用來滿足不同場景的特定需求‌。那經過一系列演算法技術壓縮後的小模型的效能會縮水嗎?其實並不會。
高通在《白皮書》中稱,得益於蒸餾等技術,小模型正在接近前沿大模型的質量。量化、壓縮和剪枝等進一步最佳化技術,有助於縮小模型規模。量化能夠降低功耗,且在不明顯影響準確性的情況下透過降低精度加速運算,剪枝則可以消除不必要的引數。
如下圖所示,在不同模型的數學和程式設計基準測試中,DeepSeek R1 32B 版本的 GPQA 基準測試得分達 62.1,接近 Claude 3.5 的得分(65.0),超過早先發布的 GPT-4o 得分(49.9),而 DeepSeek R1 7B 版本的得分(49.1)與之接近。綜合對比可見,透過一系列演算法最佳化技術,小模型的效能表現逐漸接近甚至超越(早期釋出的)大模型。
圖|不同模型的數學和程式設計基準測試(來源:《白皮書》)
實際上,不只是 DeepSeek,其他諸如 Llama、Granite、Ministral 主流模型也都擁有小引數版本的模型,對比完整版大模型,這些小模型在面向特定任務的效能和基準測試表現方面也毫不遜色。
這種變革其實是由眾多技術進步共同驅動的,比如,透過採用更長的上下文文字並簡化部分訓練流程,可以有效降低對計算資源的需求;再比如,最新的網路架構(包括從混合專家模型(MoE)到狀態空間模型(SSM)),能夠進一步減少計算成本和功耗等。
因此,藉助演算法最佳化技術將大型基礎模型“濃縮”為更小型、更高效的版本,不僅能實現更快的推理速度、更少的記憶體佔用和更低的功耗,同時可以保持較高的效能水平,適合部署在智慧手機、筆記本甚至汽車等終端側裝置上,能夠本地運行復雜 AI 任務,比如即時翻譯、程式碼生成和多模態互動等。
正如高通技術公司高階副總裁兼技術規劃和邊緣解決方案業務總經理馬德嘉(Durga Malladi)所指出的那樣,“隨著模型規模的不斷縮小,模型的質量仍在不斷提升。這意味著如今終端上執行的模型已經有非常出色的表現。”
“從全域性來看,AI 進入了一個新的發展階段,儘管模型訓練、聚合仍將在雲端進行,但同時模型推理將在終端進行,帶來卓越的效能、隱私性及安全性,同時大幅度降低時延,也就是我們所稱的即時性。此外,這些模型和使用者體驗也可以面向消費者和企業實現個性化。”他補充說。
越來越多模型加速“落戶”終端
隨著模型越來越小、效能越來越強,終端裝置上跑 AI 早已成為現實,而這也帶來諸多優勢。
首先,本地部署模型具有低延遲、高效率,並且離線也可使用。由於所有計算任務均在終端裝置上執行,無需依賴網路請求,對於那些對即時性要求極高的應用尤為合適,比如即時翻譯、語音識別、自動駕駛,以及工業檢測等,只要終端裝置擁有足夠算力就能帶來非常優秀的即時效能。
舉個例子,DeepSeek-R1 自發布後迅速走紅,使用者量爆炸式增長,很多使用者在使用中都頻頻遇到“伺服器繁忙,請稍後再試”的提示,而把模型部署在本地以後這一問題便可以解決。
其次,隱私方面。由於無需將資料上傳到雲端,可以有效防止資料洩露,尤其是在金融、醫療、法律等領域,這一點尤為重要。
最後,成本方面。由於沒有 API 訂閱費用,可大幅減少長期使用的成本。據 Artificial Analysis 估計,OpenAI 的雲推理成本為 4.38 美元/百萬 token,而在終端上執行幾乎是免費的。
雖然把模型部署在終端裝置有一定門檻,但這個門檻正變得越來越低:一方面是上面提到的模型越來越小,效能越來越強;另一方面,終端裝置晶片算力不斷提升。事實上,隨著模型從雲端向終端滲透,這也催生並加速了行業對終端裝置高算力晶片的需求。
在這個過程中,高通憑藉自身在硬體整合、軟體生態、跨領域覆蓋以及與合作伙伴協作等方面的全方位優勢,在持續推動 AI 在終端側的規模化應用。
在硬體方面,透過定製 NPU、CPU、GPU 和低功耗子系統,開發高能效的 SoC(比如驍龍 8 至尊版以及驍龍 X 系列平臺),支援終端裝置執行復雜 AI 任務;在軟體方面,透過提供高通 AI 軟體棧、AI Hub 等工具,簡化模型最佳化與部署,加速開發者創新週期。
細分領域來看,比如針對工業物聯網,高通推出的 AI 邊緣計算方案(Qualcomm AI 本地裝置解決方案和 Qualcomm AI 推理套件)可以讓敏感客戶資料、調優模型和推理負載能夠保留在本地,增強隱私性、可控性、能效和低時延;此外,高通推出的 Wi-Fi 聯網平臺(高通 A7 Elite 專業聯網平臺)集成了 AI 技術和 Wi-Fi 7 標準,使路由器與接入點能夠直接在網路內為各種智慧裝置執行高效的生成式 AI 推理。
在車機端,高通驍龍數字底盤解決方案在其情境感知智慧座艙系統中使用終端側 AI,增強汽車安全和駕駛體驗。透過利用攝像頭、生物識別、環境感測器以及多模態 AI 網路,可提供根據駕駛員狀態和環境條件而調整的即時反饋和功能。
圖|簡化的車內 AI 系統架構以支援智慧座艙、自動駕駛和先進駕駛輔助(來源:《白皮書》)
具體而言,為提升自動駕駛和輔助駕駛系統的效能,高通設計了一套完整的解決方案,利用大量真實路況資料和增強的 AI 資料進行快速訓練,並支援透過 OTA 升級系統;此外,它還涵蓋一個軟體平臺能夠在車機處理多種型別的資料(包括影像、聲音等),並透過因果推理來更好地理解複雜的交通狀況,讓自動駕駛和輔助駕駛更加智慧和可靠,適應現代道路的各種挑戰。
在 PC 端,高通推出的驍龍 X 系列平臺,專門為實現高效能和高能效推理而開發的 NPU 進一步提升了 Windows 應用程式的表現,透過在終端裝置上進行推理,使用者的敏感資料無需上傳至雲端,從而進一步增強了隱私保護。比如 Zoom、剪映等流行的第三方應用,基於驍龍 X 系列平臺的 NPU 為 Windows 11 AI+PC 提供特定的 AI 功能,可以帶來更快速、更安全的使用者體驗。
在手機端,高通推出的驍龍 8 至尊版移動平臺,讓越來越多的智慧手機具備 AI 推理能力,也催生出了更多種類的 AI 應用程式和助手,比如文件摘要、影像生成與編輯以及即時翻譯等。
更為關鍵的是,AI 還可以透過預測使用者需求並主動執行復雜的工作流程來進行決策和任務管理,而這,將成為下一代使用者介面(即 AI 智慧體)的核心。
“因此我們關注的焦點已不再是模型本身,而是演進到終端上的應用發展。”馬德嘉指出,“隨著終端側可以執行越來越多高質量的模型,越來越多的 AI 應用和用例開始湧現。AI 正在重新定義所有終端的使用者介面,這也意味著,AI 正在成為終端側新的 UI。”他補充道。
互動正規化迎來變革:“AI 正在成為新的 UI”
傳統意義上,UI 無非是圖形使用者介面(GUI)或是命令列介面(CLI),隨著 AI 的滲透,透過自然語言,或語音、手勢等多模態方式進行互動成為未來趨勢。
《白皮書》中指出,“AI 正在成為新的 UI。”在高通看來,AI 智慧體是下一代使用者互動的核心,它將簡化互動,透過預測使用者需求,並在終端和應用內主動執行復雜工作流,高效地跨越各種應用進行決策和管理任務。
要知道,傳統 UI(如按鈕、選單)依賴使用者明確操作,而 AI 驅動的 UI 能透過分析使用者行為、環境資料和上下文,主動預測需求並提供服務。例如,根據日程自動調整裝置模式、預載入常用應用等。
同時,AI 的加持實現從單一到多模態“升維”,互動不再侷限於點選或輸入,而是整合語音、手勢、視覺(如攝像頭識別情緒)、感測器資料(如位置、光線)等多種輸入方式,形成更自然的“類人”互動體驗。
這意味著,AI 不僅僅是被動響應使用者指令,還能夠主動預測需求並執行任務,這是互動方式從被動到主動的根本性轉變。
從這個意義上講,AI 作為 UI 不僅僅是互動方式的轉變,也標誌著互動正規化的變革,從“人適應機器”轉向“機器適應人”。
“包括語音/音訊、文字、影像、影片和感測器資料等不同型別資訊輸入,不再直接應用於某個具體的 App,而是先傳輸到 AI 智慧體。隨後,AI 智慧體對其進行相應的處理,再將工作負載分配給後臺的不同應用。”馬德嘉解釋道,“對於使用者而言,AI 智慧體就是唯一在前端與他們互動的 UI,而所有實際應用的處理都是在後臺完成的。”‍
(來源:高通)
雲端算力固然強大,但面對這類即時響應、個性化的使用者互動難免“力不從心”,而這恰恰是終端算力的主戰場。
高通藉助 NPU、CPU、GPU 等硬體最佳化,在手機、PC、汽車等可實現低延遲、高能效的多模態 AI 處理。比如,在手機上直接進行即時翻譯、AI 影像編輯、個性化推薦等;在汽車上透過攝像頭和生物識別監測駕駛員狀態,自動調整駕駛模式或發出警示。
如上文所述,透過硬體創新(高效能 SoC)、軟體生態(AI Hub、AI 軟體棧)和跨領域佈局(手機、PC、汽車、工業),高通與眾多合作伙伴正推動 AI 從“功能附加”轉型為“互動核心”,讓 AI 更隱形、更人性化地融入人們的日常生活。
AI 變革加速推動終端側推理創新
隨著訓練成本的降低、快速推理部署,以及針對邊緣裝置的新技術不斷湧現,AI 產業正在經歷一場重大變革。業界的關注點不再僅僅是單純地透過拼算力、堆引數來構建超大模型,而是更多地轉向如何在實際應用中,尤其是在終端裝置上高效地部署和使用這些模型。
值得一提的是,近年來,高效小模型的釋出數量變得越來越多,或將在未來佔據主導地位。如下表所示,據 Epoch AI 釋出的統計資料,2024 年釋出的大模型中,有超 75% 的模型不到 1000 億引數。
圖|按引數量劃分,近年來發布的 AI 模型數量(來源:《白皮書》)
畢竟,經過演算法最佳化後“小而美”的高質量小模型,在特定任務效能表現、成本、能耗,以及本地部署等眾多方面都更具優勢,與此同時,越來越多高效小模型的湧現可供開發者選擇並幫助他們進行應用開發。
憑藉“硬體 – 軟體 – 生態”的全棧能力,高通與合作伙伴正引領 AI 從“雲端訓練”向“邊緣推理”的轉型,推動 AI 技術更高效、更普及地融入日常生活與行業應用,開啟終端側 AI 的新時代。
不久的將來,AI 應用將更加智慧、高效且無處不在,就像由斯派克·瓊斯執導的科幻電影《Her》中的虛擬人工智慧助手薩曼莎,每個人的智慧手機中都擁有一個 AI 智慧體。
正如高通公司總裁兼 CEO 安蒙所預測的那樣,“五年後,大多數應用將成為 AI 優先的體驗,若要大膽一點,我認為在兩年後就將看到改變。”
參考資料:
[1].https://www.qualcomm.com/content/dam/qcomm-martech/dm-assets/documents/ai-disruption-driving-innovation-on-device-inference.pdf
[2].https://www.qualcomm.com/news/onq/2024/12/how-ai-on-the-edge-fuels-the-7-biggest-consumer-tech-trends-of-2025

相關文章