從雲端到端側,大模型+智慧體打造智慧新生態

來源:中國資訊通訊研究院
物聯網智庫 整理
在“2025中國信通院深度觀察報告會”上,中國工程院院士鄔賀銓發表了主題為《端側發力AI引流賦新質》的演講。
以下內容根據演講原文整理:

大模型的落地路徑

大模型如今備受關注,但是基礎大模型在落地方面仍有不足:

一是大模型作為Copilot(助手),快思考有廣度但缺深度欠精準;

二是大模型質量取決於提問水平或對任務的精確描述;

三是工程/醫療等領域未經實驗/臨床實踐,書本知識難成感悟;

四是基礎大模型的大而全對特定任務大材小用且低效。
那麼,大模型如何落地呢?可參考四大路徑。

一是以Maas(模型即服務)模組形式將場景大模型及工具鏈嵌入雲端,可加入使用者資料微調,從而降低使用者使用大模型的門檻。

二是基於基礎大模型訓練行業/場景大模型,透過瘦身成為端側大模型,下沉到終端或邊緣。

三是基於大模型的提問/應答閉環迭代,將知識形成感悟,得到輕量化的智慧體小程式。

四是物理實體透過大模型上雲+下沉+智慧體獲得具身智慧。

端側大模型

剛才提到,大模型的發展需要向端側邁進,透過精簡大模型使其能夠部署到端側。除了模型壓縮之外,端側的算力也需要提升。透過這些技術手段,目前大多數手機已經能夠實現大約10億引數的推理能力,但這仍然無法滿足終端智慧的全部需求。當前,有些高階手機已經具備支援70億引數推理的能力,未來有望實現百億甚至千億引數的推理能力。
端側大模型低成本、低時延、高隱私、個性化,可離線執行。結合終端上的感測器和攝像頭,大模型可實現更精準的環境感知和目標檢測;結合終端的語音識別和自然語言處理能力,大模型可以實現更智慧的人機互動和智慧助手。
端側大模型用於處理那些不需要大量複雜推理或快速響應的應用程式。將在動漫與影片創意、遊戲和虛擬世界、語音合成與轉換、視覺和影像處理、聊天機器人、醫療輔助、人臉識別等領域廣泛應用。

從大模型到智慧體(AI Agent)

智慧體的生成:面向特定場景利用大模型訓練得到。基於大模型在行動中學習,閉環迭代長思考推理形成長期記憶/感悟,以小程式/APP形式表達。透過學習使用者習慣和偏好,記憶並模仿使用者行為。

智慧體將大模型的知識轉化為感悟,可與大模型協同,或獨立於大模型執行特定任務(代理)。如果把大模型比喻為智慧手機的OS,智慧體就相當於APP。

智慧體的應用

智慧體增加了很多應用能力。
手機上的智慧體:可學習使用者操作手機的行為,接受使用者語音或文字輸入並理解使用者意圖,自動操作手機上APP等操作。無需多輪對話,利用深度防偽的聲紋識別來快速支付。
PC上的智慧體:從瀏覽器開始探索人機互動,理解瀏覽器頁面包括畫素和文字、程式碼、影像和表單等網頁元素資訊,透過瀏覽器擴充套件程式使用這些資訊為使用者完成任務。
RPA(機器人流程自動化)工業智慧體:記錄和模擬使用者在各類操作終端上的人機互動行為,代替人來自動完成固定、重複、標準流程的工作。
機器人的RPA智慧體:可快速收集、清理、標準化和標記來自多系統的訓練資料供大模型訓練和推理。可跟蹤並解釋AI模型採取的步驟,解決AI黑箱問題。
此外,智慧體還可以應用於財務管理、風控管理、供應鏈管理等多個領域。

AI智慧終端

AI手機和AI PC

如今,手機已嵌入簡化的大模型與智慧體,釋放了使用者創作內容的潛力。使用者可在手機上透過文字生成圖形或影片,甚至實現照片中人物與風景的智慧融合。手機還可實現同聲傳譯,識別多種語言甚至手語,並具備反詐功能。隨著手機端側大模型與智慧體的普及,將帶動新服務業發展,啟用萬億元規模的手機與 PC 市場。IDC預測到2026年中國市場近50%的終端裝置的處理器將帶有AI引擎技術。

AI眼鏡

眼鏡始終觀察外界,適於作為人機介面。
AI眼鏡基於AI增強語音互動功能,自動呼叫裝在眼鏡上的麥克風、揚聲器、攝像頭、無線短距通訊模組等硬體,連線嵌入智慧體或大模型的手機,可離線或上雲。
AI眼鏡提供識別(語音、手勢、物體),翻譯(文字、語音,未來還包括手語),即時語音播報(天氣、導航、導遊)等。AI眼鏡還可以識別唇語,在嘈雜環境中識別成功率超過95%。AI眼鏡相當於手機的智慧外設。
AI眼鏡智慧化、互動性、便攜性、舒適度、個性化,更易在C端滲透。wellsenn XR預測2029年AI眼鏡年銷5500萬副,到2035年有望達14億副。

美國Meta公司的Ray-Ban Meta眼鏡

AR眼鏡與空間計算

人類進化出空間智慧,看見的2D圖紙可在大腦轉換成3D影像甚至加入時間維度成為影片。大模型下沉AR眼鏡可基於所見真實影像空間計算出相關定量描述並生成虛擬場景實現虛實融合。直接或經手機上雲的輕量級AR銀鏡將從工業與醫療上應用率先進入市場,具有影片透視(vsT)或光學透視(osT)功能,支援語音和手勢或眼球互動。
未來,我們有望透過光學技術將相關應用拓展至增強現實(AR)領域。人類本身具備空間計算能力,即便面對平面的文字,也能在腦海中構建出三維甚至動態的空間場景。藉助 AI 技術嵌入終端裝置,我們能夠賦予手機類似的空間計算能力。
視訊會議成為常態,但人們只能在螢幕上看到彼此的頭像,缺乏真正坐在一起的沉浸感。然而,藉助 AR 眼鏡,我們可以將遠方的夥伴“拉”到眼前,營造出一種真實且舒適的互動體驗。
在工業場景中,AR 眼鏡還能實現對物體的透視功能,調取其內部引數。這無疑是未來終端裝置發展的一大創新方向。

具身智慧與人形/車形機器人

大模型+智慧體+物理實體,增加了多種感知能力和互動能力,我們發展了具身智慧。

大模型+智慧體+機器人,構成了人形機器人。

具身智慧落在汽車上形成了車形機器人(智慧網聯車)。

那麼這些實際上都有賴於端側大模型以及相應的智慧體。

雲端與車端模型協同

車聯網更是體現了雲端與車端的協同配合。在雲端,我們能夠進行模型訓練與推理,同時完成車輛軟體的更新以及車輛間的資訊共享。而在車端,車輛將具備約2Pflops的計算能力,足以支援智慧座艙的執行,並實現毫秒級的處理速度。例如,當車輛感知到右下方的路況時,駕駛者不僅能看到前方的情況,還能透過車內的系統感受到全域性資訊。這種能力不僅能幫助駕駛者更好地理解路況,還能引導他們進行智慧駕駛決策。

端側大模型+智慧體

端側大模型+智慧體引發了通訊終端模式的變革,體現在以下幾個方面:
  • 終端形態多樣化:手機、PC、眼鏡等可穿戴裝置、感測器/工業模組、機器人、網聯車等;
  • 終端功能智慧化:從智慧終端到AI終端,從通訊終端到智慧體/具身智慧,還可離線使用;
  • 人機互動多模化:自然語言、觸控式螢幕、手勢、唇形、眼神等,從GUI到VUI(語音介面)並發展為Agent UI,APP存在感和獨立性被弱化,轉而成為系統背後的服務工具;
  • 內容供應個性化:獲取資訊的方式從瀏覽到對話,內容的產生從對外檢索到使用者生成(在終端內生成與雲端協同生成),提問與獲得的資訊模態轉換(文生圖與文生影片),從內容預製到內容定製,千人千面;
  • 通訊連線多元化:從點到點(含接力、流量分擔與冗餘併發)到P2MP/MP2P(包括多歸屬、多切片),智慧網聯車PC5/Uu介面分別實現V2V和V2N連線,以多歸屬/多切片實現多感測器與車聯網多裝置互聯:AR視訊會議將異地參會者影片組成MP2MP連線。
  • 計費模式差異化:基於體驗從流量計費到服務質量計費,從計費單元從頻寬到Token或算力,計費方式從包月、流量包到預訂機時等。
當前,端側大模型+智慧體對網路技術產生了一定的影響。
首先是大上行與高突發
2024年10月,我國固寬百兆和千兆接入分別佔94.8%和30.4%,固寬下行平均220Mbps,但上行僅44Mbps(Speedtest資料)。採用專線接入可提高上行能力,但因平時無需高頻寬而利用率低且成本高。採用彈性無損智算IP網可支援10GE/100GE使用者接入,按流量時長計費。
2024年10月,我國5G使用者佔移動使用者55.6%,移動網下行平均140Mbps,但上行也僅23Mbps(Speedtest資料)。需要採用5G-A的大上行技術來適應。
其次是雲邊端協同,雲與端間需要大頻寬低時延高可靠傳輸。
模型引數及梯度(端側訓練的模型引數上傳到雲上,對雲上大模型進行全域性引數更新,再下發到端側調整本地引數,反覆迭代全域性尋優);傳輸傳輸模型訓練或推理的原始資料;傳輸在終端中生成的影片等。
可採用RDMA無損高吞吐廣域網,輔以負載均衡精準流控,支援海量樣本快速入算和存算分離拉遠訓練服務。

未來展望

行動通訊換代演進成功的經驗是終端與網路協同發展,2G的數字終端、3G的智慧終端、4G的資料終端,5G終端有下載速度但功能上與網路能力不相稱。現在大模型下沉和智慧體嵌入OS將開啟AI終端時代。
AI終端改變了人機互動方式,尤其是自然語言互動解放了雙手,在語言的基礎上發展為多模態,豐富了內容的供應與生成,提升了智慧體驗。
AI終端及其應用推動網路技術創新,帶動軟硬體產業及新型資訊服務業的發展。AI終端將成為人工智慧技術落地應用的切入點,也是數字經濟發展賦能的新增長點,還是傳統產業數字化轉型的著力點。
端側大模型+智慧體為更多的開發者投身人工智慧技術開發展現廣闊的應用場景,帶動起AI技術的眾包時代,開拓產業的新生態。

相關文章