作者:彭昭(智次方創始人、雲和資本聯合創始合夥人)
這是我的第358篇專欄文章。
2025年伊始,科技大咖們的判斷出奇一致,黃仁勳、奧特曼、扎克伯格…都認為2025是AI智慧代理之年。
-
生成式AI→現在時
-
代理型AI→馬上到來
-
實體型AI→不遠將來
這是英偉達CEO黃仁勳在消費電子展CES 2025上的最新判斷。
他在主題演講中梳理了AI技術的進化路徑,從感知型AI,到生成式AI,再到現階段發展火熱的代理型AI,最終實現具備感測與執行功能的物理型AI。
而伴隨著AI代理的湧現,有一類基於裝置的人工智慧可能會優先發生,就是AIoT代理。這些代理並不像物理型AI那樣基於自動駕駛的汽車或者人形機器人等“大件”,而是基於小型的端側裝置,實現AI代理的功能。
我們都知道,AIoT是人工智慧AI和物聯網IoT的融合,它透過實現智慧資料分析、決策和自主行動,正在徹底改變行業。
AIoT代理,即AI代理與物聯網IoT裝置的融合,處於這一轉型的最前沿。這些AIoT智慧代理旨在增強物聯網系統的功能、連線性和自主性,從而為各個領域帶來前所未有的機遇和應用。
在AIoT 2.0時代,發展的核心將是AIoT代理,即能夠感知環境、推理並採取行動實現特定目標的智慧軟硬體實體。這些代理不僅僅是被動感測器;它們是主動的,能夠從資料和經驗中學習,不斷提高效能。
其實AIoT代理並不是異想天開,在2024年第一季度,李飛飛團隊已經聯合微軟發表了一系列論文,探討了與物理世界相結合的AI代理的趨勢、分類、如何構建通用基礎模型,以及存在的挑戰。
這些論文包括:《Agent AI- Surveying the Horizons of Multimodal Interaction》《Position Paper- Agent AI Towards a Holistic Intelligence》《An Interactive Agent Foundation Model》。
本文綜合上述論文的成果,並做以延展,介紹什麼是AIoT代理、AIoT代理的形態以及可能的應用場景。
什麼是AIoT代理
AIoT代理是AI代理和IoT的融合,是指將AI功能與IoT裝置整合的自主軟體實體。這些代理可實現智慧決策、資料分析以及裝置、人類和物理環境之間的即時互動。
AIoT代理代表了AI代理(具有自主決策能力的AI系統)與物聯網(裝置收集和傳輸資料)的融合。與依賴基於雲的分析的傳統物聯網系統不同,AIoT代理具有情境感知、主動性,並且能夠隨著時間的推移進行學習。

在論文《Agent AI- Surveying the Horizons of Multimodal Interaction》中,研究團隊從“空間智慧”的視角,討論了Agent在物理和虛擬環境中的互動性。
論文中的圖片,展示了多模態跨現實感知AI代理的架構,概括了AI代理與環境互動、學習和決策的關鍵組成部分。具體來說,該架構包括以下幾個核心模組:
-
環境與感知:透過感知模組,智慧體接收來自物理世界或虛擬世界的資訊輸入,獲取對環境的觀測。
-
智慧體學習:該模組負責智慧體的學習過程,包括從環境互動中學習(如強化學習)、從專家示範中學習(如模仿學習)等。
-
記憶:記憶模組為Agent提供長期記憶和短期記憶能力。長期記憶儲存Agent對世界的知識和理解,而短期記憶則跟蹤Agent在執行任務過程中的狀態變化歷史,以支援及時地調整策略。
-
行動:根據感知、學習、記憶等模組的資訊,Agent透過行動模組採取相應動作,並影響外部環境。
-
認知:認知模組是統籌協調感知、學習、記憶、行動等功能的核心,體現了Agent的整體認知能力,使其在複雜多變的環境中做出恰當反應。
總的來說,該架構突出了感知、學習、記憶、行動、認知等要素在塑造Agent整體智慧方面的重要作用,以及Agent與物理和虛擬環境持續互動、積累經驗和知識的動態過程。
而AIoT代理則融合了語言理解、視覺感知、運動控制、任務規劃等多種能力,代表了通用人工智慧AGI發展的一個重要方向。近年來,大型語言模型LLM、視覺語言預訓練模型VLM等大模型的突破,為賦予AIoT代理更強大的感知認知和環境互動能力帶來了新的機遇。
一方面,大語言模型可以讓AIoT代理獲得接近人類的語言理解和語言生成能力,使其可以更自然地與使用者對話交流,快速理解指令並做出相應行動。
另一方面,視覺語言模型使AIoT代理具備匹配甚至超越人眼的影像識別能力,可以精準感知和定位環境中的物體,並對視覺輸入資訊進行語義理解。

借鑑論文中的架構,AIoT智慧的基本架構可以簡化為上圖,簡化後的架構包含以下組成部分:
-
感知:Agent透過感知模組接收外界環境的資訊輸入,獲取對世界的觀測。這是Agent實現感知環境、採集資料的基礎。
-
推理:推理模組是Agent的核心部件,它在感知資訊的基礎上,利用知識庫中的世界知識,對當前環境狀態進行分析、判斷,並規劃後續行動。推理過程體現了Agent的智慧性和自主性。
-
行動:根據推理的結果,Agent透過行動模組採取相應的動作,並影響外部環境,這是Agent實現目標的關鍵。
-
互動:Agent透過與環境的持續互動來感知外界變化、積累知識、並評估行動效果。互動是Agent實現感知-決策-行動閉環的紐帶。
-
世界知識庫:這是Agent的知識庫,儲存了其對世界的理解和記憶。Agent在推理決策時會呼叫這些知識。隨著與環境互動的不斷深入,其知識庫也在持續擴充和更新。
-
學習:學習模組使得Agent能夠在與環境的互動中,不斷積累新知識、最佳化已有策略。透過學習,Agent的世界知識庫得以擴充,行為策略得以改進,智慧水平得以提升。
總的來說,該架構展示了一個智慧Agent“感知→推理→行動”的工作流程,以及知識、學習、互動等要素在該流程中扮演的重要角色。
AIoT代理將人工智慧的認知能力與物聯網裝置的連線和資料收集能力相結合。這些代理不僅可以收集和分析來自不同來源的資料,還可以自主決策並執行操作以最佳化流程和結果。人工智慧和物聯網的整合產生了協同效應,從而打造出更智慧、響應更快、適應性更強的系統。
AIoT代理以大型AI模型為核心,透過感知、推理、決策、執行等環節與物理世界互動,有望成為人工智慧落地應用的重要抓手,為萬物智聯AIoT 2.0時代的到來開啟嶄新的可能性。
這些系統不僅能對資料做出反應,還能主動預測和採取行動,這對於需要精確性和靈活性的行業來說非常有價值。

更進一步,在論文《Position Paper- Agent AI Towards a Holistic Intelligence》中,研究團隊提出了通用型AI代理的整體框架和關鍵組成部分。
在這一框架下,AIoT代理可以與其他型別的AI代理一起,被置於一個包含物理世界、VR / AR / MR、元宇宙等多重現實的環境中,旨在實現整體智慧和具有湧現能力的通用人工智慧。
具體來看,該框架涵蓋了以下幾個層次:
-
跨模態層:強調Agent需要具備多模態理解和互動能力,包括同情心/意識、人機互動、具身操縱、基礎設施和智慧系統等方面。
-
任務層:細化了智慧體需要執行的具體任務,涉及感知、認知、醫療保健、導航、行為識別和預測、語言理解、知識和推理等方面。
-
個體模型層:描述了構成Agent的各類基礎模型,包括生成模型、分類模型、視覺/分割模型、音訊模型、情感模型和神經模型等。
-
基礎模型層:概括了支撐上述各層模型訓練所需的通用基礎模型,涵蓋視覺-語言標註資料、影像資料、影片資料、語音情感資料、神經資料、醫療資料、跟蹤資料、行為資料、語言知識資料和邏輯資料等。
總之,該框架從現實環境複雜性、跨模態理解、任務多樣性、模型異構性等多個維度,系統地刻畫了實現通用人工智慧所需的關鍵要素。而AIoT代理或許將成為其中的重要組成部分。
AIoT代理的分類

在大型預訓練模型、小模型等加持下,AIoT代理將逐步擺脫被動接受指令的桎梏,走向更加智慧化、自主化的發展階段。它們將具備主動探索環境、持續學習進化的能力,透過從各類資料來源汲取新知,不斷完善和更新自身的知識與技能。
基於知識推理和目標規劃,AIoT代理可針對環境的動態變化自主地調整策略和行為,完成各類複雜的任務。
基於論文《Agent AI- Surveying the Horizons of Multimodal Interaction》中的AI代理分類,AIoT代理可以包含如下類別:
1、具身AIoT代理
具身人工智慧的目標是創造出諸如機器人等智慧體,使其學會創造性地解決需要與環境互動的具有挑戰性的任務。
儘管這是一個重大的挑戰,但深度學習的重要進展以及大型資料集(如ImageNet)可用性的不斷提高,已經在許多此前被認為棘手的AI任務上實現了超人的表現。這些進展極大地推動了具身AI的發展,使得越來越多的使用者能夠朝著與機器進行互動的智慧Agent迅速發展。
具身AIoT代理又可進一步劃分為行動AIoT代理和互動AIoT代理。
行動AIoT代理是指需要在模擬的物理環境或真實世界中執行物理動作的Agent。具體而言,它們需要積極地與環境進行互動活動。
互動AIoT代理是指可以與世界互動的Agent,是一個比行動智慧體更廣泛的類別。它們的互動形式不一定需要物理動作,但可能涉及向用戶傳遞資訊或修改環境。
例如,一個具身互動AIoT代理可以透過對話回答使用者關於某個主題的問題,或幫助使用者像聊天機器人一樣解析現有資訊。
2、模擬與環境AIoT代理
模擬和環境AIoT代理是在模擬環境中相互互動和通訊的獨立實體。它們用於對複雜系統進行建模和模擬。AIoT代理學習如何在環境中行動的一種有效方法是透過與環境的互動進行反覆試錯。一種代表性方法是強化學習,它需要大量的失敗經驗來訓練Agent。儘管存在使用物理Agent的方法,但使用物理Agent耗時且成本高昂。此外,在實際環境中失敗可能是危險的情況下(例如自動駕駛、水下航行器),在物理環境中訓練往往是不可行的。因此,使用模擬器來學習策略是一種常見的方法。
總之,無論是具身AIoT代理還是模擬與環境AIoT代理,AIoT是人工智慧與現實世界互動的重要舞臺,而AIoT代理則有望成為架起想象與現實之間橋樑的關鍵技術載體。
AIoT代理的應用

AIoT代理可能的應用場景包括:
智慧城市
AIoT 代理可能可以幫助改善城市基礎設施、改善資源管理並提高居民的生活質量。具體應用包括智慧交通管理、節能建築、廢物管理和公共安全系統。AIoT 代理可實現即時監控和控制、預測性維護和資料驅動的城市規劃。
衛生保健
在醫療保健領域,AIoT代理可能將改變患者護理、診斷和運營效率。它們有助於患者遠端監控、個性化治療計劃和疾病預防預測分析。支援AIoT的醫療裝置可以收集和分析患者資料、提醒醫療保健提供者注意潛在問題,甚至可以自主管理治療。
工業自動化
AIoT代理可以透過最佳化製造流程、減少停機時間和提高產品質量來改變工業自動化。它們能夠實現預測性維護、裝置即時監控和生產線自適應控制。AIoT代理還可以促進供應鏈最佳化並確保智慧工廠的無縫執行。
智慧家居
在智慧家居領域,AIoT代理可提高舒適度、安全性和能源效率。它們集成了各種智慧裝置,例如恆溫器、照明系統和安全攝像頭,以建立一個有凝聚力的智慧家居環境。AIoT代理可以瞭解使用者偏好、自動執行例程並響應不斷變化的條件,以改善整體生活體驗。
不過,讓AIoT代理從受限場景走向開放世界依然任重道遠。如何增強它們面對全新環境時的適應力,是一個關鍵挑戰。湧現式機制和持續學習能力或許是突破這一瓶頸的“鑰匙”。
例如,AIoT代理可以透過對話互動從人類使用者那裡獲取環境資訊以及行為反饋,或是利用其他IoT感測器的資料來校準其決策模型。
再如,賦予AIoT代理虛擬模擬環境中的自主訓練能力,讓它們在數字孿生世界中反覆練習,也可以有效提升真實場景下的執行效果。
除了通用智慧,面向行業應用的專用AIoT代理也大有可為。以工業機器人為例,AIoT代理可望在視覺引導、扭矩控制、智慧裝配等環節實現革命性突破。在自動駕駛領域,AIoT代理可利用多感測器融合感知技術,即時規劃車輛軌跡,大幅提升行車的安全性和舒適度。而在智慧醫療方面,AIoT代理或將成為醫生的得力助手,提供智慧診斷、手術規劃等服務,讓每一位患者獲得更精準周到的診療。

因此,AIoT代理有可能成為AI代理經濟中的一股重要力量。
如上圖所示,包括通用領域的AI代理、垂直行業的AI代理,以及面向消費者的AI代理。在後兩個領域,垂直行業和消費者應用,AIoT代理都可以一展身手。
寫在最後
毋庸置疑,AIoT代理的研發和落地應用仍有不少障礙需要跨越。其中,如何保障人機協作的安全性,避免智慧代理做出違揹人類意圖、危及生命財產的決策,是當前業界高度關注的倫理問題。因此,加強跨學科合作,建立健全法律法規體系,是保障AIoT代理健康發展的必要工作。
參考資料:
Agent AI- Surveying the Horizons of Multimodal Interaction,作者:Zane Durante、Qiuyuan Huang、Li Fei-Fei等,來源:arXiv.org
Position Paper- Agent AI Towards a Holistic Intelligence,作者:Qiuyuan Huang、Naoki Wake、Li Fei-Fei等,來源:arXiv.org
An Interactive Agent Foundation Model,作者:Zane Durante、Bidipta Sarkar、Li Fei-Fei等,來源:arXiv.org
Position Paper- Agent AI Towards a Holistic Intelligence,作者:Qiuyuan Huang、Naoki Wake、Li Fei-Fei等,來源:arXiv.org
An Interactive Agent Foundation Model,作者:Zane Durante、Bidipta Sarkar、Li Fei-Fei等,來源:arXiv.org


