開啟人機互動新正規化:科學家構建超級智慧體基礎設施體系,突破AI部署的“不可能三角”

英偉達創始人兼 CEO 黃仁勳在 CES 2025 大會上曾經表示:“世界上有 10 億知識工作者,AI 智慧體(Agent)可能是下一個機器人行業,很可能是一個價值數萬億美元的機會。”這一判斷引起人們對未來 AI 智慧體形態更深入的思考。
AI 智慧體有望徹底改變人機互動方式,或許我們將處於這樣的場景:手機中只需要一個高度智慧化的“超級數字助手”,而不再需要安裝繁雜種類的 APP。
使用者僅需透過自然語言對話,就能完成訂機票、撰寫文件、傳送郵件甚至社交溝通等複雜任務,實現真正意義上的自然互動。
近期,美國 AI 初創公司 TensorOpera 的研究人員提出了一套名為超級智慧體系統(Super Agent System)的完整解決方案 [1]。
這套系統不僅僅是概念設想,而是一整套真實執行的基礎設施體系,其核心模組包括意圖路由與自動規劃、任務專用智慧體、智慧模型選擇系統和端雲混合部署。
圖丨超級智慧體系統概述(來源:arXiv
Super Agent System 為 AI 智慧體的實際應用提供了可靠的技術支撐,有望部署在手機、機器人等終端裝置,並加速智慧家居裝置之間協同工作,完成複雜的任務。
例如,當用戶回到家時,系統僅透過一個 Agent 自動協調各類裝置:燈光智慧開啟,窗戶自動關閉,關閉涉及隱私敏感的攝像頭;當用戶離開家時,系統又智慧重啟相關裝置。
當系統整合掃地機器人等裝置後,可主動感知使用者狀態,在檢測到使用者外出時主動詢問是否啟動清潔功能,進而有望實現全屋裝置真正的自動化協同管理。
圖丨姚宇航(來源:姚宇航)
日前,相關論文以《面向混合人工智慧路由器的超級代理系統》(Toward Super Agent System with Hybrid AI Routers)為題發表在預印本網站 arXiv 上 [1]。TensorOpera 研究科學家姚宇航是第一作者,TensorOpera 的 CEO 何朝陽擔任通訊作者。
圖丨相關論文(來源:arXiv
姚宇航本科畢業於上海交通大學 IEEE 試點班,後在美國卡內基梅隆大學獲得博士學位。專注於 AI 智慧體、大模型推理和聯邦學習系統的研究。
他指出,大模型本身並不能直接應用於實際場景,而 Super Agent System 的突破性意義在於,搭建了從基礎模型到實際應用的完整橋樑。這種端到端的智慧解決方案不僅可提升家居自動化水平,更開啟了人機協作的新正規化。
提升效率的關鍵:選“對的”模型,比選“大”模型更重要
隨著大語言模型技術的快速發展,超級智慧體(Super Agent)正在成為連線使用者意圖與實際任務執行的重要橋樑。
然而,打造一個真正泛化、可靠的智慧體系統,並非簡單呼叫大模型就能實現。
早期的模型部署技術在應對高併發請求時表現不佳,效率問題凸顯。這需要解決包括模型選擇、任務分配、系統容錯等在內的一系列複雜的技術挑戰。
姚宇航解釋說道:“每個 Agent 都‘各有千秋’,它們分別承擔了特定的功能,就像是擁有不同專長的人。當系統接到某項任務時,需要智慧地判斷是交給某個 Agent 單獨完成,還是交給多個 Agent 共同協同工作。”
有句廣告語“只選對的,不選貴的”,對於模型的選擇也同樣適用。儘管 DeepSeek、ChatGPT 等大模型擁有強大的效能,但對於總結文件、日常聊天等簡單任務,利用小模型或呼叫經過微調的專家模型往往更高效。
該團隊所開發的 TensorOpera Router(以下簡稱為“Router”)[2] 本質上是一個“Prompt-to-Model”分類系統。其透過谷歌的 BERT 等語義理解模型和監督學習方法,透過分析任務需求,動態選擇最適合的專家模型對相關請求進行處理。
圖丨 Router 系統對路由器資料準備、路由器模型訓練和部署流程的概述(來源:arXiv
Router 系統的技術優勢體現在多個維度:
首先,它能精準識別任務的複雜度。例如面對數學問題時,系統可以識別“1+1=2”這類簡單計算無需呼叫大模型,而對看似簡短實則複雜的問題則能匹配專家模型。
其次,系統整合了生物、金融等領域的微調專家模型,透過智慧路由實現最優模型組合,為高效智慧地進行多模型選擇提供了新方案,而這種智慧的路由方式是之前靜態路由所無法實現的。
更重要的是,Router 創新性地解決了模型選擇中準確率、效率和成本的“不可能三角”問題。
在 8 臺 NVIDIA DGX H100 GPU 的實驗條件下,相比於固定模型推理,Router 實現了最高 30% 成本下降(基於真實商業定價模型),以及 40% 的吞吐量提升。即便面對模型服務商動態調整計費策略(如按 API 呼叫次數收費)的情況,系統仍能保持高效執行。
考慮到真實高併發場景(如每秒數萬次請求)下單點故障的情況,研究人員設計了一種冗餘機制:當某次請求失敗時,系統可自動切換到備用節點重新發起請求,以保障系統的持續正常執行。
在技術指標方面,模型選擇效能接近最優模型選擇,BERT 相似度評分提升達 10%;在邊緣-雲混合部署架構中,Router 系統能夠有效將大部分請求分配到如 Fox-1.6B 等邊緣小模型上,僅將複雜任務交給 GPT-4o 等雲端模型,從而實現了推理效率與資源排程的最佳配置。
圖丨對獨立部署的專家模型和不同路由方法的模型效能、吞吐量和總查詢成本進行了全面的分析(來源:arXiv
目前,該技術已在實際應用場景中展現出顯著價值。例如,TensorOpera 與高通合作,成功將 Router 部署在高通顯示卡上,顯著提升了能效比和價效比。
另一個典型案例是某大型聊天網站,透過 Router 架構每天高效處理 300 萬次訪問請求。“我們僅用少量 GPU 資源就滿足了他們的業務需求,這充分證明了智慧路由系統的商業價值。”姚宇航表示。

解決 Agent 實際部署難題:四大核心模組,構建超級智慧體的作業系統
在 Router 基礎上,研究人員透過開發 Super Agent System 實現了技術架構的進一步擴充套件。
Super Agent System 採用模組化設計理念,由四大核心元件構成一個完整的智慧體生態系統。
1. 意圖路由與自動規劃(Intent Router + Planner)
使用者只需輸入自然語言請求,系統會自動識別其意圖並路由到合適的任務 Agent(如財務分析、程式碼生成、內容檢索等)。
圖丨透過函式呼叫對使用者意圖進行分類(來源:arXiv
值得關注的是,系統還能自動生成多 Agent 協作的執行計劃。以使用者需要寫一篇關於不穩定關稅交易策略的文章為例,該系統會自動規劃並協調三個 Agent 構成完整的流程,它們分別負責:查詢即時關稅資訊、設計金融策略,以及實現 C++ 程式碼。
姚宇航表示:“整個流程完全自動化,不需要手動編寫程式碼。Planner 就像一名專案經理,能自主完成任務分解,並智慧分配給不同的 Agent 完成,實現高效地解決問題。”
這種協作還可以無限擴充套件,據介紹,現階段研究人員正在嘗試更大規模的 Agent 協作,嘗試讓 1000 個 Agent 進行協作和交流,共同完成蓋房子等更復雜的任務。
圖丨自動代理工作流計劃(來源:arXiv
2. 任務專用智慧體(Task Agents):專業 Agent 專注完成特定任務
每個 Task Agent 都是一個“任務專家”,集成了記憶(Memory)、工具使用能力(Tool Use)與檢索增強生成能力(RAG,Retrieval-Augmented Generation)。
它們可呼叫資料庫、執行 API 操作,甚至與物理世界進行互動,從而實現從數字到物理的複雜任務自動化。
圖丨任務代理的示例(來源:arXiv
3. 智慧模型選擇系統(Model Router):選擇“最優解”模型
不同廠商的模型在架構、引數規模和最佳化目標上存在差異。面對種類繁多的大模型,如何選擇最合適的模型來處理當前任務?
智慧模型選擇系統 Router 作為 Super Agent System 核心模組之一,透過對提示語語義的理解,自動選擇在準確率、響應速度與成本三者中最優的模型,動態路由任務請求。
圖丨具有成本最佳化配置的模型路由器(來源:arXiv
即便是金融分析或寫程式碼等同類任務,由於任務的難度不同,需要根據任務的複雜程度選擇不同的模型。
姚宇航舉例說道:“對於複雜的任務,我們可以使用滿血版的 DeepSeek 模型;而對於簡單的任務,我們可以使用 Fox 等小模型。這樣能夠在準確率、響應速度和成本之間找到最佳平衡。”
4. 端雲混合部署(Edge-Cloud Hybrid):讓 AI 智慧體執行在手機上
該團隊認為,未來超級智慧體將執行在終端裝置(如手機、機器人)上,結合小語言模型與雲端大模型協同工作,既保障了隱私性和即時性,又確保了複雜任務的處理能力。
特別是在當下火熱的具身智慧領域,機器人可以依託本地算力完成常規任務,僅在必要時尋求雲端支援,實現了計算資源的最優配置。這樣,機器人既可以利用本地的強大能力,又能透過雲端獲取更廣泛的支援。
圖丨邊緣裝置的模型路由器首先嚐試透過小語言模型在本地解析使用者查詢(來源:arXiv
需要了解的是,Super Agent System 並非傳統的單體架構,而是採用模組化、外掛化的設計理念,為不同場景需求提供靈活可配置的解決方案。這種設計理念為未來智慧體開發開闢了新的技術路徑,有望加速 AI 應用在各行業的落地程序。
該架構為開發者帶來了新的可能性:開發者只需定義任務意圖與流程規劃,系統可自動分配 Agent 執行;其次,可根據實際場景靈活部署在本地、邊緣或雲端;最後,系統元件具備極強的“系統演化能力”,可隨著模型更新動態替換,進而具備持續進化的能力。
ScaleLLM:大模型推理不只是加速,而是系統級重構
要構建一個真正具備實用價值的智慧體系統,單純依靠“模型本體”的效能是遠遠不夠的。系統級的延遲控制、吞吐量最佳化和併發處理能力,才是決定其能否實現大規模部署的關鍵因素。
針對這一技術挑戰,該團隊創新性地開發了 ScaleLLM[3]——一個專為真實世界智慧體服務場景設計的高效能端到端推理框架。
該系統採用多層級機制進行部署,透過自動擴充套件機制,在真實負載下實現了對主流推理引擎的顯著提升:在 64 併發請求場景下,與 vLLM(Virtual Large Language Model)相比,效能提升 4.3 倍,吞吐量提升 1.5 倍。
其突破性源於多種技術創新在:首先,系統採用 Rust 語言編寫高效能閘道器,徹底規避了 Python 全域性直譯器鎖的效能限制;其次,整合 FlashAttention、PagedAttention 等前沿技術,顯著優化了鍵值快取(Key-Value Cache)管理和動態批處理效率。
圖丨 ScaleLLM 服務系統概述(來源:arXiv
談及技術的未來發展,姚宇航表示,當前的模型部署模式與賈揚青創立的 Lepton AI 公司有相似之處,但智慧體系統因其解決實際問題的能力,有望創造更高的商業價值。
總體來說,研究人員正在構建完整的超級智慧體基礎設施體系:從智慧意圖識別到動態模型排程,再從 ScaleLLM 高效能推理系統到端雲協同架構。
這種系統級創新徹底改變了傳統的人機互動模式——使用者的一條簡單提示背後,不再是單一模型生成應答,而是一整套智慧體系統在幕後完成複雜的任務分解、協作和執行流程。這種變革預示著:在不久的將來,執行在個人終端裝置中的超級智慧體,有望成為人類與數字世界互動的全新正規化。
參考資料:
1.https://arxiv.org/html/2504.10519v1
2.Dimitris Stripelis, Zhaozhuo Xu, Zijian Hu, Alay Dilipbhai Shah, Han Jin, Yuhang Yao, Jipeng Zhang, Tong Zhang, Salman Avestimehr, and Chaoyang He. 2024. TensorOpera Router: A Multi-Model Router for Efficient LLM Inference. In Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing: Industry Track, pages 452–462, Miami, Florida, US. Association for Computational Linguistics.
3.Yuhang Yao, Han Jin, Alay Dilipbhai Shah, Shanshan Han, Zijian Hu, Dimitris Stripelis, Yide Ran, Zhaozhuo Xu, Salman Avestimehr, and Chaoyang He. 2024. ScaleLLM: A Resource-Frugal LLM Serving Framework by Optimizing End-to-End Efficiency. In Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing: Industry Track, pages 279–289, Miami, Florida, US. Association for Computational Linguistics.
4.https://finance.yahoo.com/news/nvidia-jensen-huang-says-ai-044815659.html?guccounter=1
運營/排版:何晨龍


相關文章