
(本文閱讀時間:7分鐘)
編者按:隨著基礎大模型能力的不斷提升,智慧助手等真實世界應用對即時影片處理提出了更高的要求。然而,現有方法在高幀率影片流處理上效率低下,難以滿足即時感知與響應的需求。近日,微軟亞洲研究院聯合南京大學提出的 StreamMind 系統,透過事件感知特徵提取器(EPFE)和認知門控(cognition gate)兩項核心技術,實現了感知與認知的解耦,突破了高幀率影片處理的瓶頸。StreamMind 不僅在多個基準測試中取得 SOTA 效果,還為智慧助手等應用的即時感知與響應提供了全新解決方案,為在真實世界場景中的AI部署帶來了新的可能性。
當今基礎大模型的能力提升催生了諸多真實世界應用,如智慧助手等。這類助手透過智慧眼鏡等智慧裝置時刻與使用者相伴,持續感知和理解使用者所在環境、發生的事件以及使用者指令,並據此即時主動地給使用者提供幫助。比如導盲助手,在使用者要過馬路時會輸出“稍等現在有車經過”,“現在可以安全透過”等幫助提示。除了依賴大語言模型的世界知識和推理能力,此類智慧助手更依賴對持續輸入影片流的理解能力,以及可以在相關事件發生時立即發出響應的即時處理速度。
然而,當前技術並不能完成這個目標。因為智慧助手需要自主判斷什麼時刻輸出響應,但現有做法如 VideoLLM-online 會將每一影片幀輸入大語言模型做判斷,如圖1(左)所示,這種做法顯然開銷很大(O(n^3),n 為幀數),遠不能匹配 O(n) 的影片幀率。
為解決這一問題,微軟亞洲研究院聯合南京大學提出了 StreamMind 系統。該系統徹底改變了 AI 助手處理流媒體影片的方式,將流影片的處理能力提高了10倍,即使對 100fps 的遊戲影片也能夠達到全幀率影片流理解。在 Ego4D、SoccerNet、COIN 等基準的各類評估指標上全面取得 SOTA 效果。

圖1:現有流影片處理正規化,每幀呼叫 LLMs(左)和 StreamMind 基於事件門控的感知認知解耦(右)。
StreamMind: Unlocking Full Frame Rate Streaming Video Dialogue through Event-Gated Cognition
論文連結:
https://arxiv.org/abs/2503.06220
不同於過去利用大模型處理影片流的每一幀,研究員們提出了一個巧妙的核心思想:使用基於事件的門控網路實現對流影片感知與認知的解耦,如圖1(右)所示。該思想受人腦以事件(而不是每一幀)為粒度的感知、認知和記憶機制為啟發,透過門控網路控制,僅在使用者關心的事件發生時才會呼叫大模型來認知。其中,使感知部分的處理速度與影片幀率匹配,是 StreamMind 能夠突破高幀率影片限制的關鍵。這一思想帶來了流影片處理正規化的創新。
StreamMind 演示影片:
影片1:導盲助手 StreamMind vs 當前 SOTA 方法。當前方法由於開銷大,響應發出時刻遠落後於事件的發生時刻。而 SteamMind 的響應與事件發生時刻匹配。
影片2:即時足球賽事影片解說
影片3:即時做飯指導

為實現“使用基於事件的門控網路實現對流影片感知與認知的解耦”這一思想,StreamMind 提出了兩個具體的關鍵技術(如圖2所示)。
首先,事件感知特徵提取器(Event-Preserving Feature Extractor,EPFE)被設計用於解決當前影片大模型在影片特徵提取過程中存在的時間區域性性問題。透過利用狀態空間模型對長時間物理訊號的強擬合性,引入基於狀態變換的影片時序特徵提取器。該提取器具備強大的事件表徵能力,僅需一個感知 token 即可維持對影片流的事件記憶能力。同時,事件級別的感知 token 為後續處理提供了 O(1) 的計算效率,使得模型對影片幀的感知速度能夠匹配流影片的生成速度。
認知門控(cognition gate)是另一個關鍵技術。判斷當前事件是否與使用者請求相關,是否需要輸出響應,是門控網路中一項極具挑戰性的任務,因為使用者請求往往和影片幀沒有直接相關性。例如,當用戶提出“幫我修腳踏車”這樣的請求時,系統需要大模型憑藉其世界知識來判斷當前時刻是否該提醒使用者如何操作。但門控網路的輸出結果卻相對簡單,只有 yes/no。
因此,StreamMind 提出了基於淺層大模型遷移的認知門控。該門控網路被賦予了淺層 LLMs 的世界知識,能夠進行感知事件與使用者需求相關性的判斷,從而將影片流感知與使用者需求相結合,展現出強大的自主判斷能力。同時,輕量化的門控網路結合固定一個 token 的影片特徵輸入,讓流影片的即時感知成為可能,實現了高效的自主判斷速度。

圖2:StreamMind 系統圖。EPFE(藍色)持續提取影片特徵,門控網路(紅色)判斷是否需要呼叫大模型。

StreamMind 在不同幀率下的處理速度均遠超現有方法,即使面對 100fps 的遊戲影片流,StreamMind 也能做到全幀率理解。

圖3:處理不同幀率下流影片的一秒內容所需時間的對比(A100 GPU)。StreamMind(橘色)可以達到每秒100幀處理速度。
在基準測試中,StreamMind 透過 Ego4D(涵蓋全球74個地點、923名參與者錄製的3670小時第一視角影片)、SoccerNet(12場歐洲頂級聯賽足球比賽影片)和 COIN(11827個跨12領域的教學影片)等資料集,全面評估了線上影片解說、行為預測和任務識別(如換輪胎和炸薯條)等多工效能。實驗結果表明,StreamMind 在各類指標上均取得最佳效果,證明了其在複雜動態場景下的魯棒性和泛化能力。

表1:Ego4D、SoccerNet 實驗

表2:Ego4D LTA 資料集實驗

表3:COIN 資料集實驗
StreamMind 不僅拓寬了流媒體影片理解的技術邊界,更為現有即時影片理解提供了全新思路。透過始終線上的持續視覺感知和認知,StreamMind 能夠主動為人類的日常活動提供及時的幫助,賦能智慧助手在真實世界場景中的部署與應用。
你也許還想看:
