首次,6人7天真人秀!南洋理工等釋出第一視角AI生活管家資料EgoLife


新智元報道  

編輯:LRST
【新智元導讀】透過收集六名志願者一週的多模態生活資料,研究人員構建了300小時的第一視角資料集EgoLife,旨在開發一款基於智慧眼鏡的AI生活助手。專案提出了EgoButler系統,包含EgoGPT和EgoRAG兩個模組,分別用於影片理解與長時記憶問答,助力AI深入理解日常生活並提供個性化幫助。
當AI智慧體(如Manus)接管你的大部分工作後,你是否曾想過,如何讓自己的生活變得更加輕鬆與智慧?
試想一個未來場景:你佩戴著智慧眼鏡,一個AI助理能無縫融入你的日常生活,根據你的個人習慣提供貼心的美食建議,下班後提醒你曾經購買過的物品,甚至透過分析你和家人過去的活動來主動預測你的需求。
這樣一款「生活助手」將極大提升個人效率和家庭協作,讓AI真正成為我們生活中的得力管家。
然而,要實現這個願景,AI需要具備對超長時間跨度行為模式的理解能力,以及對社互動動細節的把握——這是現有第一人稱視角(Egocentric)人工智慧系統所欠缺的。
目前已有的一些第一視角資料集(如Epic-Kitchens、Ego4D等)支援了許多影片理解任務,但它們通常錄製時長較短,而且大多隻涉及單人的視角。這些侷限使得模型難以捕捉人們長期的生活習慣和複雜的社互動動細節。
換言之,目前還缺少一種跨越長時間、多人物、多模態的資料資源和方法,來訓練出真正懂得「日常生活全貌」的AI助理。
針對這一挑戰,來自LMMs-Lab和MMLab@NTU的研究者們啟動了EgoLife專案,致力於邁出打造以第一人稱視角為中心的AI生活助手的關鍵一步,其核心是在真實生活場景中收集海量多模態資料,並研發創新模型來理解和利用這些資料,最終實現對人類日常生活的智慧輔助。

論文址:https://huggingface.co/papers/2503.03803

可互動專案主頁:https://egolife-ai.github.io/
技術向專案主頁:https://egolife-ai.github.io/blog/
專案程式碼:https://github.com/EvolvingLMMs-Lab/EgoLife
資料和模型:https://huggingface.co/collections/lmms-lab/egolife-67c04574c2a9b64ab312c342
真實場景下的AI進化實驗:前所未有的多模態生活記錄
EgoLife 專案的基礎是一套規模空前的第一視角多模態生活日誌資料集。專案組招募了6名志願者,讓他們共同在一個裝備了大量感測器的房屋中生活7天,以籌備「地球日」活動為背景。
每位參與者都佩戴了Meta Aria智慧眼鏡,連續一週每天錄製約8小時的第一人稱影片和音訊。同時,房屋中安裝了15臺固定相機和2個毫米波雷達裝置,以同步記錄第三人稱視角的影片和動作捕捉資訊。
藉助這些裝置,EgoLife資料集中不僅有參與者主觀視角的影像,還包括客觀環境的全景監控和精確的空間位置資料,甚至透過多攝像頭融合重建出了房屋的3D模型。
最終,專案採集到了大約300小時的多視角、多模態影片資料——這是迄今為止極為豐富、逼真的日常生活記錄,為研究長時序行為和人際互動提供了前所未有的資料。
圖1: EgoLife邀請了6名參與者佩戴智慧眼鏡同住一屋7天,錄製了總計約300小時的第一人稱影片。研究團隊還在房屋內佈置了15個第三人稱攝像頭和毫米波雷達(如圖左所示),獲取同步的環境視角資料。右側展示了所有攝像機同步的採集結果
高強度資料標註,為模型訓練和評測鋪路
為了讓AI深入「讀懂」人們的生活,僅有原始影片還不夠,EgoLife資料集還配備了密集而詳細的標註。研究人員為影片標註了密集的描述和旁白:包括完整的語音轉錄文字,以及不同時間粒度的視覺-音訊敘事。
簡單來說,資料集中既有細粒度的即時字幕(描述當下看到和聽到的內容),也有每隔30秒總結性的長段說明。
圖2: 該圖是論文的主圖。右側示例展示了志願者Lucia看到Shure正在彈吉他的片段,對應的多模態資料流(影片+音訊+凝視軌跡+語音轉錄+音影片描述)以及EgoLife定義的「五大任務板」(底部)
這些詳盡標註不僅為訓練AI模型提供了監督訊號,也方便構建起各種高層語義任務。例如,基於這些標註,研究團隊構建了一個EgoLifeQA基準,收集了每位參與者約500個與生活相關的問題,共計3000道,以評測AI助理對長時記憶和複雜情境的理解能力。
值得一提的是,這些問題專門設計為需要「長時回溯」才能回答——66%以上的問題答案需要追溯2小時以前的事件,15%以上甚至涉及超過24小時之前的資訊。
問題覆蓋了五大類生活助理任務:例如詢問物品細節和使用歷史的「實體日誌(EntityLog)」 、回憶過去活動的 「事件追憶(EventRecall)」、分析個人習慣規律的習慣洞察(HabitInsight)」、理解社交互動關係的「關係圖譜(RelationMap)」 ,以及根據以往經歷輔助規劃任務的「任務管理(TaskMaster)」 。
每個問題都要求AI從使用者過去幾小時、甚至幾天的生活記錄中提取線索,給出有依據的回答。這些精心標註的資料和任務,為EgoLife專案中的核心AI系統提供了訓練和評價的平臺,也推動著智慧生活助手這一新興領域的發展。
圖3: 以志願者Katrina為例,黑色線條表示問題提問的時間,彩色線條表示需要回答該問題需要尋找的線索所在的時間
EgoButler: 雙引擎架構實現第一視角超長資訊理解
有了如此豐富的第一視角資料,EgoLife專案接下來的關鍵在於如何讓AI高效地理解和利用這些資訊。研究團隊提出的解決方案是一個名為「EgoButler」的整合系統,由兩個核心元件組成:EgoGPT和EgoRAG
EgoGPT擔當「感知描述」的角色,而EgoRAG負責「記憶檢索」和「推理回答」,二者相輔相成,使AI助理既能看懂當前發生了什麼,又能回憶起過去發生過什麼。
EgoGPT:全模態第一視角片段理解引擎
EgoGPT 是EgoLife研製的視覺-聽覺-語言模型,可以被視為AI助理的大腦中「即時描述器」和「短期分析」部分。它在現有的大型多模態模型LLaVA-OV的基礎上,專門針對第一人稱視角影片進行了最佳化訓練。
與通用的視覺語言模型不同,EgoGPT具備以下顯著特點:
融合視覺和音訊,多模態「看懂」影片片段
EgoGPT能夠同時處理來自攝像頭的影片畫面和麥克風的音訊輸入,從而「看」和「聽」使用者所經歷的一切。研究人員為此引入了音訊編碼器(使用Whisper模型)並訓練了一個投影模組,將聲音訊號融入原有的視覺語言模型中。
經過這樣的擴充套件,EgoGPT成為一個真正的「omni-modal」(全模態)模型,可以對30秒左右的生活影片片段生成詳細的字幕式描述。
例如,當用戶走進廚房時,它可以同時描述「視覺上看到有人在做飯,邊做邊在講這是什麼菜」等細節,為後續理解提供豐富資訊。
連續密集字幕,構建時序語義流
EgoGPT的第一個功能是對每個30秒的影片片段連續進行描述,形成時間上密集的「活動日誌」。這些生成的文字描述涵蓋了使用者視角中的關鍵事件、物件、人物對話等,為後續的記憶檢索提供了語義線索。
可以將EgoGPT看作是一個隨時記錄使用者所見所聞的「AI記錄員」,把海量的影片變成可檢索的文字和特徵,這一步極大壓縮並提煉了原始影片資料的內容,使後續模組不用直接處理影片就能瞭解發生過的事情。
個性化的身份識別能力
EgoGPT還經過了個性化微調,能夠識別特定環境中的人物身份。研究人員利用EgoLife資料集中第1天的影片,對EgoGPT進一步微調,使模型學會了6位參與者的長相、聲音和名字。
因此,在描述或回答問題時,EgoGPT可以提到人物名字,而不是像普通模型那樣僅僅檢測到「一個人」,讓助理具備了上下文中的身份感知。這種個性化能力對於家庭場景尤其重要,它意味著AI能區別家庭成員,從而提供更貼合用戶的協作幫助。
第一視角領域最佳化,效能業界領先
由於在海量的egocentric資料上進行了專門訓練,EgoGPT在第一人稱影片理解上的表現達到了當前最先進水平。論文中的實驗對比顯示,EgoGPT在多個既有的egocentric基準任務取得領先效果。
綜上,EgoGPT為EgoLife系統提供了一個強大的「感知與敘事」引擎。它將長時間的影片流轉化為結構化的語言和特徵表述,為後續的記憶儲存和問答打下基礎。
在生活助理類比中,EgoGPT就好比一個隨身攜帶的智慧「攝像師+記錄員」,源源不斷地記錄並解說著使用者視角下的故事。
圖4: 目前團隊已開源EgoGPT模型權重及訓練框架,並提供線上Demo體驗。值得注意的是,系統展現出驚人的場景理解能力:在五月天MV解析測試中,不僅能描述畫面內容,還能結合歌詞進行意境分析。體驗連結:https://egolife.lmms-lab.com
EgoRAG:超長時記憶檢索與問答模組
有了EgoGPT持續產出的「生活日誌」,下一步就是讓AI助理真正具備長時記憶和問答推理能力——這正是 EgoRAG 發揮作用的地方。
EgoRAG的名字來源於「Retrieval-Augmented Generation」,意味著它將資訊檢索和生成式AI結合,專門用於處理超長時間跨度的提問。簡單來說,EgoRAG可以被視為AI助理的大腦中「記憶庫」與「知識檢索官」的部分。當用戶提問時,EgoRAG能夠在龐大的歷史記錄中快速找到相關片段,並結合EgoGPT等模型生成答案。
其核心步驟如下:
分層記憶庫構建
面對長達數百小時的生活記錄,EgoRAG首先透過EgoGPT生成的描述建立起一個多層級的記憶。具體而言,EgoGPT對每30秒影片的描述會被存入記憶庫中作為細粒度記錄,同時系統會定期將一段時間內的描述彙總生成更高層次的摘要。例如,它可以把每小時的主要事件總結成一段概要,再把每天的概要進一步凝練成更粗的日記。
如此一來,EgoRAG的記憶庫中同時儲存著片段級別、小時級別和天級別的多層次資訊。這種分層結構讓系統能夠先粗略定位大致相關的時間範圍,再深入檢索具體片段,就像人類回憶事情時也會先想是哪一天、隨後細想當時的細節一樣。
智慧檢索策略
當用戶提出一個問題時,EgoRAG會啟動兩階段的檢索機制。第一步,它會先在高層次的摘要中搜索線索,找出這個問題最可能涉及的是哪一天、哪一段時間。
例如,若使用者問「我這周哪天吃了義大利麵?」,系統會先掃描每天的摘要,發現「週二晚餐」提到了義大利麵。第二步,在鎖定相關的時間段後,EgoRAG會在該時間段內更精細地檢索具體的片段描述。
最終,EgoRAG會挑選出最相關的若干影片片段作為支撐證據,將這些檢索到的相關內容傳送給一個生成式模型(可以是EgoGPT本身或類似GPT-4的更強大模型),讓它基於證據來生成回答。
透過這樣的分層檢索與生成,EgoRAG能夠在浩如煙海的個人記錄中迅速定位答案要點,並確保回答所依據的資訊可靠且有據可循。
高效且可擴充套件
EgoRAG的設計使得對超長影片的問答變得計算上可行。相比樸素地將幾百小時的影片硬塞給一個大模型(這幾乎不可能),EgoRAG極大地縮小了需要處理的資料範圍,每次問答只聚焦於可能相關的極小片段集合。
這種「提取式記憶」不僅提高了效率,也讓系統具備了可擴充套件性——無論積累了多少天的記錄,檢索的成本都在可控範圍。
此外,由於EgoRAG把影片內容轉化為了文字和特徵空間的表示進行搜尋,它可以方便地持續更新記憶庫(EgoGPT不斷產生新記錄),並長久保留舊有知識,正如一個理想的生活管家,不僅能記住你昨天做過什麼,幾年後的今天依然能快速翻出相關回憶供你查詢。
綜合來看,EgoRAG賦予了EgoLife助理真正的長時記憶和知識提取能力。當用戶詢問諸如「我這瓶酸奶是什麼時候買的?」這樣需要跨天甚至跨周的資訊時,EgoRAG能夠在龐大的回憶庫中找到相關證據,並配合EgoGPT給出答案。
例如,基於檢索到的證據,模型可能回答:「您分別在3天和5天前去過超市,這一瓶是在您五天前那一次購物採購的,您當時和其他幾瓶酸奶比價,最終選擇了這個,花了五塊錢」。
這裡列舉5個實際場景的例子。
未來計劃
拓展資料維度,構建更通用的智慧認知
目前基於6人單語言環境的資料已經展現出很強的潛力,而下一步,研究人員希望讓它走向更廣闊的世界。
透過引入多語言交流(如純英文、西班牙語等)、長期生活記錄以及不同家庭結構的資料,系統可以減少個體經驗的侷限,建立更具普遍適用性的認知模型,不僅能讓AI更準確地理解不同文化背景下的人類行為,也能提升個性化服務的跨場景適應能力。
讓AI從「記錄」走向「推理洞察」
當前的EgoGPT+EgoRAG體系其實是一個基礎的框架,目前也有很多不完美的地方,例如對於人的辨認依然不穩定,對於語音的識別可能還停留在人的對話上,對於重要的環境聲尚且還沒有識別。在增強AI識別的精度的基礎上,研究人員還希望利用推理框架對目前方法進行重構,將長影片搜尋變得更加智慧。
多視角協同,重塑環境認知
當前的資料集是一個多人同步、多視角協作的資料網路,透過第一視角(佩戴式裝置)、第三視角(固定攝像頭)、以及3D房屋模型的融合,可以解鎖更多的功能探索。
例如AI可以利用多視角影片流和3D座標,還原某個時間點的完整場景。例如,當用戶問「上週三客廳發生了什麼?」系統可以自動結合空間資訊,生成帶有完整場景語義的敘述。
展望:隱私保護
因為生活助理涉及持續記錄個人隱私資料,如何安全地儲存、處理這些資訊至關重要。未來的系統需要在本地化(儘量在使用者裝置上處理資料)和隱私保護演算法(如差分隱私、聯邦學習)上加大投入,確保使用者的資料僅為使用者所用。只有解決了隱私顧慮,公眾才能真正安心地擁抱這樣全天候的AI助手。
開發團隊
EgoLife不僅僅是一個研究專案,更是一場關於 AI 如何真正融入人類日常生活的探索。
未來的AI生活助手不僅能理解使用者的行為、記住關鍵細節,還能主動提供幫助,讓科技成為每個人生活中不可或缺的夥伴。
這是一項長期演進的計劃,研究團隊正在不斷擴充套件資料規模、最佳化AI模型、探索新的互動方式,並推動AI生活助手的真正落地。
參考資料:
https://huggingface.co/papers/2503.03803

相關文章