
在理解人類行為的影片研究中,第一人稱視覺(Egocentric Vision)正成為影片理解、具身智慧與虛擬現實等前沿領域的重要突破口。它要求模型不僅能識別物體,還要理解人類如何操作這些物體、為何操作,並預測接下來的動作。
然而,現有資料集大多來自受控環境,缺乏支援真實生活場景中連續、多模態感知的能力。為此,我們提出了 HD-EPIC 資料集,在真實廚房中採集 41 小時第一人稱影片,並精細標註菜譜、營養、3D 感知、物體運動與視線軌跡,推動多模態AI在具身感知與互動中的深入發展。

論文標題:
HD-EPIC: A Highly-Detailed Egocentric Video Dataset
論文連結:
https://arxiv.org/abs/2502.04144
專案地址:
https://hd-epic.github.io

引言
人類可以毫不費力地理解影片中的各種細節,從短暫的細粒度動作到長達數小時的整體活動。然而,這對於目前的基礎模型和專門模型而言卻極具挑戰性。特別是第一人稱視角的影片,由於相機運動劇烈、動作粒度細、物體經常在操控過程中被遮擋或消失於畫面之外,這些問題增加了理解影片的難度。
理解此類影片需要分解頭部運動、手部互動及對動態場景的整體理解等綜合訊號。因此,第一人稱視角影片為影片感知模型的全面評估提供了理想的測試平臺。
近期第一人稱視覺領域湧現了大量的資料集。雖然規模龐大,但這些資料集的標註通常較為稀疏,尤其是那些需要長影片多個部分關聯或 3D 定位的任務。
相比之下,標註豐富的資料集通常是合成的或是在受控環境中收集的,這限制了其真實感。我們透過構建一個標註最為密集的非指令碼化影片資料集,填補了這一空白,非常適合用於影片和影片-語言模型(Video-language models)的綜合驗證。

介紹
我們採集了新的影片資料,以捕捉額外的元資料,並確保這些影片此前未被用來訓練現有模型。類似於 EPIC-Kitchens 資料集,參與者連續三天採集了所有廚房活動,我們因此命名資料集為 Highly-Detailed EPIC(HD-EPIC)。

上圖展示了多層次標註的概覽:
-
菜譜步驟被標註了時間資訊,並連結至所有準備動作的標註。
-
食材在影片中稱重並標註營養資訊,記錄隨食材加入的菜品營養。
-
每個動作都有密集的描述,詳細說明動作的內容、方法與原因。
-
為每個廚房建立一個標註了固定傢俱的數字孿生(digital twin),這些傢俱與具體動作及物品的取放相關聯。
-
所有被移動的物體均被追蹤,並且手動標記的掩碼對映到 3D 邊界框(bounding box)。
-
視線(Gaze)軌跡與物體運動關聯,標註取放物體之前的注視行為。
透過這些密集標註,我們設計了包含 26K 個有挑戰性的視覺問答(VQA)基準。我們刻意未使用大語言模型生成負樣本,而是採用相似標註,以保證問題的真實性。
我們還提出了一些新型問題,如菜譜營養變化、跨影片菜譜、物體多步運動路徑、固定傢俱互動計數、動作的原因與方式以及視線預測。此外,我們報告了動作識別、聲音識別以及長期影片物體分割的結果。

資料採集
3.1 招募與裝置
每位參與者需長期投入(約 50 小時),包括資料錄製和提供詳細的解說、食譜和營養資訊。資料採集使用 Project Aria 智慧眼鏡——這是一個多感測器平臺,配備有 3 個前置攝像頭(1 個 RGB 攝像頭和 2 個 SLAM 攝像頭)、7 個麥克風,以及用於視線估計的內建攝像頭。
我們以 30 FPS 錄製 1408×1408 解析度的 RGB 影片,60 FPS 記錄眼球跟蹤資訊,以及 30 FPS 記錄 SLAM 資料。此外,我們還提供了包括稱重營養成分的秤在內的多個輔助裝置。
3.2 指導說明與資料採集
參與者連續至少三天記錄所有日常廚房活動。共計 9 名參與者,每次進入廚房時都佩戴智慧眼鏡,並啟動錄製,離開廚房時停止錄製。每位參與者的錄製時長介於 3.5 至 7.2 小時之間(平均 4.6 小時)。總體上,我們共收集了 156 個影片,平均長度為 15.9 分鐘(標準差 14.5 分鐘),累計 41.3 小時(共 446 萬幀)。

採集完成後,參與者提供了他們製作的菜譜,並註明來源(如網站)及任何修改內容。共收集 了69 個涵蓋多種菜系的菜譜,每個菜譜平均包含 6.6 個步驟、8.1 種食材,從準備到完成平均耗時 4 小時 48 分鐘,涉及 2.1 個影片。最長的菜譜耗時 2 天 6 小時。
為了追蹤菜譜的營養資訊,參與者使用 MyFitnessPal 應用手動記錄並稱重食材,獲得了詳細的營養資料。
這一環節為資料集增加了額外的維度。共計使用了 558 種食材,包括高蛋白質(如金槍魚和腰豆)、碳水化合物(如椰棗和麵粉)以及脂肪類食材(如酸奶油和松子)。參與者製作了高熱量菜品(如懶人蛋糕,4800 卡路里)和低熱量菜品(如脆黃瓜沙拉,274 卡路里)。
3.3 解說
我們參考了之前的資料集做法,要求參與者觀看錄製的影片並使用解說工具進行解說。此外,我們還要求參與者描述動作的具體內容、方法以及原因。這使得我們的解說內容比之前的資料集更加密集和詳細。
3.4 後處理——多影片 SLAM 與視線資料
我們使用 Aria MPS 處理影片,獲取每個廚房多日的統一點雲、1000Hz 的六自由度相機軌跡以及眼球視線方向。我們還對 VRS 檔案進行了後處理,轉換為 mp4 格式,並移除了視線攝像頭輸入以保護隱私。

標註流程
為了實現 HD-EPIC 在標註精細度方面與其他影片理解資料集的差異,我們收集了豐富且多層次的標註資訊,以下詳細介紹了我們的標註流程。
4.1 菜譜步驟與食材標註
我們的影片不同於網路上常見的短影片菜譜,這些短影片通常僅保留關鍵步驟,並經常進行剪輯或加速處理。HD-EPIC 的影片包含了更全面的與菜譜相關的活動,如取材或預備食材。為了全面標註這些影片,我們引入了“準備-步驟”對(prep and step pairs)。
某個步驟對應的“準備動作”定義為執行該步驟前所需進行的所有必要動作。例如,“切西紅柿”這個步驟的準備動作包括從儲存空間取出西紅柿、清洗以及取刀和砧板。然而,如果步驟是“加入已切碎的洋蔥並攪拌”,那麼切洋蔥就是該步驟的準備動作的一部分, 如下圖所示。

幾乎所有步驟(93.1%)都有對應的準備動作標註。通常準備動作比步驟本身更短,平均準備動作時長為 54. 5秒(標準差 95.3 秒),步驟平均時長為 78.2 秒(標準差 100.7 秒)。
此外,我們還標註了食材的稱重和加入時的時間片段,以便在食材加入過程中追蹤整個菜品的營養變化。總共標註了 283 個稱重片段(平均 18.9 秒)和 501 個加入食材的片段(平均 31.6 秒),不包括香料。

4.2 細粒度動作標註
4.2.1 轉錄
我們自動轉錄參與者提供的所有音訊解說,並進行人工校驗與修正,以獲得詳細的動作描述。
4.2.2 動作邊界
對所有解說內容,我們標註了精確的開始和結束時間。共獲得了 59,454 個動作片段,平均時長為 2.0 秒(標準差 3.4 秒)。
4.2.3 解析
我們從開放詞彙的解說中解析出動詞、名詞以及涉及的手,以用於閉合詞彙(closed vocabulary)任務,如動作識別。我們還從 16,004 個和 11,540 個解說中分別提取了動作的方式(how)和原因(why)描述。
4.2.4 聚類
如下圖所示,動作和物體的類別在所有影片中的分佈呈現出長尾特性,與之前的資料集類似,我們的動作和物體類別極為多樣化。

4.2.5 聲音標註
我們收集了音訊事件的開始-結束時間及類別名稱的標註(如“點選”、“沙沙聲”、“金屬與塑膠碰撞”、“流水聲”等)。共標註了 44 個類別、50,968 個音訊事件。
4.3 數字孿生:場景與物體運動
4.3.1 場景
我們透過重建廚房表面並手動標記每個固定裝置(如櫥櫃、抽屜)、儲物空間(如貨架、掛鉤)和大型家電(如冰箱、微波爐),為參與者的廚房建立數字孿生模型。這與基於已知環境的數字孿生不同,我們的數字孿生是在錄製影片獲得的多影片 SLAM 點雲基礎上建立的。

每個廚房平均標註了 45.9 個固定傢俱(最少 31 個,最多 62 個),包括平均 14.2 個櫃檯/表面、12.2 個櫥櫃、7.8 個抽屜和 5.2 個家電。
4.3.2 手部掩碼
我們在每個影片中選擇一些幀標註了雙手,用於自動分割並人工修正一部分掩碼。總共包含 770 萬張手部掩碼,其中 390 萬為右手、380 萬為左手,人工標註掩碼為 1.1 萬張。
4.3.3 2D 物體移動
我們首先標註物體移動時的時間片段,每次物體移動均記錄直到靜止,起始和終止位置均標註 2D 邊界框。共標註了 19,900 個物體移動軌跡和 36,900 個邊界框。
4.3.4 物體掩碼
我們使用迭代的 SAM2 進行初始化分割,並進行人工修正。人工修正的掩碼佔總數的 74%,SAM2 與人工掩碼的平均 IoU 為 0.82。
4.3.5 掩碼對映至3D
我們利用稠密的深度估計和 SLAM 提供的 2D 到 3D 稀疏對應關係,將物體掩碼對映至 3D。
4.3.6 3D 物體運動
平均而言,物體移動距離為 61.4 釐米(標準差 84.5 釐米),27.6% 的物體移動超過 10 釐米,而 7.6% 的物體移動超過 2 米。
4.3.7 物體與場景互動
我們將 3D 物體位置與最近的固定傢俱關聯,並人工核驗所有關聯。
4.3.8 視線軌跡與物體移動
我們結合眼球視線資料與 3D 物體位置標註,確定物體被注視的時間點,即物體被取走或放置前凝視軌跡到達物體所在位置的時刻。
4.3.9 長期目標追蹤
我們透過關聯目標的運動軌跡,形成更長的軌跡序列,即“目標行程(object itineraries)”,以捕捉目標的連續移動過程。我們高效的處理流程利用了提升後的三維位置資訊,使得對一小時長的影片的標註可以在幾分鐘內完成。
4.4 HD-EPIC 與其他第一人稱視角資料集對比
與現有第一人稱視角資料集相比,HD-EPIC 的影片長度、標註精細程度和場景真實性顯著提升,是首個涵蓋菜譜、營養、動作、音訊、視線及 3D 標註的資料集,極大豐富了現有資料集所能提供的評測維度。


基準測試與結果
我們透過多個基準測試展示 HD-EPIC 作為驗證資料集的潛力,涵蓋通用的影片問答(VQA)(第 5.1 節)、動作與聲音識別(第 5.2 節)以及長期影片物體分割(第 5.3 節)。
5.1 HD-EPIC視覺問答基準與分析
5.1.1 基準構建
我們基於我們的密集標註輸出構建了一個覆蓋七類註釋內容的全面 VQA 基準:
1. 菜譜:問題涉及菜譜及其步驟的定位、檢索與識別。
2. 食材:問題關於使用的食材、其重量、新增時間與順序。
3. 營養:問題聚焦於食材的營養及其隨食材加入而產生的變化。
4. 細粒度動作:包括動作的內容、方式與原因,以及時間定位。
5. 三維感知:涉及對場景中物體相對位置的理解。
6. 物體運動:涉及物體在長影片中的運動時間、位置和次數。
7. 視線:問題關於視線注視的物件和預測未來的物體互動。
我們為每類問題定義了原型,依據標註生成問題、正確答案及強負樣本。例如,“物體移動次數”問題詢問“影片中物件 X 在 Y 時刻出現後共移動了幾次?”,這類問題需要長時間多跳資訊才能正確回答。
與之相對,“動作方式識別”則會問“對於 <動詞,名詞> 這一動作,下列哪項最能準確描述其執行方式?”,旨在測試模型對動作細節的捕捉能力。
每個問題均為五選一選擇題,我們透過在資料集內取樣生成高質量干擾項,使問題更具挑戰性。最終,如下圖所示,我們總共生成了 26,650 個多選問題,覆蓋 30 個問題原型,使其成為目前最大的影片 VQA 基準之一。

5.1.2 視覺-語言模型 (VLM models)
我們選用了 5 個代表性模型作為基準:
-
LLaMA 3.2 90B:我們使用該模型作為強大的開源 text-only 基線,因為大型語言模型即使沒有視覺輸入,也能在視覺問答基準上表現良好。
-
VideoLLaMA 2 7B:開源短上下文的影片語言模型。
-
LongVA:最長上下文的開源模型。
-
LLaVA-Video:訓練包含第一人稱資料的開源模型。
-
Gemini Pro:閉源模型,支援長影片輸入,當前 SOTA。
5.1.3 VQA 結果分析

表格顯示,text-only 模型 LLAMA 3.2 準確率僅為 26.5%,比隨機選擇高 6.7%;影片-語言模型如 VideoLLaMA、LongVA、LLaVA-Video 表現略好,約在 27–32% 之間;而 Gemini Pro 表現最佳,在菜譜與食材類問題中由於外部知識的支援取得顯著優勢,平均達到 37.6%。然而與人類基線(90.3%)相比仍有巨大差距,表明該基準對當前模型仍是極大挑戰。
模型在所有長度的影片中表現都不理想,尤其在 1 分鐘以上片段上誤差最嚴重。常見失敗案例包括:動作問題中多個答案共同物體;營養問題中模型無法讀取影片中顯示的食材重量;視線問題中模型傾向選擇最近剛被移動的物體;3D 理解問題中方向和傢俱類別易混淆。
5.2 識別基準
5.2.1 動作識別
我們使用 EPIC-KITCHENS-100 中訓練的 5 個動作識別模型在 HD-EPIC 上進行測試。結果顯示,HD-EPIC 對現有模型具有很大挑戰性。即使是最強模型,其動作類別識別準確率也僅為 24%。
5.2.2 聲音識別
我們測試了 3 個在 EPIC-Sounds 上訓練的音訊模型,發現它們在 HD-EPIC 上的表現大幅下降(準確率下降 25% 以上),這表明當前音訊模型在新環境與裝置下的泛化能力較弱。
5.3 長期影片物體分割(VOS)
我們基於我們的影片段與物體軌跡構建了長期 VOS 基準,包含 1000 個影片序列,每個序列包含 1–5 個目標物體和 2 個手部掩碼。我們評估了兩個主流模型(Cutie 和 SAM2)以及靜態掩碼作為基線。
結果表明,Cutie 在物體分割方面優於 SAM2,SAM2 在手部分割方面表現更好。總體來看,第一人稱影片中的視角變化、光照變化與遮擋帶來了極大挑戰。

展望
HD-EPIC 資料集可透過以下連結獲取(包含影片、音訊、視線資料、Blender 格式的數字孿生模型以及相機位姿估計):
http://dx.doi.org/10.5523/bris.3cqb5b81wk2dc2379fx1mrxh47
標註資料則可透過官網獲取(包括物體移動軌跡、掩碼與 3D 位置、長時段物體軌跡及物體-動作-裝置的對應關係):
http://hd-epic.github.io
我們希望 HD-EPIC 能夠引導未來的研究走向更加全面的人類視角感知,在真實環境中推動對第一人稱影片的深入理解與多模態智慧的發展。
更多閱讀

#投 稿 通 道#
讓你的文字被更多人看到
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected]
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿

△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·
