
新智元報道
新智元報道
編輯:LRST
【新智元導讀】EgoNormia基準可以評估視覺語言模型在物理社會規範理解方面能力,從結果上看,當前最先進的模型在規範推理方面仍遠不如人類,主要問題在於規範合理性和優先順序判斷上的不足。
隨著人工智慧技術日益成熟,社會各界對AI或機器人能否學習並遵循社會規範的問題越來越關注。從早期的科幻小說到如今的現實應用,人類始終期望機器能夠理解並內化這些根植於社會生活中的「規範」。
隨著視覺語言模型(VLMs)不斷進步,研究者們陸續推出了諸多基準和資料集,用以評估其第一視角下的影片理解能力。例如,HourVideo和EgoSchema等基準主要關注長影片解析以及對物體和事件的識別能力。
然而,這些評估工具難以衡量模型在規範推理(normative reasoning)方面的表現,為此,斯坦福大學團隊提出了EgoNormia基準,旨在挑戰當前最前沿的視覺語言模型,促使它們在複雜場景中做出符合人類常識的規範決策。

論文連結:https://arxiv.org/abs/2502.20490
網頁連結:https://egonormia.org
程式碼連結:https://github.com/Open-Social-World/EgoNormia
在現實生活中,人們做決策時遇到的情境往往充滿矛盾與取捨。
例如:在戶外遠足的時候,如果一位同伴在泥濘中被困;一方面,安全規範要求人們保持足夠距離,以防發生意外;另一方面,協作精神又促使人們對同伴伸出援手。
對於人類來說,這樣的權衡似乎是自然而然的選擇,人們會在保護自己安全的前提下向同伴施以援手;但對於視覺語言模型來說,如何在理解場景、提取關鍵線索的同時做出合乎社會規範的決策,仍然是一個亟待攻克的難題。

為全面衡量視覺語言模型在規範推理上的能力,論文主要提出了以下研究問題:
-
RQ1:模型是否能做出與人類共識一致的規範決策?
-
RQ2:當模型決策與人類不符時,究竟是因為視覺感知(如物體識別)出現偏差,還是在深入推理規範時存在缺陷?
-
RQ3:是否可以藉助 EgoNormia 資料集來提升模型在複雜情境下的規範推理表現?
Physical Social Norm
為了更好地研究規範,論文首先將物理社會規範做出了以下定義:
「物理社會規範(Physical Social Norm)是指在共享環境中約定俗成的期望,這些期望規範著行為者的行為及其與他人的互動方式。」
同時,論文也對於物理社會規範進行了分類,有一類規範明確用於最大化多智慧體系統的整體效用,論文稱之為效用規範,即合作、協調和溝通規範。
另一類規範則更側重於人類社會性:安全、禮貌、隱私和空間距離。
人類社會規範往往與群體效用規範存在衝突,這種衝突為評估智慧體在衝突目標下的決策提供了場景。重要的是,每一類物理社會規範都能直接影響人機協作的成功,每一種規範具體的例子如下圖。

任務
EgoNormia基準主要包含三個子任務,所有子任務均採用多項選擇題的形式。
子任務1:動作選擇,選出在當前情境下最符合規範要求的唯一動作。
子任務2:理由選擇,選出最能支援其所選規範動作的理由。
子任務3:動作合理性判斷,從給定選項中選出那些合理的(即符合規範但不一定是最佳的)動作。

基準生成
EgoNormia基準生成流程主要包含四個階段:片段取樣,答案生成,篩選,人工驗證。這些流程保證了最終資料集保持了多樣性,挑戰性,和人工共識性。
經過一系列流程,論文最終得到了來自1077個原始影片的1853個影片切片,涵蓋97種場景和93種不同動作。
藉助GPT-4o的自動聚類技術,所有影片被歸納為 5 個高層級類別和 23 個低層級類別,充分展示了資料的多樣性和豐富性(詳見餅圖)。

實驗結果
在EgoNormia的評估中,大多數模型的平均準確率均低於40%,而人類的平均得分高達92.4%,表現最好的模型Gemini 1.5 Pro在取得了45.3%的平均準確率,表明當前模型在做具體現身的規範決策(RQ1)方面能力有限。
此外,即便使用了更豐富的文字描述和最先進的推理模型如 o3-mini,表現仍然不及採用視覺輸入的模型,證明了語言在捕捉連續、推理中細微特徵(如空間關係、可見情緒與情感以及物理動態)方面存在根本性侷限。

為了探究視覺語言模型規範推理能力受限的原因(RQ2),論文對 EgoNormia 中 100 個具代表性任務的模型回覆進行了標註,並進一步將規範推理錯誤進行了分類。
論文共識別出四種失敗模式:(1) 規範合理性錯誤,(2) 規範優先順序錯誤,(3) 感知錯誤,以及 (4) 拒絕回答。
對於模型而言,大多數錯誤源自合理性錯誤而非感知錯誤,這表明基礎模型在處理影片輸入的視覺上下文方面表現尚可,但在對解析出的情境進行有效規範推理時則存在不足。此外,隨著整體效能的提高,規範優先順序錯誤的比例也逐步增加(GPT-4o < Gemini 1.5 Pro < 人類),表明更強大的模型在面對模稜兩可的情境時,更難確定哪項規範應當優先。

最後,研究人員評估了EgoNormia是否可以直接用於提升視覺語言模型的規範推理能力(RQ3)。
研究人員提出採用檢索增強生成(Retrieval-Augmented Generation,RAG),為更深層次的規範推理任務提供基於上下文的規範示例,使其能作為多示例學習的參考。
為了公平地測試EgoNormia在新資料上的效用,研究人員構建了一個基於第一人稱機器人助手影片的域外測試資料集,基線GPT-4o的得分僅為18.2%。
透過對EgoNormia的檢索,論文展示了在未見域內任務上,相對於最佳非RAG模型和基礎GPT-4o,EgoNormia提供了9.4%的效能提升,並比隨機檢索 EgoNormia 提高了7.9%。
總結
EgoNormia是一種新穎的基準和資料集,旨在嚴格評估視覺語言模型(VLMs)在第一人稱視角下的物理社會規範(PSN)的理解能力。
論文證明,儘管當前最先進的模型在視覺識別和抽象推理方面表現強勁,但在PSN理解上仍然遜色於人類,主要原因在於規範合理性理解和優先順序判斷上的錯誤。
透過測試一種基於檢索的方法,論文展示了EgoNormia在提升規範理解方面的直接實用性,在域外和不同體現的影片上均取得了改進。
最後,論文還指出了具體現身規範理解未來的研究機遇,並建議在大規模規範資料集上進行後續訓練,這將是一個極具前景的研究方向。
部分作者介紹
楊笛一:斯坦福大學計算機系的助理教授,主要關注具有社會意識的自然語言處理,其研究目標是深入理解社會語境下的人類溝通,並開發支援人與人及人機互動的語言技術。
朱昊:斯坦福大學計算機系博士後,卡內基梅隆大學博士,專注於打造能夠學習與人類溝通和協作的人工智慧代理。
張彥哲:佐治亞理工學院計算機系博士生,致力於使模型具備持續學習多工並實現知識遷移的能力,以及使模型能夠從其他模態和人類中受益併為其服務。
伏奕澄:斯坦福大學電氣工程系碩士生,特別關注如何將大規模語言模型應用於現實場景,並致力於開發能夠更高效地與人類及外部世界進行互動的智慧系統。
參考資料:
https://arxiv.org/abs/2502.20490

