當AI遇上心理學:如何讓AI的眼神更像人?|AAAI2025

EyEar的表現比目前最好的基線模型高出15%。
你有沒有想過,當我們看到一幅圖畫並聽到相關的描述時,我們的眼睛是如何自動跟隨聲音去尋找畫面中的對應物?這看似自然的動作,其背後卻隱藏著一套極其複雜的生理與心理機制。而今天,人工智慧已經能夠在一定程度上模擬這種能力了!
近日,中國人民大學高瓴人工智慧學院專注多模態方向的宋睿華團隊、擅長AI+物理孫浩與心理學系張登浩合作提出了一項名為 EyEarEye moving while Ear listening的創新技術,它能夠預測人類在聽聲音同時觀看影像時的注視軌跡!這一技術為構建眼神更像人的虛擬角色帶來了無限可能。該論文已被AAAI 2025接收為口頭報告(oral presentation)。
在計算機視覺與人工智慧領域,模擬和預測人類的注視軌跡一直是一個至關重要的研究方向。近年來,隨著虛擬角色和智慧人機互動的快速發展,如何透過更自然的方式讓虛擬人物模仿人類的眼動行為成為了熱門話題。然而,大多數注視軌跡預測任務主要集中於視覺資訊,儘管這些研究為理解人類視覺系統提供了寶貴的洞見,但它們並未充分考慮音訊刺激對人類注視行為的影響。為填補這一空白,團隊提出了一個全新的任務——Audio Synchronized Viewing:旨在預測人類在聽到音訊訊號的同時,在影像中的注視軌跡。
圖 1 任務示意圖
1
任務的形式化描述
任務的輸入包括一張影像 𝑉 和一段音訊 𝐴。使用語音識別工具,可以得到音訊中的詞語及其在音訊中的開始和結束時間:
在此任務中,人類的注視與音訊時間戳保持一致。人們傾向於注視某個點,直到聽到下一個單詞。因此,任務旨在預測每個結束時間

的注視點。對於一個影像-音訊對 𝑉-𝐴 ,有 𝑁 條人類注視軌跡:

任務的目標是預測一條注視軌跡:

,使其儘可能地接近人類的注視軌跡。

2
方法
為了解決這一新的任務,團隊將眼球看作一種彈簧系統,提出了基於物理啟發的動力系統的全新學習框架 EyEar (Eye moving while Ear listening)。該框架透過考慮眼球固有運動趨勢、視覺顯著吸引力以及音訊的語義吸引力三大關鍵因素來預測注視點。此外,團隊提出了一個基於機率密度的評分方法,以克服注視軌跡的高度個體差異性,從而提升最佳化的穩定性和評估的可靠性。
圖 2 模型示意圖
  1. 創新的物理啟發的動力系統:
為了捕捉眼睛的運動特徵,團隊提出了一種受物理學啟發的音訊感知動力系統。在動力系統中,存在一種被稱為狀態的概念,其由一組可確定的實數表示。狀態的微小變化對應於這些實數的微小變化。動力系統的演化由一組函式決定,這些函式描述了未來狀態如何依賴於當前狀態。在這個任務中,狀態指代注視位置。以下是動力系統的數學公式(參見模組1):
其中,當前預測的注視點

根據前一個注視點

,時間間隔

,以及運動向量

計算得到。具體而言,運動向量

的計算公式如下:

團隊綜合考慮了影響運動向量的三個力的來源。上述公式中的神經網路(MLP)對應於動力系統中的一組函式(由三種力引起的運動分量)。式中的第一項表示由保持在前一個注視點

的固有運動趨勢的力引起的運動分量,它與任何刺激無關。第二項表示由吸引注視點到影像中最顯著的點

的力引起的運動分量。

透過DeepGaze IIE模型得到。考慮這種力是因為人類的注意力有時可能完全被影像的顯著部分所吸引。第三項表示由吸引注視點到音訊語義吸引點

的力引起的運動分量。這一項考慮了人類在音訊刺激下的注意力。直觀上,當人類聽到一些詞語時,他們會關注與之語義相關的部分。最後,可學習的權重引數α衡量人類注意力被不同部分吸引的程度。

2.音訊語義吸引點預測:
為了衡量影像區域和聽到的詞語之間的廣泛語義關係並得到準確的音訊語義吸引點

,團隊精心設計了影像分支、音訊轉錄分支以及多模態注意力機制,用於整合不同型別的資訊並預測下一個音訊語義吸引點。

3.機率密度評分方法:
圖 3 機率密度評分方法示意圖
由於人的真實注視軌跡具有高度個體差異,模型的最佳化和評估面臨挑戰。如圖所示,當聽到“電腦”時,受試者的注視點集中在電腦上。然而,由於影像中有兩臺電腦,注視點被分成了兩個組。這樣的多樣化目標使得常用的均方誤差(MSE)損失容易受到混淆。在該示例中,兩個組之間的中間點會最小化MSE損失,但這並不是我們想要的,因為該點並不對應任何一臺電腦。為此,團隊提出了一種基於分佈的度量方法,稱為機率密度評分(PDS),以替代基於點的度量(如歐幾里得距離)。首先,透過高斯核密度估計對多個真實注視點形成的分佈進行估計(

),並將其作為真實分佈。其次,對於預測的注視點

,透過其在該分佈上的機率密度的歸一化值來衡量其與真實分佈的契合程度:

3
資料集與實驗
為支援EyEar框架的開發,研究團隊收集了一個包含20,000個注視點的資料集。該資料集收集8個受試者,在他們聽取與影像內容相關的音訊描述時,透過眼動追蹤裝置記錄下他們的注視軌跡。與現有的資料集相比,這一資料集不僅具有更長的注視序列和持續時間,還能更好地模擬人類在自然環境中的注視行為。
圖 4 資料集比較
透過對比現有的多個基線模型(包括預訓練的圖文對齊模型、視覺定位模型和注視軌跡預測模型)EyEar框架在所有評估指標上均取得了顯著的效能提升。尤其是在PDS(機率密度評分)指標上,EyEar的表現比最好的基線模型高出15%
圖 5 模型效能比較
EyEar不僅能夠準確預測注視軌跡,還能模仿人類眼動的自然運動模式,特別是在音訊語義的引導下,眼動行為表現得尤為自然。儘管與人類的真實眼動相比,EyEar仍有一定差距,但其在多模態注視軌跡預測任務中的優勢是顯而易見的。
圖 6 模型預測結果
應用示例
4
未來展望
未來,研究團隊計劃將EyEar框架擴充套件到影片場景,以進一步模擬真實世界中的視覺與聽覺互動。此外,他們還將嘗試將開放的音訊刺激應用於該框架,探索更多樣化的聽覺資訊對注視行為的影響
更多內容,點選下方關注:

未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社群進行轉載!
公眾號轉載請先在「AI科技評論」後臺留言取得授權,轉載時需標註來源並插入本公眾號名片。

//
近期熱門文章

相關文章