港大聯合微信推出DiffMM:擴散模型重塑多模態推薦系統的全新正規化

香港大學黃超教授領導的資料智慧實驗室,與微信研發團隊聯合開發了一種基於擴散模型的全新多模態推薦系統正規化 – DiffMM。這項創新性成果融合了擴散模型技術,能夠有效利用多種模態資料,為使用者提供個性化、精準的多媒體內容推薦服務。

論文標題:
DiffMM: Multi-Modal Diffusion Model for Recommendation
論文連結:
https://arxiv.org/abs/2406.11781
程式碼連結:
https://github.com/HKUDS/DiffMM
實驗室主頁:
https://sites.google.com/view/chaoh
TLDR
隨著線上多模態分享平臺(如 TikTok 和 YouTube)的迅速發展,個性化推薦系統可以將視覺、文字和音訊等多種模態融合到使用者表示中。然而,資料稀疏性問題仍然是這些系統面臨的一個重大挑戰。為了應對這一問題,近年來的研究引入了自監督學習技術,以增強推薦系統的效能。然而,現有的方法通常依賴簡單的隨機增強或直觀的跨檢視資訊,這可能會引入無關噪聲,並且難以精確地將多模態上下文與使用者-專案互動進行匹配。
為了解決這一研究空白,作者提出了一種新穎的基於多模態圖擴散的推薦模型,稱為 DiffMM。該框架結合了模態感知圖擴散模型和跨模態對比學習正規化,以提升模態感知使用者表示的學習效果。這種整合方式有助於更好地對齊多模態特徵資訊與協同關係建模。
DiffMM 利用擴散模型的生成能力自動構建使用者-物品圖,這個圖能夠表示不同模態下的使用者-物品互動資訊,從而有助於將有用的多模態知識融入到使用者-物品互動建模中。作者在三個公共資料集上進行了大量實驗,結果表明,DiffMM 在各種基準模型中表現出了顯著的優越性。

研究背景

多媒體推薦系統在電子商務和內容共享應用中扮演著關鍵角色,這些應用涉及大量網路多媒體內容,如短影片、圖片和音樂。這些系統處理多種型別的內容特徵,包括視覺、聲學和文字特徵,從而能夠細緻地捕捉使用者的興趣。例如,VBPR [1] 擴充套件了矩陣分解框架以處理物品的多模態特徵。ACF [2] 引入了一個層次注意力網路,用於識別使用者在元件級別的偏好。
最近,諸如 MMGCN [3]、GRCN [4] 和 LATTICE [5] 等方法利用圖神經網路(GNNs)將模態資訊整合到資訊傳遞過程中,以推斷使用者和物品的表示。然而,大多數現有的多媒體推薦系統依賴於大量高質量標記資料(即觀察到的使用者互動)進行監督訓練。在現實生活中的推薦場景中,使用者互動資料相對於整個互動空間是稀疏的,這限制了監督模型生成能夠準確表示複雜使用者偏好的嵌入。
最近的研究提出了一些解決方案,透過將自監督學習(SSL)技術與多模態特徵相結合,來增強多模態推薦任務的效果。例如,CLCRec [6] 和 MMSSL [7] 採用了基於互資訊的自監督學習方法來豐富多模態特徵中的物品嵌入。同時,MMGCL [8] 和 SLMRec [9] 引入了隨機擾動來進行對比學習,以增強模態特徵。
然而,這些方法常常依賴於簡單的隨機增強或直觀的跨檢視嵌入對齊,可能會引入不相關的噪音資訊,包括使用者誤點選行為或流行偏差所導致的增強型自監督訊號。因此,需要一個自適應的模態感知增強模型,以實現更準確的自監督學習,並能夠有效地將多模態上下文資訊與相關的協同訊號對齊,用於使用者偏好學習。這將確保在多媒體推薦系統中穩健地建模模態感知的協同關係。
為了解決上述問題,作者提出了 DiffMM,一種新穎的多模態圖擴散模型,用於推薦任務。受到最近擴散模型在各個領域任務中的出色表現的啟發,DiffMM 專注於利用擴散模型的生成能力,生成一個多模態感知的使用者-物品圖,以有效地對使用者-物品互動進行建模。
具體而言,作者透過逐步破壞的過程,向用戶-物品互動圖引入隨機噪聲。然後,透過一個逆向過程,反覆恢復經過 步累積噪聲的破壞圖,以還原原始的使用者-物品圖結構。
為了進一步引導逆向過程並生成一個多模態感知的使用者-物品圖,作者引入了一個簡單而有效的多模態感知訊號注入機制。透過生成的多模態感知的使用者-物品圖,作者進一步提出了一種多模態感知的圖神經網路正規化,用於多模態圖的聚合。這使得 DiffMM 能夠有效地捕捉與不同模態相關的使用者偏好。此外,作者還提出了一個跨模態對比學習框架,透過不同模態下使用者-物品互動模式的一致性,進一步增強推薦系統對多模態上下文的學習能力。

模型方法

DiffMM 的總體框架圖如下所示,主要分為三個部分:1. 多模態圖擴散模型,它透過生成擴散模型來實現多模態資訊引導的模態感知使用者-物品圖的生成。2. 多模態圖聚合,該部分在生成的模態感知使用者-物品圖上進行圖卷積操作,以實現多模態資訊的聚合。3. 跨模態對比增強,採用對比學習的方式來利用不同模態下使用者-物品互動模式的一致性,從而進一步增強模型的效能。
3.1 多模態圖擴散
受到擴散模型在保留生成輸出基本資料模式方面的成功啟發,DiffMM 框架提出了一種創新的多模態推薦系統方法。具體而言,作者引入了一個多模態圖擴散模組,用於生成包含模態資訊的使用者-物品互動圖,以增強對不同模態下使用者偏好的建模。該框架專注於解決多模態推薦系統中無關或噪聲模態特徵帶來的負面影響。
為了實現這一目標,作者採用模態感知去噪擴散機率模型將使用者-物品協同訊號與多模態資訊統一起來。具體而言,作者逐步破壞原始使用者-物品圖中的互動,並透過機率擴散過程進行迭代學習,以恢復原始互動。這種迭代去噪訓練有效地將模態資訊納入使用者-物品互動圖的生成中,同時減輕了噪聲模態特徵的負面影響。
此外,為了實現模態感知的圖生成,作者提出了一種新穎的模態感知訊號注入機制,用於指導互動恢復過程。這個機制在有效地將多模態資訊納入使用者-物品互動圖的生成中起到了關鍵作用。透過利用擴散模型的能力和模態感知訊號注入機制,DiffMM 框架為增強多模態推薦器提供了一個強大而有效的解決方案。
3.1.1 圖機率擴散正規化
在使用者-物品互動圖的擴散過程中,涉及兩個主要步驟。首先是前向過程,它透過逐漸引入高斯噪聲,來破壞原始的使用者-物品圖。這一步驟模擬了噪聲模態特徵對使用者和物品之間互動的負面影響。其目的是逐漸削弱使用者與物品之間的連線。接下來是逆向過程,它專注於學習和去噪受損的圖連線結構。該過程的目標是透過逐步改進受損的圖,來恢復使用者與物品之間的原始互動。
對於前向圖擴散過程,考慮使用者 和物品集合 中每個物品的互動情況,表示,其中 等於 0 或 1 表示使用者 是否與物品 發生過互動。首先,將擴散過程進行初始化,即 。在接下來的 步中,逐漸引入高斯噪聲,以構建 的馬爾可夫鏈。具體來說,可以將從 到 的過程引數化為:
當 時,狀態 會逐漸接近一個符合高斯分佈的標準狀態。為了得到狀態 ,作者使用了重引數技巧和獨立高斯噪聲可疊加的特性,直接從初始狀態 推匯出來:
對於逆向圖擴散過程而言,DiffMM 的目標是透過消除來自 的噪聲來逐步恢復 。這個過程使得多模態擴散能夠有效地捕捉複雜的生成過程中微小的變化。從 開始,去噪過程逐步恢復使用者-物品互動,逆向過程如下展開:
這裡,作者使用引數為 的神經網路來生成一個高斯分佈的均值 和協方差 。
3.1.2 模態感知的圖擴散最佳化
擴散模型的最佳化目標是引導逆向圖擴散過程。為了實現這一目標,需要最佳化負對數似然的 Evidence Lower Bound(ELBO)來最佳化 :
對於 ,有三種情況:
這裡, 是 的負重建誤差; 是一個在最佳化中可以忽略的常量項,因為它不包含可最佳化的引數; 旨在透過 KL 離散度使分佈 和可計算的分佈 對齊。
為了實現圖擴散的最佳化,作者設計了一個神經網路,以在反向過程中進行去噪處理。根據貝葉斯法則, 可被表示為如下近似表達:
更進一步, 可以表示為:
這裡, 是基於 和時間步 預測的 ,作者使用神經網路來實現它。具體而言,作者使用一個多層感知器(MLP)來實現 ,該 MLP 以 和時間步 的嵌入表示作為輸入來預測 。對於 ,可以被表示為:
在實際實現中,作者從 中均勻取樣來得到時間步 :
多模態圖擴散的目標是透過使用者-物品的多模態感知圖來增強推薦系統。為了實現這一目標,作者提出了一種模態感知訊號注入(MSI)機制,用於引導擴散生成模組生成帶有相應模態的多個模態感知使用者-物品圖。
具體而言,作者將對齊的物品模態特徵與預測的模態感知使用者-物品互動機率 進行聚合。同時,作者還將物品 id 嵌入 與觀察到的使用者-物品互動 進行聚合。最後,透過計算上述兩個聚合嵌入之間的均方誤差損失,並結合 進行最佳化。具體而言,模態 𝑚 的均方誤差損失 定義如下:
3.2 跨模態對比增強
在多模態推薦場景中,使用者在不同物品模態(如視覺、文字和音訊)上的互動模式存在一定的一致性。以短影片為例,使用者可能會被其視覺和音訊特徵所吸引,因此視覺偏好和音訊偏好往往會交織在一起,呈現出複雜的關係。為了提高推薦系統的效能,捕捉和利用這種模態相關的一致性,作者提出了兩種基於不同錨點的模態感知對比學習正規化。一種正規化以不同模態檢視作為錨點,另一種正規化則以主檢視(協同過濾)作為錨點。
3.2.1 模態感知的對比檢視
為了生成特定模態的使用者/物品嵌入表示作為對比檢視,作者使用了基於 GNN 的表示學習方法。具體而言,在圖擴散模型生成的模態感知使用者-物品圖上進行訊息傳遞。首先,作者將物品原始模態資訊 轉化為相同維度的物品模態特徵 :
接下來,對使用者嵌入 和物品模態特徵 進行資訊聚合,得到聚合的模態感知嵌入 :
這裡, 表示透過圖擴散模型生成的模態感知圖。為了獲得多模態感知的高階協同資訊,作者進一步在原始使用者-物品互動圖 進行了迭代的訊息傳遞:
3.2.2 模態感知的對比增強
作者在文中探討了兩種不同的對比方法,以模態感知的對比檢視為基礎。其中一種方法使用不同的模態檢視作為錨點,而另一種方法則使用主檢視作為錨點。前一種方法認為使用者在不同模態中的行為模式具有關聯性,而後一種方法則希望使用者在不同模態中的行為模式可以引導和提升主檢視的偏好表達。在這裡,主檢視是指透過 GNN 在多個模態感知圖上聚合並進一步融合的使用者和物品表達。兩種對比方法分別採用了以下對比損失(InfoNCE loss):
以模態檢視作為錨點。基於使用者行為模式在不同模態上的相關性,作者將不同模態的嵌入作為檢視,並透過 InfoNCE 損失來最大化兩個模態檢視之間的互資訊,將其他使用者的嵌入表示作為負樣本:
以主檢視作為錨點。目標是透過對比學習的方法利用使用者在不同模態上的行為模式來引導和提升目標推薦任務的效能。為此,作者將竹石圖的嵌入表示作為錨點,將最大化主檢視和不同模態檢視之間的互資訊作為最佳化目標:
3.3 多模態圖聚合
為了生成最終的使用者(物品)表示 以進行預測,作者首先對所有的模態感知嵌入 和相應的模態感知使用者-物品圖 進行聚合:
由於每個模態對於最終聚合的模態表示有不同的影響程度,作者使用一個可學習的引數化向量 控制各個模態的權重,以求和的方式融合各個模態的表示:
最後作者在原始的使用者-物品互動圖 上進行訊息傳遞,以利用使用者和物品的高階協同訊號:

3.4 多工模型訓練

DiffMM 的訓練包含兩個部分:對於推薦任務的訓練和對於多模態圖擴散模型的訓練。對於擴散模型的聯合訓練,也包括兩個部分:ELBO 損失和 MSI 損失。對於模態 的擴散模型去噪網路的最佳化損失如下:
對於推薦任務的訓練,作者引入了經典的貝葉斯個性化排名(BPR)損失和多模態對比增強損失 ,BPR 損失定義如下:
推薦任務的聯合最佳化目標如下:

實驗結果

作者在三個公開資料集上對比了多種型別的最新基線模型,包括傳統的協同過濾方法、基於 GNN 的方法、生成擴散推薦方法、自監督推薦方法以及 SOTA 的多模態推薦方法。透過進行廣泛而充分的實驗,結果顯示提出的 DiffMM 在總體效能上表現最優。
為了驗證所提出方法各個模組(i.e., 多模態圖擴散模型,多模態圖聚合,和跨模態對比增強)的有效性,作者進行了細緻的消融實驗。實驗結果顯示,所提出的各個子元件都能有效地提升推薦效果:
作者進一步研究了 DiffMM 在處理資料稀疏問題上的效果。具體而言,作者根據訓練集中使用者的互動數量對使用者進行了分組,並分別進行訓練。實驗結果顯示,DiffMM 中的跨模態對比學習方法能夠有效地緩解資料稀疏的情況。該方法利用了由多模態圖擴散模型生成的模態感知使用者-物品圖,從而獲取高質量的自監督訊號。
對於所提出的 DiffMM,作者對一些重要的超引數進行了分析,包括多模態圖聚合模組中的超引數、模態感知擴散模型中的 MSI 權重:
為了全面地評估所提出的模態感知圖擴散模型對推薦系統性能的影響,作者進行了一項實驗。實驗比較了模態感知使用者-物品圖(由 DiffMM 生成)與透過邊丟棄進行隨機增強的使用者-物品圖之間的融合比率對於自監督增強對比檢視構建的影響。融合比率為 0 表示只使用模態感知的使用者-物品圖構建對比檢視,而融合比率為 1 表示只使用隨機增強方法。
實驗結果明確表明,在兩個資料集中,融合比率的增加導致模型效能下降。這一發現顯示,模態感知的圖擴散模型透過提供模態感知的對比檢視而不是隨機增強檢視來增強跨模態對比學習的優越性。這個優勢可以歸因於基於圖擴散的生成方法對潛在互動模式的有效建模,以及透過精心設計的生成機制將多模態上下文納入到使用者-物品互動圖的擴散過程中。
為了評估所提出的模態訊號注入機制(MSI)的給多模態擴散模型帶來的多模態使用者-物品圖生成能力,作者對生成的模態感知使用者-物品圖進行了詳細的案例研究。下面左圖展示了使用影像模態特徵在 Amazon-Baby 資料集上生成的模態感知圖中隨機抽樣得到的一個子圖。右圖顯示了一個熱圖,表示基於相應模態特徵的物品相似性。
結果顯示,構建的圖結構與模態特徵相似性之間存在著很強的相關性。例如,在生成的圖中,物品 1131 和 337都是使用者 1171 的鄰居,並且它們在熱圖中表現出一個高相似度得分 0.85。這個相似度得分是物品 1131 的最高分,物品 337 的第二高分。同樣地,物品 1334 和 2108,它們在生成的圖中與同一個使用者 1108 連線,並且它們之間存在著高相似度得分 0.97,這表明它們具有模態感知的相似性。
值得注意的是,這些物品對在原始的使用者-物品互動圖中並沒有直接的連線。相反,它們的連線是透過模態特徵的影響建立的。這個案例研究清楚地證明了 DiffMM 在生成模態特定圖方面的有效性,從而透過高質量的資料增強提高了跨模態對比學習。
這一優勢源於 DiffMM 的兩個關鍵設計元素。首先,基於擴散的圖生成方法透過逐步的前向和反向去噪訓練準確地捕捉了潛在的使用者-物品互動模式。其次,MSI 機制成功地將模態特定資訊融入到擴散過程中,確保生成的圖反映了每個模態的獨特特徵。
總結
本文介紹了一種新穎的多模態推薦模型 DiffMM。透過結合多模態資訊,它豐富了機率擴散正規化。該方法利用多模態圖擴散模型來重構模態感知的使用者-專案圖,並利用跨模態資料增強模組的優勢提供有價值的自監督訊號。為了評估 DiffMM 的有效性,作者進行了大量的實驗,並與多個具有競爭力的基線模型進行了比較。實驗結果明確表明 DiffMM 在推薦效能方面具有優越性。
參考文獻
[1] R. He and J. McAuley. Vbpr: visual bayesian personalized ranking from implicit feedback. In AAAI, volume 30, 2016.
[2] J. Chen, H. Zhang, X. He, L. Nie, W. Liu, and T.-S. Chua. Attentive collaborative filtering: Multimedia recommendation with item-and component-level attention. In SIGIR, pages 335–344, 2017.
[3] Y. Wei, X. Wang, L. Nie, X. He, R. Hong, and T.-S. Chua. Mmgcn: Multi-modal graph convolution network for personalized recommendation of micro-video. In MM, pages 1437–1445, 2019.
[4] Y. Wei, X. Wang, L. Nie, X. He, and T.-S. Chua. Graph-refined convolutional network for multimedia recommendation with implicit feedback. In MM, pages 3541–3549, 2020.
[5] J. Zhang, Y. Zhu, Q. Liu, S. Wu, S. Wang, and L. Wang. Mining latent structures for multimedia recommendation. In MM, pages 3872–3880, 2021.
[6] Y. Wei, X. Wang, Q. Li, L. Nie, Y. Li, X. Li, and T.-S. Chua. Contrastive learning for cold-start recommendation. In MM, pages 5382–5390, 2021.
[7] W. Wei, C. Huang, L. Xia, and C. Zhang. Multi-modal self-supervised learning for recommendation. In WWW, pages 790–800, 2023.
[8] Z. Yi, X. Wang, I. Ounis, and C. Macdonald. Multi-modal graph contrastive learning for micro-video recommendation. In SIGIR, pages 1807–1811, 2022.
[9] Z.Tao,X.Liu,Y.Xia,X.Wang,L.Yang,X.Huang,andT.-S.Chua.Self-supervised learning for multimedia recommendation. Transactions on Multimedia (TMM), 2022.
更多閱讀
#投 稿 通 道#
 讓你的文字被更多人看到 
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。 
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析科研心得競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註 
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected] 
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿
△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·
·
·

相關文章