UIUC團隊打造圖片生成擴散模型,可用於電子商務生成式推薦

在很多現實生活中的資訊圖(比如社交網路/學術網路)中,節點常常伴隨有文字和影像資訊。比如,在電子商務網路中,我們可以使用商品作為節點以及使用商品之間的共同購買關係作為邊,來構建使用者行為網路。
那麼在這個網路中,商品節點其實是會伴隨有商品文字描述/商品圖片這類資訊的。再比如,在藝術作品網路中,我們可以將藝術作品作為節點,藝術品之間的“相似風格”或者“相同作者”關係作為邊。同樣,在這個網路中,藝術作品作為節點是有標題/照片資訊的。
當我們想要分析和挖掘此類資訊網路的時候,節點文字資訊/節點圖片資訊/資訊網路結構資訊這三種模態資訊都是重要的。然而,目前的工作比如大語言模型、生成擴散模型、圖神經網路主要都只針對這三類資訊中的一類進行精細化處理,而忽略了三者的結合。
鑑於這個背景,美國伊利諾伊大學金博文博士和所在團隊開展了這樣一項研究:如何透過模型將節點文字資訊/節點圖片資訊/資訊網路結構資訊這三種模態資訊同步編碼,來完成此類資訊圖上任務的問題。
圖 | 金博文(來源:金博文)
據介紹,本次工作主要聚焦於在此類多模態資訊圖中,如何藉助圖上的已有資訊進行新節點圖片生成的問題。
為了解決這個新問題,他們提出了全新的基於資訊圖的圖片生成擴散模型:InstructG2I 模型。在做生成擴散的去噪過程中,他們會保留原有的文字提示,並加入新的資訊圖提示。
資訊圖條件基的構建由兩部分組成:(1)資訊圖上的相關節點搜尋;(2)資訊圖資訊濃縮。另外,InstructG2I 模型還可以支援可控的圖片生成,並具備控制多種不同資訊圖條件基的能力。
一個非常有趣的例子是,他們的模型可以學會將藝術家們的創作風格進行融合,比如下圖中,金博文將畢加索的風格和金博文弟弟的創作風格進行了融合,並且可以調整兩者的風格佔比:
(來源:資料圖)
對於相關論文,審稿人認為,Graph2image 利用圖(graph)的豐富高維資訊進行影像生成的動機合理且有趣。將圖資訊引入預訓練的文字到影像模型(stable diffusion)的方法是創新的,尤其是引入了圖條件化標記,並考慮了圖規模的可擴充套件性。
所生成的樣本表明,與僅使用文字提示或影像的方法相比,利用圖資訊可以在一致性上更好地與真實情況匹配。可控生成的示例顯示了使用文字和圖同時控制生成內容和風格的能力,而且方式簡單明瞭。
這一成果具備很多潛在的應用前景,包括電子商務生成式推薦和藝術創作領域。
比如,在以“共同購買”關係建立的電子商務產品網路中進行新節點圖片生成,事實上等價於生成式推薦任務,即給定使用者曾經購買過的商品(圖上的鄰居),為使用者潛在感興趣的商品(圖上新的節點)生成圖片。
再比如,在以“相似風格”關係建立的藝術作品網路中進行新節點圖片生成,事實上等價於虛擬藝術創作任務,即給定某些相似風格的藝術作品(圖上的鄰居),為一個給定標題的藝術品生成圖片(圖上新的節點)。
據瞭解,本次工作是金博文和第二作者龐子奇(金博文的室友),在廚房閒聊期間一起討論發現的一個問題。金博文字身的背景更多偏向於大語言模型和圖學習,而龐子奇則是計算機視覺領域的專家。
他們閒暇時間經常會交流各自領域的一些最新發展,以及對一些問題的個人見解。一次偶然的機會,龐子奇提到了他最近在用生成式擴散模型來解決計算機視覺領域的識別類問題,這引起了金博文的興趣。
經過幾番討論他們意識到,在圖學習領域節點其實常常伴隨有圖片資訊,並且這種以圖結構為條件的節點圖片生成是一個有意義並且全新的課題,而這也是生成式擴散模型可以被加以利用的重要場景。
而後他們又進行了多次討論,交換了從各自領域角度出發的見解,最後完成了這篇有意思的論文。
日前,相關論文以《INSTRUCTG2I:從多模態有向圖中合成影像》(INSTRUCTG2I:Synthesizing Images from Multimodal Attributed Graphs)為題發在神經資訊處理系統大會(NeurIPs,Conference and Workshop on Neural Information Processing Systems)[1]。
圖 | 相關論文(來源:NeurIPs)
金博文表示:“我們認為,透過這個工作打開了多模態圖學習以及圖(graph)上的圖片生成任務的大門。以往圖學習主要聚焦於節點分類和鏈路預測任務,而後續我們想透過這個工作來號召更多的人聚焦更加現實的資訊圖場景,以及這些場景中的生成式任務需求。”
其相信這個方向有著巨大的探索空間。而如何將最新的多模態大模型引入進來,也是他們近期探索的課題。
參考資料:
1.https://arxiv.org/pdf/2410.07157
排版:劉雅坤


相關文章