WWW2024|華為、清華提出個性化多模態生成新方法,讓AIGC更懂你

Stable Diffusion、Midjourney 和 Sora 等文生圖/影片模型獲得驚人的效果,但他們對於不同的人生成的結果都一樣,不具備個性化。下面這篇論文中,來自華為和清華的研究者率先讓多模態生成的內容個性化,使生成的內容更懂使用者,更具吸引力。
論文標題:
PMG: Personalized Multimodal Generation with Large Language Models
收錄會議:
ACM Web Conference 2024
論文連結:
https://arxiv.org/abs/2404.08677
程式碼連結:
https://github.com/mindspore-lab/models/tree/master/research/huawei-noah/PMG
個性化生成指的是將使用者的偏好作為依據進行生成,讓使用者更容易對生成的內容產生興趣。圖 1 展示了其在聊天軟體中的應用場景,當用戶輸入“很好玩!”時,聊天軟體能夠捕捉使用者開心、快樂的情緒,並自動生成笑臉表情供使用者使用。
個性化生成則會進一步考慮使用者歷史行為中表現出的對“可愛的小貓”的偏好,進而生成更可能受使用者青睞的笑臉貓表情。除此之外,該技術還可以廣泛應用於電商(例如生成個性化背景、人體形態、顏色)、線上廣告、遊戲、創作輔助等領域。
▲ 圖1. 在聊天軟體中個性化生成能夠根據使用者偏好,生成符合其偏好的表情包。

方法

本工作提出了一個基於大語言模型的個性化多模態內容生成方法,稱為 PMG(Personalized Multimodal Generation)。下面圖 2 用個性化生成《泰坦尼克號》電影海報為例展示了其模型結構。
1.1 方法總覽
▲ 圖2 PMG 的模型結構
在本例中,使用者歷史行為指的是其觀影和對話歷史,目標物品則是電影《泰坦尼克》真實的電影海報。實現個性化的第一步是提取使用者偏好,這裡我們利用大模型對使用者歷史行為進行分析來實現。我們採用兩個互補的方法:
① 透過凍結的大語言模型,從使用者行為資料中提取出能夠明確表達其偏好的自然語言關鍵詞(稱為“硬使用者偏好”);
② 訓練可調整的大語言模型,從使用者行為中學習出隱含的偏好向量(稱為“軟使用者偏好”)。
與此同時,目標物品(即電影《泰坦尼克》)也被大模型轉換為顯式關鍵詞(稱為“目標物品關鍵詞”)用於控制生成的具體內容。最終,這些使用者偏好資訊和目標項關鍵詞將被整合到生成模型(例如擴散模型或多模態大語言模型)中,得到既反映使用者個性偏好、又符合目標物品的多模態生成結果。

1.2 關鍵詞生成

為了從使用者的歷史行為中提取出反映其個性化偏好的關鍵詞,我們人工構造了提示詞以對大語言模型進行指導。具體來說,提示模板中包含三個關鍵要素:任務指令 、屬性 和任務示例
任務指令 描述了需要大語言模型執行的任務(即“提取使用者偏好”)。屬性 是各個場景中生成時需要重點關注的多個角度,例如對於表情包可以是“情緒、角色、風格”,對於電影海報可以是“年代、演員、型別”等等。示例 則提供了期望的輸出格式和樣例關鍵詞,不僅有助於指導模型的回答,也確保了輸出結果的標準化。
有了這個提示模板,我們就可以讓大語言模型針對每個屬性 生成相應的使用者偏好關鍵詞 ,並將它們組合在一起,形成全面反映使用者偏好的關鍵詞集合。
生成目標專案關鍵詞 的過程則相對簡單,這裡只有一個單獨的 ,且沒有涉及到對話資料

1.3 隱向量生成

在關鍵詞生成模組中,我們已經提取出的關鍵詞集合 ,這種離散的語義表示能夠直觀地概括關鍵資訊。而為了更加精準地反映使用者偏好和目標物品的特徵,我們還引入了連續的隱向量表示,以期捕捉更豐富和細膩的語義特徵。
這種結合關鍵詞和隱向量的混合表示方式,可以很好地彌補單一表示形式的不足。自然語言關鍵詞雖然易於理解和解釋,但表達能力受限,而隱向量雖然可以提供更精細的語義刻畫,卻需要更多的訓練資源和計算開銷。只有將兩者進行混合表示,才能夠兼顧準確性和效率。
隱向量的訓練過程如圖 3 所示。為了增強大語言模型對多模態生成任務的理解,消除生成過程中的語義偏差,我們引入 P-Tuning V2 [1] 和多模態表大模型進行微調,稱之為“偏差校正大模型”。這些多模態表徵會被傳遞給大語言模型,並且它們在向量層中的對應引數是可訓練的。
在  P-Tuning V2 的方法中,每個 Transformer 層的向量序列都被添加了 個字首向量 它們和多模態表徵 一起作為該模型的可訓練引數。該過程可以表示為:
其中 表示大語言模型的兩部分輸出, 被作為從多模態表徵中提取出的偏好隱向量,這部分輸出將被用於後續的生成任務。生成器結合這個偏好隱向量以及使用者關鍵詞,生成出最終的多模態內容,生成的結果與監督訊號進行 MSE 損失計算,並透過反向傳播的方式,更新可訓練的偏差校正大模型引數。
▲ 圖3 使用者偏好向量訓練流程

1.4 使用者偏好和目標項的平衡

在生成推理過程中,總共有兩個重要的條件需要考慮,即使用者偏好條件和目標項條件,簡單地進行組合可能導致過於關注其中一個條件,而忽略了另一個條件,我們需要一種方法來平衡兩者在生成過程中的權重。對此,我們引入了兩個指標來評估生成結果的質量:
① 個性化水平:這個指標反映了生成內容與使用者偏好之間的相似程度。它可以幫助我們確保生成結果能夠契合使用者的個人喜好。
② 準確度:這個指標則衡量了生成內容與目標內容之間的匹配程度。它可以確保生成結果能夠滿足預期的目標要求。
透過同時監控這兩個指標,我們可以全面地評估生成效果,確保在滿足使用者偏好和目標要求之間達到適當的平衡。具體來說,這兩個指標的計算是透過預訓練的多模態網路(如 CLIP),將生成結果 和關鍵詞 轉換為向量 ,它們之間的餘弦相似度被作為個性化水平 和準確度
平衡這兩個指標的方式為最大化 對數的加權和:
由於取了對數,最佳化目標會更重視弱勢指標的數值提升。超引數 通常設定為0.5,也可以根據使用場景和需求進行調整,以實現不同程度的個性化。

實驗結果

為了驗證 PMG 模型的效能,我們設計了服裝影像、電影海報、表情符號三個典型的應用場景,使用 Llama2-7B 作為基礎的大模型進行了實驗,生成效果如圖 3 至  5 所示。在每個場景中,PMG 都能夠生成反映使用者偏好的個性化內容。
(1)服裝影像生成:我們使用時尚服裝資料集 POG,基於使用者的歷史瀏覽記錄,生成個性化的服裝影像。例如,為男性使用者生成更偏男性風格的服裝,為女性使用者生成更偏女性風格的服裝。
(2)電影海報生成:我們使用 MovieLens 資料集,根據使用者的觀影歷史,生成個性化的電影海報。例如,為喜歡看卡通電影的使用者,生成更卡通風格的電影海報。
(3)表情符號生成:利用使用者的對話和表情使用記錄,生成個性化的表情符號。例如,為喜歡小動物的使用者,生成一些小貓咪表情。
▲ 圖3 服裝場景生成效果
▲ 圖4 電影海報場景生成效果
▲ 圖5. 表情包場景生成效果
我們用 POG 和 MovieLens 資料集對服裝和電影海報這兩個場景進行了量化評估,評估採用影像相似度指標 LPIPS 和 SSIM,其中“歷史”列表示生成結果與使用者歷史互動專案之間的相似度,用於衡量生成的個性化程度;“目標”列表示生成結果與目標物品之間的相似度,用於衡量生成的準確度。測試結果如下表,PMG 在實現了在不損失準確度的情況下,大幅度提升了生成結果的個性化程度。
我們也透過使用者調研的方式進行了評估,結果是 PMG 產生的內容得分遠超過沒有個性化的生成內容,這表明個性化多模態生成能夠有效改善使用者體驗,將有廣闊的應用空間和巨大的商業潛力。

總結

在這篇論文中,我們提出了一種名為 PMG 的方法,用於個性化多模態生成。利用大型語言模型,我們提取使用者偏好並將其作為生成器的生成條件以實現個性化。個性化多模態生成技術有巨大的應用潛力,但相關研究尚處於探索階段,這項工作為其進一步發展鋪平了道路,使得創造定製和引人入勝的使用者體驗成為可能。
參考文獻
[1] Liu, X., Ji, K., Fu, Y., Tam, W. L., Du, Z., Yang, Z., & Tang, J. (2021). P-tuning v2: Prompt tuning can be comparable to fine-tuning universally across scales and tasks. arXiv preprint arXiv:2110.07602.
更多閱讀
#投 稿 通 道#
 讓你的文字被更多人看到 
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。 
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析科研心得競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝 稿件基本要求:
• 文章確係個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標註 
• 稿件建議以 markdown 格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題
• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬 投稿通道:
• 投稿郵箱:[email protected] 
• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者
• 您也可以直接新增小編微信(pwbot02)快速投稿,備註:姓名-投稿
△長按新增PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜尋「PaperWeekly」
點選「關注」訂閱我們的專欄吧
·
·
·

相關文章