特徵工程、模型結構、AIGC——大模型在推薦系統中的3大落地方向|文末贈書

這裡是「王喆的機器學習筆記」的第四十五篇文章。今天我們談談一個搜廣推行業這兩年怎麼都繞不開的一個話題,大模型在推薦系統中的應用。兩年前,我們可以說大模型是推薦系統的未來,但如今,大模型對推薦系統的改造已經如火如荼的發生著,很多頭部公司都拿到了顯著的收益。這篇文章不談未來,不談學術,就談業界已經發生的切切實實拿到收益的大模型應用方向。
大模型影響推薦系統的三個層次
談具體的應用之前,我們先從宏觀上理解一下大模型的出現對推薦系統到底意味著什麼。
就像在改造推薦模型時,我們一定要清楚資訊增量在哪、模型結構的最佳化點在哪一樣,我們並不是因為大模型這個技術比較 fancy,所以才把大模型施加到推薦系統之上,而是因為大模型確確實實能夠為推薦系統帶來知識和模型的全新變化,讓推薦效果受益,才應用大模型技術的。
因此我想先從宏觀上解釋一下大模型對推薦系統的實際意義到底是什麼。我的理解中,大模型宏觀上在三個層級上改變了這個世界,也同樣是在這三個層次上改變了推薦系統。
一、大模型改變了“知識學習”的方式
大語言模型的出現,特別是多模態大模型的出現,毫無疑問改變了 AI 學習理解知識的方式。傳統的深度學習推薦模型對知識的學習其實是封閉式的,它依賴人工的內容型特徵的篩選和構造來學習知識,同時它的知識範圍一般限於公司的內部推薦資料。而大模型的知識學習是開放式的,一個大模型就可以融會貫通開放世界中能獲取到的幾乎所有知識,這是之前沒有技術能夠達到的。
這就帶來了推薦系統在“知識輸入”上的革命。大模型融合的開放世界知識將帶給推薦系統豐富的增量資訊,多模態大模型對於圖片、影片的理解能力帶來了更為豐富的多模態知識輸入。這對於推薦系統的特徵工程、冷啟動、內容理解的意義重大。
二、大模型改變了“智慧體”本身
當今的大模型結構一般是基於 transformer 結構的生成式模型結構。大模型的結構和傳統的深度學習推薦模型區別甚大。本質上,推薦模型是一個分類模型或排序模型,而大模型是生成式模型。在深度學習推薦模型 2021 年之後遇到效果提升的瓶頸之時,大模型的生成式模型結構是不是推薦模型的新答案,新正規化?在大模型改造了智慧體的結構之時,它能否也顛覆推薦模型,帶來新的增長極,這是所有人期望去探索的。
三、大模型開始創造一個”新世界“
OpenAI 在釋出 Sora 之時,喊出了“Sora 是這個世界的模擬器”的口號。大模型最大的野心其實是完全創造一個新的虛擬世界。回到推薦系統領域,其實推薦系統一直以來的使命是幫助人發掘感興趣的資訊和內容。但大模型極強的內容生成能力,讓“個性化內容生成”成為可能。也就是說,大模型有可能越過“推薦”這個環節,直接為使用者創造個性化內容,這才是大模型可能帶給推薦系統最大的革命。
從宏觀上釐清了大模型革命的三個層次,我們才能腳踏實地的探索那些可能落地的應用。下面列出一些經過我篩選的,並且也有一些落地經驗的大模型推薦系統應用方向。
理解世界——大模型對
推薦系統知識獲取方式的改造
下面的表格對比了大模型在知識層面上相比傳統推薦系統的不同,可以發現,大模型的知識與推薦系統的知識是“完美互補”的關係。大模型的知識是開放的、多模態的,它從開放世界學習到的外部知識將給推薦系統帶來大量的“新鮮血液”;但與此同時,大模型缺乏推薦系統內部的使用者行為資訊,這也就意味著大模型無法完全替代推薦系統的知識體系。最合理的方式是結合二者的優勢,將大模型的世界知識輸入到推薦系統中去,提升推薦系統的效果上限。

對比曾經紅極一時的基於知識圖譜的 RippleNet,KGAT 等 GNN 方案,大模型其實是在一張包含了世界知識的知識圖譜上訓練的,而其生成的對於每個知識節點的 Embedding 顯然具備更豐富的相似性關係。所以從知識輸入的角度來說,大模型對知識圖譜 GNN 方案有著降維打擊似的優勢。而相比個性化的構造一些內容型 / 知識型特徵輸入推薦模型這種小打小鬧的方案,大模型也顯然具有更強的通用性,所以我們幾乎可以得出結論:
大模型相比傳統的知識圖譜、人工構造內容型特徵等知識輸入方式,無論是在知識總量,還是知識 Embedding 的質量上,都具備明顯的優勢。今後在考慮構造知識型 / 內容型特徵時,大模型幾乎可以說是最優的解決方案。

電影知識圖譜
明確了方案的優勢,那麼從做法上來說,有哪些方式把大模型的知識餵給推薦系統呢?主要有兩種。
第一種是 LLM 生成 Embedding 後輸入推薦系統。對於 LLaMA 這樣的開源大模型來說,我們可以知道模型所有的引數,也可以對模型進行改造,所以在預訓練完成之後,大模型可以被當作一個多模態特徵的編碼器,把多模態特徵轉換成同一隱空間內的 Embedding,這樣就可以與深度學習推薦系統無縫銜接。
第二種是 LLM 生成文字 Token 後輸入推薦系統。對於 ChatGPT 這樣的閉源大模型來說,我們無法讓模型直接生成 Embedding,而只能透過它的 API 生成 Prompt 對應的 token 序列。這時 token 序列就可以成為大模型向推薦系統傳播知識的媒介。當然在推薦模型中 token 還是會被轉換成 embedding 來參與特徵交叉。

大模型知識餵給推薦系統的兩種方案
本質上,多模態大模型這裡被當做了一個功能強大的 encoder,過去我們想構造一個多模態推薦系統,還需要為相應的模態分別構建 encoder,現在一個預訓練的多模態大模型,或者是成熟大模型公司的 api 就解決所有問題。具體的方案有很多,比如下圖的 MoRec 使用 Switch 遊戲的介紹圖片和介紹文字構建多模態特徵,進行遊戲推薦。

MoRec 融合多模態特徵的過程
比如在 MKGAT(Multi-modal Knowledge Graphs for Recommender Systems)方案中,把圖片,文字描述資訊,結構化資訊等多模態的 Embedding 透過 FC layers 整合起來,形成更全面的關於物品內容的 Embedding 表達。MKGAT 其實是一個比較老的方案,當時的圖片類資訊還是採用 resnet 作為一個編碼器,現在通用的做法就是替換成大模型把圖片轉換成 Embedding 或者圖片描述型 tag 後輸入推薦模型。

MKGAT 方案中的多模態 Embedding 融合方案
再比如快手的多模態推薦模型方案 EM3(End-to-end training of Multimodal Model and ranking Model)。可以看到其最大的特點是用多模態大模型抽取出使用者行為歷史物品和目標商品的內容特徵,Embedding 化後供後續模型做特徵交叉。值得注意的是,ID 型特徵還保留在模型中,因為 ID 特徵和多模態內容型特徵是互補的關係,二者包含的資訊是不可相互替代的。

快手的多模態推薦模型 EM3
總的來說,不管這些方案的結構是怎樣的,訓練方式是預訓練還是 E2E 訓練,我們只要記住一件事情就可以理解他們的核心思路,那就是他們無一例外都在利用多模態大模型的能力把多模態的資訊轉換成模型可以學習吸收的 Embedding 或者文字 token。也無論相關的學術詞彙多複雜,比如知識增強,大模型知識圖譜,大模型特徵工程等等,都可以歸為這一類,那就是利用大模型改變推薦系統學習知識的方式。
改造世界——大模型對於
推薦模型的改造
大模型改造推薦系統的第二個層級是對推薦系統本身推薦方式的改造,或者更具代表性的是對推薦模型本身的改造。這一大趨勢攜帶著所有推薦系統工程師們的一個深切的希望——深度學習的紅利逐漸枯竭之後,推薦模型新的發展正規化到底在哪裡?
對於這一新正規化的追尋,其實也經歷了三個小的發展階段。第一個階段是探索期,甚至帶著點為了在推薦系統中應用大模型而應用大模型的追熱點時期。這一階段的典型產物是一堆有玩具性質的 prompt 推薦系統。比如亞馬遜的研究人員給出的一個解決方案,PALR(Personalization Aware LLMs for Recommendation,個性化感知大語言推薦系統)。它的主要推薦流程是把使用者的歷史行為,和候選物品的相關資訊統統透過 prompt 的方式輸入給大模型,讓大模型自己來進行個性化推薦

PALR 的基本推薦流程
它的一般流程是,大模型先利用使用者的歷史行為推斷出使用者的基本興趣畫像。如下:

然後,再把使用者的畫像、歷史行為文字描述、候選物品資訊輸入大模型,給出最終的推薦列表,如下:

這一過程雖然能夠得出一個靠譜的推薦結果,但如果你是一個有些行業經驗的從業者,一定能看出,這一方案在擴充套件性,模型的工程指標和資訊利用程度上,都不可能好於現在的深度學習推薦模型。所以我稱之為探索期的玩具推薦模型。即使有後續的其他類似推薦系統的探索,比如華為的 UniLLMRec 等,仍是一類較難工業化的推薦系統方案。
於是,大模型推薦系統的探索來到了第二階段,到底如何在工業級推薦系統中讓大模型產生業務指標的真正提升。Meta 的生成式推薦模型 GR(Generative Recommendation)方案率先給我們曙光。GR 的線上核心業務指標大幅提升了 12.4%,這毫無疑問給整個推薦模型領域注入了一個強心針。
技術方案上,GR 也可謂是完全脫胎於大模型的結構,直接推翻了傳統推薦模型 CTR 預估式的 point wise 模型結構,而是採用生成式語言模型的結構,從預測點選率的問題,變成預測使用者下一個行為是什麼這種生成式推薦的問題。針對這種新的問題提出方式,模型的結構也完全遵循 LLM 的序列模型結構,輸入的特徵也全部通用化為序列特徵的形式。毫無疑問,這是革命性的。
GR 的工程最佳化方式也是非常巧妙,比如模型一次 inference 即可生成對所有候選物品的預估結果,模型的 transformer 結構進行了高效的簡化等等,可以看出 Meta 的工程師們是在竭盡所有智慧和技巧推 GR 上線。

Meta 的 GR 模型與深度學習推薦模型結構的對比
Meta GR 的珠玉在前,利用 LLM 結構最佳化推薦系統的各個模組似乎一下子成為了新的流行趨勢,並有不少公司拿到了切實的業務效果。召回層、粗排層、精排層的模型方案都有了大模型的影子。這第三階段大有百花齊放的趨勢。這裡舉一個比較有代表性的例子是快手的基於 Transformer 的召回模型 KuaiFormer。
和 Meta GR 一樣,KuaiFormer 也把過去“視推薦為分類問題”的做法改成了“把推薦視為預測使用者的 next token”的問題,於是就可以利用 Transfomer 的結構預測使用者的 next interest embedding,再把這些 embedding 當作 ANN 召回的索引 Embedding,就實現了 LLM 思想對召回層的改造。可以說,這類方案的核心是用訓練 LLM 的思路解決推薦問題,用 Transformer 為基礎的模型結構。

時至今日(2025 年 4 月),大模型在推薦系統的應用文章越來越多,但只要我們能夠掌握住該類思路的核心——用生成式模型的思路作為解決推薦問題的新正規化,就可以把這類思路應用在推薦系統各類模型的改造之上。
創造世界——大模型在
推薦內容生成上的應用
雖然上面兩個方向的大模型應用已經帶來了諸多收益,但我要在這裡說的是,如果你把 LLM 和 GenAI 改造推薦系統的潛力侷限在現有的推薦系統框架內部,那我想你是太小看這次革命的影響力了。我強烈推薦的是跳出自己的技術小圈子,從大的視角再思考一下從哪個角度發力,才能讓大模型最大程度地推動推薦系統的效果增長。
相比推薦系統技術上的改造,這波 AI 革命對推薦領域最大的影響,我想一定是"推薦內容的個性化生成"。如果說 OpenAI Sora 的口號“成為世界的模擬器”還有點好高騖遠的話,那 AIGC 生成推薦內容的很多想法已經產品化,越來越深刻地影響著現在的推薦方式。
宏觀上來說,新的推薦內容生成方式是把 AI 生成器(圖來自生成式推薦系統的框架 GeneRec),或者叫 AI 創作者納入到推薦系統中來。

加入 AI 生成器的推薦系統閉環
從圖中可以看到,AI 生成器參與創作的方式有兩種:
  1. 輔助人類創作者創作,比如根據人類的 Prompt 生成文字、圖片或影片。
  2. 直接根據使用者反饋生成個性化的推薦內容。
AI 創作者創作的內容出路就一個,那就是與人類創作者創作的內容一樣流入候選物品集,一同參與推薦過程。
無論是 AI 輔助內容創作和 AI 個性化內容生成,它的基礎都離不開擴散模型(diffusion model)。無論是大名鼎鼎的 Stable Diffusion,還是轟動一時的 Sora,其底層的 prompt Embedding 到圖片的關鍵步驟,都是基於擴散模型的。

Stable Diffusion 的基本框架

Sora 的基本框架(來自張俊林老師的逆向工程解讀)
對 AIGC 相關模型細節感興趣的讀者,可以參考下面的兩篇經典解讀文章
The Illustrated Stable Diffusion
張俊林:技術神秘化的去魅:Sora 關鍵技術逆向工程圖解
在 AIGC 的基礎模型之上,其實各家推薦內容生成的要點主要在產品創新,比如廣告創意的自動生成,利用產品圖片和有限的人類輸入的 prompt,可以生成多樣化的產品展示圖和海報,然後交由廣告推薦系統去自動選擇。

AI 輔助廣告創意生成
再比如數字人技術,可以把文字輸入自動轉換成口播影片,產品介紹,甚至新聞播報節目。這是內容創作生產力的大幅解放。

再比如,目前已經有一些模版化,規則化的 AI 生成影片,在短影片平臺上取得了非常不錯的點選量。我想下面一些 AI 生成的影片你一定刷到過。

這裡我要強調的是,目前所有的 AIGC 產品,還都是需要人類介入的,人類要提供最起碼的指令型 prompt,比如生成內容的核心要素是什麼,生成廣告創意的大致樣式是怎樣的。這距離完美的個性化 AI 生成影片還有一定的距離。我想 AIGC 最大的想象空間是未來的推薦系統將根據使用者反饋完全自主的生成使用者想看的內容,不再依賴人類的參與,達到完全自主的使用者 -AI- 推薦系統閉環。
目前有一些探索性的研究,比如個性化的電影海報生成(PMG: Personalized Multimodal Generation with Large Language Models)。它的主要邏輯是把使用者的行為歷史融合到電影海報的生成過程中,生成針對使用者喜好的個性化海報。這類方案從商業邏輯上還不完全成立,但大家應該能從這個方案中瞭解到 AI 個性化內容生成的大致框架。

PMG 個性化海報生成
發散一點來說,AI 生成越來越多推薦內容之時,另一個關於 AI 倫理的更宏大的命題又應運而生,如果真的有那麼一天,AI 生成了所有人類樂意看的推薦內容,人類願意活在完全由 AI 推薦系統創造的快樂世界裡嗎?人類終究還是需要與其他人類的靈感碰撞才是真正快樂的吧。推薦系統的資訊繭房,甚至哲學意義上的“缸中之腦”問題,終究要在 AI 進一步發展滯後尋求一個答案。
深度學習推薦系統 2.0 時代
對推薦系統下一步突破的探索
最後談一談作為推薦、廣告、搜尋領域的從業者,如何看待推薦系統下一步的破局點以及對職業發展的一點建議。
首先我旗幟鮮明的認為,搜廣推行業沒有寒冬一說,它只是一直在進化,一直在尋求進一步的增長點。就像 2014-2015 年的時候,深度學習的革命全面到來之前,大家也是都在談廣告效果停滯,效果廣告行業瓶頸。事實是,那是一個 LR 模型就能一統江湖的時代,大家口中的效果瓶頸在後來人看來是完全不存在的,在那波深度學習革命中被淘汰的,是一批靠著規則推薦、靠著營銷、甚至效果作弊紅極一時的公司。
今天的大模型時代也一樣。我從來不建議搜廣推的從業者拋棄自己的技術、業務、行業優勢去完全更換賽道。我建議的是突破自己固有的技術區域,去思考新的技術革命下如何把新的技術趨勢結合到自己非常熟悉的領域。因為搜廣推仍然是網際網路的第一變現渠道,如果網際網路不需要盈利了,搜廣推才會徹底寒冬。
在深度學習推薦系統 2.0 時代,對於行業的突破點,我給出的建議是:演算法、工程與大模型的聯合創新與最佳化。誰能透過三者的最佳化把大模型的收益拿到手裡,落到實處,誰就能在下一步的競爭中領先。這裡面,深度學習推薦系統的演算法框架是基礎,大模型的創新點和收益來源,演算法和工程的聯合最佳化是落地關鍵點,缺一不可。我也會在我的新書中跟大家詳細探討更多聯合最佳化的案例。
讀者福利
大模型時代對搜尋、廣告、推薦行業的工程師們提出了新的挑戰,特別是在新的行業環境下,公司與公司之間、團隊與團隊之間、個人與個人之間都面臨著更大的競爭壓力。這本書無疑是一本不可或缺的技術指南,助力企業和個人在大模型時代的浪潮中乘風破浪,勇往直前。本次,我們為讀者朋友準備了 3 本《【深度學習推薦系統】2.0 新篇:大模型時代的推薦系統破局點》。現在,關注  AI 前線 公眾號,回覆關鍵字 “推薦系統” 即可參與抽獎。

InfoQ 老友!請留步!極客邦 1 號客服上線工作啦!
後續我將透過微信影片號,以影片的形式持續更新技術話題、未來發展趨勢、創業經驗、商業踩坑教訓等精彩內容,和大家一同成長,開啟知識交流之旅歡迎掃碼關注我的微信影片號~
今日薦文
你也「在看」嗎?👇

相關文章