一篇論文，看見百度廣告推薦系統在大模型時代的革新

機器之心報道

編輯：澤南、杜偉

2025 年，生成式 AI 的發展速度正在加快。

我們見證了 DeepSeek R1，用強大的推理能力再次點燃 AI 智力增長的火箭。

在上個星期，OpenAI 給 GPT-4o 的一波影像生成更新又讓全網陷入了梗圖、甚至玩梗影片製造的火熱氛圍中。

用 GPT-4o 渲染過的《星際穿越》電影片段。

AI 的「想象力」一次又一次震撼著我們，基於先進大模型的應用正在越來越多的領域引發革命，被改變的也包括科技領域本身。

比如，生成式 AI 正在改變人們獲取資訊的方式。很多人認為，大型語言模型（LLM）既然強於生成和推理，那麼應該也能從使用者的歷史行為中洞察出深層次的興趣，進而為推薦系統找到全新的可能性。

既然生成式 AI 能透過已知上下文預測生成新內容，那麼已知一些人們感興趣的內容，AI 應該也可以預測出他們的下一個興趣點。這個預測的內容可以是一篇文章、一段影片、某個品牌的商品或是 App 上的服務。

近日，百度推薦廣告團隊在廣告生成式推薦取得了新成果，其構建的生成式 AI 推薦系統實現了前所未有的效果。

論文標題：Sparse Meets Dense: Unified Generative Recommendations with Cascaded Sparse-Dense Representations
論文 ArXiv：https://arxiv.org/pdf/2503.02453

在科技行業中，推薦系統雖不如影像生成、程式碼生成那樣具有極高的討論度，但一直是數字生態舉足輕重的一部分。它在電商平臺、影片 App 和社交網路上廣泛出現，是提供符合使用者偏好個性化內容的核心技術。

ChatGPT 推出以來，生成式檢索（Generative Retrieval）逐漸成為了推薦系統領域最熱門的研究方向。與傳統的序列推薦方法不同的是，生成式模型可以根據使用者的行為更加直接的進行預測，由 AI 模型處理複雜的使用者 – 商品互動，可以提供推理和小樣本學習等新能力，大幅提高推薦準確性和多樣性。

儘管把生成式 AI 引入推薦系統的創新已有不少，但與序列密集檢索方法相比，生成式檢索方法仍然面臨一些挑戰，比如它們往往難以進行細粒度相似性建模。

谷歌的 TIGER 是推薦系統生成檢索的知名方法，如圖 1（左下）所示；百度則新提出了級聯組織雙表徵生成式檢索（Cascaded Organized Bi-Represented generAtive Retrieval，COBRA），這是一個將生成式和密集檢索高效融合的框架。圖 1（右）展示了 COBRA 的推理正規化。

COBRA 研究的主要貢獻如下：

級聯雙表示的檢索框架：COBRA 作為一種新型生成式推薦框架，可在生成稀疏 ID 和稠密向量之間交替。透過將稠密表示合併到 ID 序列中，COBRA 彌補了基於 ID 的方法固有的資訊損失。使用稀疏 ID 作為生成稠密向量的條件可以降低稠密表示的學習難度。
端到端訓練可學習的稠密表示：COBRA 利用原始特徵資料作為輸入，透過端到端訓練生成稠密表示。與靜態嵌入不同，COBRA 的稠密向量是動態學習的，可捕獲語義資訊和細粒度細節。
生成過程由粗到細：在推理過程中，COBRA 首先生成稀疏 ID，然後將其反饋到模型中以生成精細的稠密表示，從而提取細粒度興趣表徵。此外，該研究還提出了 BeamFusion 來實現推薦多樣性和精度的靈活可控。
全面的實證驗證：透過對多個基準資料集的大量實驗，研究證明了 COBRA 在推薦準確率方面的表現優於現有的 SOTA 方法，驗證了 COBRA 在推薦任務中真實有效性。

生成式檢索

幾波技術演進

其實，在形成如今 COBRA 方案之前，百度研究團隊針對廣告場景中的生成式推薦任務，經歷了多個階段的技術探索，並針對暴露出來的技術缺陷持續最佳化與完善。

在生成式推薦任務中，大模型要預測的 item 是綜合體（如廣告標題、品牌、多模資訊等）⽽並⾮簡單的 token。因此，1）如何對 item 進行表徵，2）基於表徵進行序列建模是生成式推薦的兩個核心問題。

最開始，百度採用了「純⽂本表徵 + LLM 建模」的方案，直接利用 LLM 進行推薦。透過標題、落地頁等文字來表徵 item，雖然可以輔助理解使用者意圖、提升可解釋性，但超長的輸入導致了巨大的資源和效能開銷，執行成本較高。隨後嘗試透過短語來表徵 item，但短語很容易出現資訊壓縮過度、表達不全的情況，難以全面描述 item 的各種屬性。此外，item 之間的序列關係偏重興趣協同而並非單純的語義關係，與 LLM 建模的語義關係存在著鴻溝。

在意識到無法簡單的直接使用現有方法後，研究團隊開始考慮對 item 進行壓縮表達，全面滿足效能、資訊完備、item 關係建模的要求。

因此，研究團隊形成了「稠密表徵 + 對⽐學習度量」的方案，核心在於將 item 表徵為稠密向量。為此，他們引入了一個編碼器逐個對 item 內容進行編碼，使得 item 序列轉變為一組向量序列並輸入到一個 Causal Decoder 中；接著透過 Next Item Prediction 的方式完成模型訓練，在訓練中引入對比學習，使得編碼器、解碼器能夠同步更新。在推理階段，演算法透過編碼器輸出 item 向量來構建索引，並透過向量序列輸入到解碼器中獲取使用者表徵，最終完成 ANN 召回。

這一方案的優勢在於表達能力強，可以完整利用 item 原始資訊，對比學習保證了端到端訓練，進一步建模序列中隱含的協同資訊。雖然 item 資訊利用和序列關係建模兩大關鍵問題得到了有效解決，但仍然是在較大稠密空間上建模，缺少了興趣探索過程，建模複雜度並未降低。

「稠密表徵 + 對⽐學習度量」方案概覽。

接下來，研究團隊受到谷歌 TIGER 的啟發，嘗試了「稀疏表徵 + 稀疏 ID ⽣成」的方案，透過稀疏 ID 來表徵 item。

完整的實現過程是這樣的：首先透過商業預訓練模型對廣告特徵進行嵌入，然後使用殘差量化變分自編碼器（RQ-VAE）將嵌入向量量化為帶層次結構的 ID Tuple（如 L1、L2、L3），最後將 ID 序列輸入到 Causal Transformer 並透過下一個 ID 預測來建模序列。在推理階段，在給定行為序列的情況下，模型可以透過自迴歸方式來生成下一個可能的廣告 ID。

稀疏表徵的引入充分發揮出了「嵌入 + 量化」的作用，將 item 轉化為 ID，使模型在壓縮空間中學習使用者興趣轉移，尤其適合高度個性化推薦場景中的「千人千面廣告推送」。然而，受限於相互隔離的「嵌入、量化、序列建模」，不可避免地出現了資訊損失，導致對使用者偏好的精細變化捕捉效果較弱。

在嘗試了以上技術方案之後，研究團隊認識到了單一表徵方式難以同時兼顧粗粒度類別資訊和細粒度特徵資訊的侷限性，提出了 COBRA 框架，透過級聯方式融合稀疏 ID 和稠密向量表徵，形成了「稀疏 – 稠密級聯表徵 + ⽣成度量⼀體化」方案，大大增強了模型的靈活性和適應性。

COBRA 框架的四大創新

下圖為 COBRA 的整體框架，在集成了級聯稀疏 – 稠密表徵和由粗到細生成之後，實現了當前 SOTA 級別的推薦效能。

一是級聯稀疏 – 稠密表徵。

過程中，級聯表徵將稀疏 ID 和稠密向量整合在一個統一的生成式模型中。對於每個 item，它的稀疏 ID 和稠密向量組合起來以形成級聯表徵。這樣做可以兼顧稀疏與稠密表徵的優點，獲得更全面的 item 特徵，其中稀疏 ID 透過離散約束提供穩定的類別基礎資訊，稠密向量確保模型捕獲高階語義和細粒度細節。

二是交替學習的序列建模。

得益於級聯表徵的方式，方案中將目標 item 的機率分佈建模分為兩個階段，以利用稀疏與稠密表徵的互補優勢。COBRA 沒有選擇基於歷史互動序列來直接預測下一個 item，而是轉為交替預測稀疏 ID 和稠密向量。具體來說，採用 Causal Transformer 統一生成式模型接收級聯表徵作為輸入，從而捕獲序列依賴關係。

三是端到端訓練。

COBRA 的端到端訓練過程旨在同時最佳化稀疏和稠密表徵預測。訓練過程由一個複合損失函式控制，該函式結合了稀疏 ID 預測和稠密向量預測的損失。稀疏 ID 預測損失在基於歷史序列預測下一個稀疏 ID 的過程中，保證了模型的效率；稠密向量預測損失用於細化稠密向量。同時，該稠密向量由端到端的可訓練編碼器生成，並在訓練過程中進行最佳化，從而適應不同推薦任務的特定需求。

這種雙目標的損失函式可以實現均衡的最佳化過程，使模型在稀疏 ID 的指導下動態地細化稠密向量，同時端到端的訓練方法可以捕獲高階語義和協同資訊。

最後是由粗到細生成。

作為一種高效的策略，這有助於模型解耦與模組最佳化，並在保證候選多樣化與覆蓋性的同時進一步提高精度。在推理階段，COBRA 採用由粗到細的生成過程，先生成稀疏 ID，後細化稠密向量，如下圖 3 所示。

具體地，首先基於⽤戶歷史互動序列，使用 Transformer 解碼器建模的 ID 機率分佈，並利用 BeamSearch 演算法生成下一個 item 的稀疏 ID。然後，將⽣成的稀疏 ID 追加到輸⼊序列中，作為條件進⼀步⽣成對應的稠密向量，捕獲 item 的細粒度特徵。同時引⼊ BeamFusion 機制，並結合 BeamSearch 和近鄰檢索分數，在確保推薦精度的同時保證召回⼴告候選的多樣性。

由粗到細的生成過程。

COBRA 框架為生成式推薦領域提供了一個的新正規化。

多場景效能提升

已實際應用

實測效果如何？研究團隊使用公開和工業資料集對 COBRA 框架進行了全面評估，並重點展示了 COBRA 提升推薦準確率和多樣性的能力，並透過離線和線上評估來驗證實際效果。大量實驗表明，COBRA 優於目前業內最先進的方法。

在公開資料集上，研究團隊使用了 Amazon Product Reviews 資料集，並重點分析了「Beauty」、「Sports and Outdoors」以及「Toys and Games」三個子集。

實現結果如下表 2 所示，其中在「Beauty」資料集上，COBRA 的 Recall@5 和 Recall@10 相比之前的最佳模型 TIGER 分別提升了 18.3% 和 11.9%；在「Sports and Outdoors」資料集上，COBRA 的 Recall@5 和 NDCG@10 相比 TIGER 分別提升了 15.5% 和 18.8%；在「Toys and Games」資料集上，COBRA 的 Recall@10 和 NDCG@10 相比 TIGER 分別提升了 24.5% 和 19.2%。

對於行業資料集，研究團隊採用了 Baidu Industrial 資料集，它基於百度廣告平臺上的使用者互動日誌構建，涵蓋了列表頁、雙欄、短影片等多種推薦場景，包含了 500 萬用戶和 200 萬條廣告，全面展現了真實使用者行為和廣告內容。

為了驗證本文策略的有效性，研究團隊對 COBRA 以及移除稀疏 ID 的變體 COBRA w/o ID、移除稠密向量的變體 COBRA w/o Dense 以及移除 BeamFusion 的變體 COBRA w/o BeamFusion 進行了比較。結果如下表 3 所示，相較於三種變體，COBRA 均體現出了優勢，從而驗證了該框架中各個元件的有效性。

在 K=800 時，COBRA 的召回率為 0.4466，相較沒有稀疏 ID 的變體提升了 43.6%，相較沒有 BeamFusion 的變體提升了 36.1%。