中科大華為釋出生成式推薦大模型,昇騰NPU可部署,背後認知一同公開

認知智慧全國重點實驗室&華為諾亞方舟 投稿量子位 | 公眾號 QbitAI
推薦大模型也可生成式,並且首次在國產昇騰NPU上成功部署
在資訊爆炸時代,推薦系統已成為生活中不可或缺的一部分。Meta率先提出了生成式推薦正規化HSTU,將推薦引數擴充套件至萬億級別,取得顯著成果。
探索過程中還有哪些經驗與發現?最新公開分享來了。
報告亮點包括:
  • 總結推薦正規化發展歷程,指出具備擴充套件定律的生成式推薦正規化是未來趨勢;
  • 復現並研究不同架構的生成式推薦模型及其擴充套件定律;透過消融實驗和引數分析,解析HSTU的擴充套件定律來源,並賦予SASRec以可擴充套件性;
  • 驗證HSTU在複雜場景和排序任務中的表現及擴充套件性;
  • 團隊展望並總結未來研究方向。

具備擴充套件定律的生成式推薦正規化正在成為未來趨勢

如圖1所示,推薦系統的發展趨勢是逐漸減少對手工設計特徵工程和模型結構的依賴。在深度學習興起之前,受限於計算資源,人們傾向於使用手工設計的特徵和簡單模型(圖1A)。
隨著深度學習的發展,研究者專注於複雜模型的設計,以更好地擬合用戶偏好,並提升對GPU平行計算的利用率(圖1B)。
然而,隨著深度學習能力的瓶頸,特徵工程再次受到關注(圖1C)。
如今,大語言模型擴充套件定律的成功啟發了推薦領域的研究者。擴充套件定律描述了模型效能與關鍵指標(如引數規模、資料集規模和訓練資源)之間的冪律關係。透過增加模型深度和寬度,並結合大量資料,可以提升推薦效果(圖1D),這種方法被稱為推薦大模型。
近期,HSTU等生成式推薦框架在此方向取得了顯著成果,驗證了推薦領域的擴充套件定律,引發了生成式推薦大模型研究的熱潮。團隊認為,生成式推薦大模型正在成為顛覆當前推薦系統的下一個新正規化。
在此背景下,探索哪些模型真正具備可擴充套件性,理解其成功應用擴充套件定律的原因,以及如何利用這些規律提升推薦效果,已成為當前推薦系統領域的熱門課題。

基於不同架構的生成式推薦大模型擴充套件性分析

為了評估生成式推薦大模型在不同架構下的擴充套件性,團隊對比了HSTU、Llama、GPT和SASRec四種基於Transformer的架構。
在三個公開資料集上,透過不同注意力模組數量下的效能表現進行分析(見表1)。結果顯示,當模型引數較小時,各架構表現相似,且最優架構因資料集而異。
然而,隨著引數擴充套件,HSTU和Llama的效能顯著提升,而GPT和SASRec的擴充套件性不足。儘管GPT在其他領域表現良好,但在推薦任務上未達預期。團隊認為,這是因為GPT和SASRec的架構缺乏專為推薦任務設計的關鍵元件,無法有效利用擴充套件定律。

生成式推薦模型的可擴充套件性來源分析

為了探究HSTU等生成式推薦模型的可擴充套件性來源,團隊進行了消融實驗,分別去除了HSTU中的關鍵元件:相對注意力偏移(RAB)、SiLU啟用函式,以及特徵交叉機制。
實驗結果(見表2)顯示,單一模組的缺失並未顯著影響模型的擴充套件性,但RAB的移除導致效能明顯下降,表明其關鍵作用。
為了進一步分析賦予模型擴充套件定律的因素,團隊比較了SASRec與擴充套件性良好的HSTU和Llama的區別,發現主要差異在於RAB和注意力模組內的殘差連線方式。
為驗證這些差異是否為擴充套件性的關鍵,團隊為SASRec引入了HSTU的RAB,並調整其注意力模組的實現方式。
實驗結果(見表3)顯示,單獨新增RAB或修改殘差連線並未顯著改善SASRec的擴充套件性。然而,當同時修改兩個元件後,SASRec展現出良好的擴充套件性。這表明,殘差連線模式與RAB的結合,為傳統推薦模型賦予了擴充套件性,為未來推薦系統的擴充套件性探索提供了重要啟示。

生成式推薦模型在複雜場景和排序任務中的表現

複雜場景中的表現

HSTU在多域、多行為和輔助資訊等複雜場景中表現出色。以多域為例,HSTU在AMZ-MD的四個域中始終優於基線模型SASRec和C2DSR(見表4)。
與單域獨立訓練的HSTU-single相比,多域聯合訓練的HSTU表現更佳,證明了多域聯合建模的優勢。表5顯示,HSTU在多域行為資料上的擴充套件性顯著,尤其在規模較小的場景如Digital Music和Video Games上。這表明HSTU在解決冷啟動問題上具有潛力。

在排序任務中的表現

排序是推薦系統中重要的一環,團隊深入探討了生成式推薦模型在排序任務中的有效性和擴充套件性。正如表6所示,生成式推薦大模型在效能上顯著優於DIN等傳統推薦模型。儘管在小規模模型下,Llama的表現優於HSTU,但HSTU在擴充套件性方面更具優勢,而Llama在擴充套件性上顯得不足。
團隊還研究了負取樣率和評分網路架構對排序任務的影響,並進行了全面分析。此外,還探討了縮減embedding維度對效能的影響。縮小embedding維度(表7)提升了小資料集ML-1M和AMZ-Books的效能,但在大資料集ML-20M上則有所下降。這表明,推薦大模型的擴充套件定律不僅受垂直擴充套件(注意力模組數量)影響,也受水平規模(embedding維度)影響。

未來方向和總結

在技術報告中,團隊指出了資料工程、Tokenizer、訓練推理效率等推薦大模型未來研究的潛力方向,這些方向將幫助解決當前的挑戰並拓寬應用場景。
論文連結: https://arxiv.org/abs/2412.00714主頁連結: https://github.com/USTC-StarTeam/Awesome-Large-Recommendation-Models
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
—  —
學術投稿請於工作日發郵件到:
標題註明【投稿】,告訴我們:
你是誰,從哪來,投稿內容
附上論文/專案主頁連結,以及聯絡方式哦
我們會(儘量)及時回覆你

🌟 點亮星標 🌟
科技前沿進展每日見

相關文章