AI時代,字節跳動的推薦系統還會最強嗎?——位元組最新重磅論文《HLLM分層大模型》,開啟“新千人千面”!

《HLLM:透過分層大型語言模型增強序列推薦以進行專案和使用者建模》——論文作者全部來自ByteDance

「基於演算法的資訊分發」是字節跳動在網際網路時代的一大突破。
關於位元組和旗下的抖音、TikTok、今日頭條等,「推薦演算法」一直是繞不開的主題,甚至被認為是相較於騰訊、快手等競爭制勝的法寶之一。
今天,對於大模型和算力的投入,也為位元組爭取到了AI時代新的船票……豆包、釦子等產品的海外流量持續增長,Gauth等也有突圍的勢頭。
隨著AI底層技術的演進,內容創作、產品製作的門檻不斷降低,生產和供給持續增加,基於大模型的“新推薦系統”也呼之欲出。
AI和推薦系統,在抖音、TikTok上,卻是首先實現了交匯——
字節跳動研究團隊,在9月19日新發表了一篇關於「大模型提升推薦系統效果」的論文,今天為大家詳細介紹一下。
1. 資訊、推薦、Scaling Law
文字、圖片、音訊、影片、程式碼……這五大類資訊載體,在生產端都已經被AI逐一改造——比如最近很多拿NotebookLLM自動生成播客用Cursor for coding等等(AI Coding以及更復雜的生產力應用正在爆發)。
那麼,從生產端再往前一步,一定需要一個更強勢的、更有效率的「推薦分發機制」。因為只有分發到位,才會激發更多的供給生產……
而這些,即將帶動新的資料飛輪:AI時代基於Scaling Law的規模效應、網路效應也會湧現,生產關係也將隨之變化。
我們今天看到的AI生成端的問題,比如內容粗糙、魚龍混雜、倫理道德等等,也將被LLM驅動的新的分發和推薦解決——
用更好的模型,去評估、挑選、推薦“模型自己製造的內容”,進而為使用者帶來資訊極大豐富後新一輪更好的體驗——這是Google、Meta、Perplexity等正在研究的課題。
我非常開心,看到字節跳動在這個領域,也往前邁了一大步。
2. 分層大語言模型 (HLLM) 
位元組這篇AI論文發表於三天前,基本代表了底層研究的最新進展;不論從LLM的角度評判,還是以推薦系統的視角來審視,都很有創新。 
這篇論文,未來有可能會極大影響AI應用層的推薦邏輯、使用者理解、內容呈現……不建議收藏,值得儘快食用!!!
原文的價值肯定更大,附在了文末。這裡分享一下對論文要點的提煉,以及我對位元組推薦策略、AI應用的感受。
論文題目叫:HLLM: Enhancing Sequential Recommendations via Hierarchical Large Language Models for Item and User Modeling,即《HLLM:透過分層大型語言模型,進行專案和使用者建模,增強序列推薦效果》。
位元組研究人員推出了一種名為分層大語言模型 (HLLM) 的創新模型,以提高推薦的準確性和效率。
研究者採用了一個兩層模型第一層Item LLM,從專案的詳細文字描述中提取豐富的內容特徵;而第二層User LLM,利用這些內容特徵,根據使用者的互動歷史,來預測使用者的未來興趣。

基於論文原文的分層要點總結表

在位元組的此項研究之前,LLM在推薦系統中的各項嘗試,基本都是對“傳統推薦模型”做了小幅改進。
有三個關鍵問題,是LLM真正深度介入推薦系統前要評估的
1. LLM預訓練權重的真正價值(通常被認為是世界知識的封裝);
2. 對推薦任務進行微調的必要性;
3. LLM是否可以在推薦系統中,表現出與其他領域相近的可擴充套件性優勢。
對這三個問題,論文中都給出了實驗和解釋。

此圖來自對TikTok推薦演算法的另一項研究,下篇展開

3. 位元組傳統的推薦系統
推薦系統早已成為電商、資訊流和廣告平臺上個性化服務的基礎。
這些系統透過分析歷史互動來預測使用者偏好,從而使平臺可以推薦更精準、更相關、更友好的商品或內容。
一直以來,推薦系統的準確性和有效性,很大程度上取決於使用者和商品特徵的「建模程度」。
多年來,用於捕捉動態和不斷變化的使用者興趣的演算法的開發,變得越來越複雜,尤其是在具有不同使用者行為的大型資料集中。
整合更先進的模型,對於提高推薦的準確性和在實際場景中擴充套件其應用至關重要。

位元組團隊研究發現,推薦系統有一個長期問題,是如何更好地處理新使用者和新專案——通常稱為「冷啟動場景」
當系統需要更多資料才能進行準確預測時,就會發生這種情況,從而導致推薦不理想。
當前的方法依賴於基於 ID 的模型,透過轉換為嵌入向量的唯一識別符號來表示使用者和專案。
雖然這種技術在資料豐富的環境中效果很好,但它在冷啟動條件下會失敗,因為它無法捕獲更能代表使用者興趣和專案屬性的複雜高維特徵。
隨著資料集的增長,現有模型難以保持可擴充套件性和效率,尤其是在需要即時預測時。

4. 與傳統推薦系統方法的不同
推薦領域的傳統方法(例如基於 ID 的嵌入),常常使用簡單的編碼技術,將使用者和專案資訊轉換為系統可以處理的向量。
DeepFM 和 SASRec 等模型,利用這些嵌入來捕獲連續的使用者行為,但相對較淺的架構限制了它們的有效性。
這些方法難以獨立捕獲專案和使用者的豐富、詳細的特徵,需要額外的更多細節、更高質量資料的支援——這通常會導致在應用於複雜的大規模資料集時,效能不佳。
基於嵌入的模型,一般都依賴極多的引數,這使得它們計算成本高昂且效率較低,尤其是在針對推薦等特定任務進行微調時。
HLLM 架構則是旨在利用大型語言模型 (LLM) 的強大功能,來增強順序推薦系統。

論文中的兩層模型圖示

5. 模型一、模型二
與傳統的基於 ID 的系統不同,HLLM 專注於從專案描述中提取豐富的內容特徵,並利用這些特徵來建模使用者行為。
HLLM 由兩個主要元件組成:專案LLM和使用者LLM。
專案LLM:負責透過將特殊標記附加到文字資料,來從專案描述中提取詳細特徵。此過程將大量文字資料轉換為簡潔的嵌入,然後將其傳遞給使用者 LLM。
這種兩層方法,目標是利用預先訓練的、更具體的 LLM(例如具有多達 70 億個引數的 LLM),再來改進「專案特徵提取」和「使用者興趣預測」。
使用者 LLM:處理這些嵌入,以對使用者行為進行建模並預測未來的互動。這種分層架構透過將專案和使用者建模分離來降低推薦系統中通常與 LLM 相關的計算複雜性。
它可以高效處理新專案和使用者,在冷啟動場景中的表現,明顯優於傳統的基於 ID 的模型。

HLLM的執行鏈路

6. 效果:HLLM各項指標優於傳統模型
使用兩個大型資料集 PixelRec 和 Amazon Reviews,對 HLLM 模型的效能進行了嚴格測試,其中包含數百萬次使用者與商品的互動。
例如,PixelRec 的 8M 子集包含 300 萬用戶和超過 1900 萬次使用者互動。HLLM 在這些測試中實現了最佳效能,與傳統模型相比有顯著改進。
具體而言,HLLM 的前 5 名召回率 (R@5) 達到 6.129,與 SASRec 等基線模型相比有顯著提高,後者僅為 5.142。
該模型在 A/B 線上測試中的表現令人印象深刻,展示了現實世界推薦系統的顯著改進。
事實證明,HLLM 在訓練方面更高效,所需的 epoch 比基於 ID 的模型更少。儘管如此,它還表現出卓越的可擴充套件性,隨著模型引數從 10 億增加到 70 億,效能不斷提高。
HLLM 的結果令人信服,尤其是它能夠微調預訓練的 LLM 以完成推薦任務。
儘管使用較少的資料進行訓練,但 HLLM 在各個指標上的表現都優於傳統模型。
例如,HLLM 在 PixelRec 資料集中的前 10 名 (R@10) 的召回率為 12.475,而基於 ID 的模型(如 SASRec)的召回率僅有適度改善,達到 11.010。
此外,在傳統模型往往表現不佳的冷啟動場景中,HLLM 表現出色,證明了其能夠使用最少的資料進行有效推廣。 

7. 結論:全新的推薦系統正在建立
根據結果來看,HLLM 的引入代表了「推薦技術」的重大進步,解決了該領域一些最緊迫的挑戰。
該模型能夠透過大規模語言模型整合專案和使用者建模,從而提高推薦準確性並增強可擴充套件性。
透過利用預先訓練的知識和針對特定任務進行微調,HLLM 實現了卓越的效能,尤其是在實際應用中。
這種方法證明了 LLM 徹底改變推薦系統的潛力,提供了一種比傳統方法更高效、更可擴充套件的解決方案。
HLLM 在實驗和現實環境中的成功,表明它可能成為未來推薦系統的關鍵參與者,特別是在冷啟動和可擴充套件性問題仍然存在的資料豐富的環境中。

8. 位元組的未來:新千人千面時代
不知道大家看抖音的時候,有沒有感覺到,推薦系統一直在“變聰明”。
在抖音上,似乎隱藏著無數的AB test:一隻看不見的手抓起海量的反饋資料,編織出一張無處不在的網路。
前幾年,快手的朋友跟大老闆彙報時,喜歡說抖音的商業化必然影響內容質量——廣告、直播、電商資訊多了以後,使用者體驗肯定變差……然而今天似乎快手和抖音的差距並未縮小。
甚至有時候,讓我感到驚訝的,不是所謂的「抖音過度商業化」,反而是「抖音的剋制」

抖音是極少數有

“使用時長提醒”

的產品,近一小時瀏覽後,會彈出很寧靜溫柔的頁面,提醒人休息。(另一個是微信讀書,天天誇我讀書時間長)

還有一個發現:在連續觀看較多同類影片後,抖音會刻意“收斂”——會岔開同樣型別的選題或者情緒,去推薦其他興趣點。就好像很怕我“吃膩”,有意鼓勵我換換口味……
甚至更有時候,純娛樂內容看多了以後,抖音居然會給我推AI乾貨!
總能看到AI同行、最近的AI活動、AI新聞等等……就好像抖音生怕我沉迷享樂,把我從笑哈哈的樂子裡拽出來,切換成越刷AI內容越多、越看越想工作的狀態。
不知不覺,懷著研究的心情,一兩個小時過去了……
我一直試圖“馴化演算法”、破解“推薦黑盒”,然而,好像我自己才是被馴化的那一個。

我的抖音萬粉測試號之一

我自己的抖音和TikTok,基本都是想看什麼,透過特定動作,就能讓演算法給我推什麼。
我知道有無數的AB Test,但我依然會或順從或叛逆,主動做出各種動作,雙手獻上了自己或真或假的各項資料……
刻意的測試動作,讓我收穫了不止一個抖音萬粉賬號,也讓我開始思考一些其他問題。
使用者在成長,舊的內容和套路在變過時,而好的產品永遠在進化。
一個產品的上限究竟有多大?為什麼一個產品能不斷擴充套件使用者?多年以後為什麼老使用者依然會在平臺上活躍?
也許,產品體驗和內容體驗,不僅要從「有趣」走向「滿足」,最終還要能持續帶來「驚喜」。而這也恰恰是推薦演算法引擎的價值。
本質上,這就是資訊總量的上升、匹配效率的上升,才讓抖音變得更有價值。
很多時候,使用者並不能準確表述自己的需求,而是要平臺去幫使用者主動擴充套件、需要推薦。
AI時代,使用者也常常不知道如何提問、如何提需求、如何創造,這就不止需要推薦系統,也需更好的意圖識別、高質量的問題解決。
而這一切,在AI時代,還僅僅只是個開始。
真正意義上的“千人千面”、“個性內容”、“定製化生產和推薦”,即將伴隨著LLM、Agent、Recommendation Model的成熟,誕生更高情商、更絲滑的極致產品體驗。
全球範圍內,新一輪基於AI和推薦演算法的角逐,帷幕已經拉開……

預告下篇文章:將以TikTok為例,結合海外頭部產品,分析推薦系統

結尾說了一些關於抖音的感性認識,不知道大家刷抖音還有哪些感受~
下一篇文章《TikTok推薦系統的原理及AI模型在其中的應用方法》,會從更技術的視角,參考多篇論文,為大家詳細拆解一下TikTok和抖音推薦的秘密。
位元組在大模型、算力的投入堪稱國內之最,人才密度也是行業頭部。
但我一直更期待的是,以TikTok為代表的更多一批中國產品,真正在國際舞臺發光……
期待認識更多位元組、快手的新朋友,以及AI從業者夥伴們!感謝你們的每一次評論和點贊!
論文原文連結  https://arxiv.org/pdf/2409.12740

參考閱讀:
新鮮真話,關注一下👆
朋友圈會發一些具體的案例和商業化日常~ 
AI交流,歡迎加我本人微信:FrankGPTs

相關文章