
作者:石士 阿里媽媽技術團隊
一、概覽
隨著大模型時代的到來,搜推廣模型是否具備新的進化空間?能否像深度學習時期那樣迸發出旺盛的迭代生命力?帶著這樣的期待,阿里媽媽搜尋廣告在過去兩年的持續探索中,逐步釐清了一些關鍵問題,成功落地了多個最佳化方向。如今,我們更加堅定地認為,搜推廣模型與大模型的結合蘊藏著巨大的想象空間和業務價值。本文將從以下幾個方面分享和交流 2024 年的思考與實踐:
-
在這場變革性的技術交替之際,回顧搜推廣模型的歷史演進,抓住三條關鍵路徑(明線、暗線和輔助線)有助於更清晰地理解技術升級的內在邏輯。同時,明確如何在新時期系統性發揮算力優勢,深度挖掘搜推廣領域的 Scaling Law,已成為推動技術進步的核心路線。 -
作為新技術探索的前哨站,預估模型透過與大模型的深度結合,全面提升感知與推理能力。在感知層面,專注於解決內容語義資訊與行為協同資訊的融合問題,持續最佳化多模態表徵的質量,突破傳統 ID 表徵體系的侷限,逐步實現對客觀世界更豐富的感知建模;在推理層面,構建使用者行為序列大模型,將生成式方法與判別式方法有機結合,探索推理能力的持續進化之路。 -
大模型正在全面重塑搜尋廣告系統。依託預訓練(pre-train)與後訓練(post-train)的模型迭代新正規化,阿里媽媽自主研發了廣告領域專屬大模型 LMA(Large Models for Advertising),並於 2024 年 4 月隨業務宣推。LMA 是電商基座大模型衍生出來的廣告模型集合,迭代分支包括認知、推理和決策。新財年以來,LMA 持續最佳化,認知分支聚焦多模態表徵,推理分支聚焦搜推廣領域的使用者行為大模型等。這些技術進展不僅推動預估環節實現多個版本迭代上線,還深度改造了召回、改寫、相關性和創意等核心技術模組,推動技術體系全面升級。
二、模型演進規律和大模型迭代趨勢
和深度學習時期相比,大模型時期的搜推廣模型既有一脈相承之處,也有推陳出新的地方。回顧過往,模型能力的突破主要沿三條路徑演進:
-
明線,歸納偏置(Inductive Bias)的合理設計,是模型能力提升的核心驅動力。 -
暗線,硬體算力的指數級提升,為模型的規模化提供了強力支撐。 -
輔助線,CV 和 NLP 領域的代際性技術升級,給搜推廣領域帶來重要啟發。

2.1. 明線 – 歸納偏置
所謂明線,即大家表面能夠看到的模型結構的演變,其本質是對歸納偏置的合理設計與實現。歸納偏置體現了模型在學習過程中對特定假設和結構的先驗偏好,它在資料有限的情況下能夠有效約束引數搜尋空間,提升模型的泛化能力。例如 CV 領域廣泛應用的模型結構 CNN,背後的歸納偏置就是影像在區域性空間的平移不變性。
類似地,搜推廣模型在使用者行為預測建模上也有自己的歸納偏置。例如,如何設計模型結構以充分捕捉使用者行為的多樣性、動態演化、區域性敏感性及時序依賴關係等;如何最佳化 Embedding 結構及訓練正規化,使其能夠有效適配 ID 特徵的高維稀疏和冪律分佈等統計特性。所以,每一次看得見的模型結構升級,都是對歸納偏置的更深層次理解與實現。
2.2. 暗線 – 算力
所謂暗線,即模型能力升級的內在演進邏輯,就是藉助算力的東風不斷提升模型規模化的能力。若明線似看得見的招式,則暗線似看不見的內功。如何修煉內功,最佳化底層訓練和推理架構,充分利用摩爾定律與黃氏定律帶來的算力提升,使得模型引數規模持續增長。這正是近年來模型演進的核心旋律。
然而,算力的指數級增長主要體現在計算能力上,“記憶體牆” 依然高築,儲存與頻寬仍是系統的瓶頸。對於搜推廣模型而言,其訓練的主要挑戰在於稀疏 Embedding 的訪問與計算,如何進行演算法與工程的深度聯合最佳化,提升計算與通訊的佔比,最大化 GPU 計算利用率,成為釋放算力潛能和推動模型規模化的關鍵。
某種程度上,搜推廣模型比其他領域更早認識到 Scaling Law(縮放定律)的重要性。與 CV 和 NLP 領域不同,搜推廣模型依賴於高維稀疏的 ID 特徵體系,因此其規模化方向並非向 Deeper 方向生長,而是朝著 Wider 方向擴充套件。如果以 LLM 常用的 Token 規模作為對比,我們的場景中一天的樣本所對應的 Token 規模已達到 T 級別,與 GPT-3 公開的資料相當,且模型的訓練還需涵蓋多年樣本,資料量遠超一般 LLM 訓練範疇。
因此,長期以來,增加樣本規模、特徵個數和 Embedding 維度等共同支撐了 Wider 方向 Scaling Law 的第一增長曲線。然而,隨著時間推移,這一增長曲線的邊際效益正逐漸遞減,促使我們重新思考:搜尋推廣模型是否也有向 Deeper 方向擴充套件的機會?接下來,我們將重點探討這一可能性。
2.3. 輔助線 – CV&NLP 領域
搜推廣模型作為 AI 應用領域的重要分支,深受整個 AI 技術的發展影響。縱觀整個 AI 發展史,CV 和 NLP 領域的技術相互借鑑、交相輝映,每一輪技術革新都推動著 AI 邁向新的高度,起到了引領和破圈的效應。對應地,搜推廣模型在發展過程中既面臨 AI 領域的共性問題,也有自身業務屬性的特色問題。其中關於共性問題,CV 和 NLP 的技術突破就是很好的輔助線,給到搜推廣模型重要啟發,加速創新。
搜推廣模型經歷的幾次重大技術變革,和 CV 和 NLP 領域的創新息息相關,沿著時間線:
-
AlexNet 在 ImageNet 競賽中的突破性成功表明了 DNN 巨大潛力,搜推廣開啟 DNN 時代;
-
Word2Vec 奠定了表徵基礎,啟發了 Embedding 技術在搜推廣的廣泛應用;
-
Attention 機制對翻譯任務的大幅提升,深刻影響使用者行為興趣建模;
-
基於 Transformer 結構的訓練正規化的普及,推動了對比學習、掩碼學習、預訓練 & 遷移學習等各種迭代模式的興起。
當然了,搜推廣模型的實踐也會反哺 AI 領域的發展,例如基於使用者反饋的強化學習和出於效能敏感的蒸餾、剪枝、低秩和量化等技術。如今,LLM 又開啟了大模型的新時代。
2.4. 大模型時期的迭代主線
綜上,新的輔助線看來會延伸更遠,LLM 已徹底重塑 NLP,搜推廣模型的演進思路也會隨之發生深刻變化。
-
一方面,從算力(暗線)角度來看,Scaling Law 在稀疏的 Wider 方向已經清晰呈現出第一增長曲線,新時期需要探索稀疏往稠密的轉變,走出 Deeper 的新增長;
-
另一方面,從歸納偏置(明線)角度來說,人工先驗的歸納偏置由精細化設計往樸素化正規化轉變。正如《The Bitter Lesson》所言:“AI 發展史最苦澀的教訓是:試圖將我們認為的思維方式硬編碼進 AI,長期來看是無效的。唯一重要的,是那些能夠隨著計算能力增長而擴充套件的通用方法”。這一點尤為感同身受,過去依賴精巧結構設計的短期收益,往往在算力提升的長期趨勢下變得微不足道,甚至某些複雜結構反而成為算力擴充套件的障礙。真正支撐生產服務的模型,最終仍會朝著緊湊、簡約、高效的方向收斂,以適應計算資源的可擴充套件性和實際業務需求。
所以,大模型時期的迭代主線:弱化歸納偏置,強化資料驅動,設計通用且高效的模型結構,讓模型從資料中自動學習複雜模式,充分挖掘算力潛能,探索出稀疏 Wider 方向往稠密 Deeper 方向擴充套件的新路徑。這就是我們研發 LMA 系列模型的核心認知。
三、預估模型與大模型結合
LLM 的橫空出世讓各領域紛紛探索其應用潛力,搜推廣系統也不例外。關於 LLM 在搜尋和推薦系統中的原生應用,業界已有諸多優秀綜述,技術分類體系闡述非常完善,很有啟發,本文不再贅述。鑑於算力現實和效能約束,我們更關注短期內的落地可行性,所以本文將從漸進式最佳化的視角,回顧並整理 CTR 預估模型與大模型結合的思考與實踐。
前文已經論述了大模型時期我們認為的迭代主線,即弱化歸納偏置,強化資料驅動,探索搜推廣模型的稠密 Deeper 方向的規模化之路。CTR 模型經過多年的迭代積累,形成最具迭代生命力的兩個提效方向 ——Embedding 建模和使用者行為興趣建模。兩者均遵循 Wider 的規模化思路,不斷增加特徵個數、不斷擴長使用者行為規模、不斷延展 Embedding 的維度等,取得持續不斷的收益。但是 Deeper 的規模化始終沒有像 CV 和 NLP 模型那麼順利,CTR 模型似乎搞到幾十層沒有意義,反而會適得其反。
最關鍵的認知破局點在於,CTR 任務的判別式模式太簡單了,讓模型判別是否點選這類的 1bit 資訊量的答案,相較於 Next Token Prediction 的生成式而言,求解空間過小。如此,在不改變判別式任務的情況下,模型僅依靠強能力的高維稀疏 ID Embedding 就能做好大部分的記憶工作,淺層的 Dense 引數只需要承擔部分的泛化能力就好,這樣模型始終有 Deeper 方向規模化的瓶頸。所以,我們認為三階段的迭代正規化 ——“Pre-train + Post-train + CTR” 可以破局,Deeper 方向規模化的重任交由 Pre-train 和 Post-train 完成。下面分別介紹新正規化下我們對 Embedding 建模和使用者行為興趣建模的改造,對應兩個關鍵詞 ——“多模態” 和 “生成式”。
3.1. 感知 – 多模態表徵模型
深度學習時期的 CTR 模型以 ID 特徵體系為基石,ID Embedding 的引數規模佔據整個模型的 90% 以上,其表徵質量決定了模型預估能力的基礎。然而,ID Embedding 體系長期面臨一個核心挑戰,就是其過度依賴歷史統計資料,對長尾和冷啟資料極為不友好,且這類資料是搜推廣業務的核心問題。隨著 Embedding 引數規模化的收益邊際增長速率逐漸放緩,和關於資料稀疏的瓶頸問題日益凸顯,我們需要探索新的 Embedding 技術體系。
我們開始重新審視 ID 形式的特徵表達,認為 ID 僅僅是客觀世界的代理表達,但是模型對世界的感知應該更加原生和直接。常理思考,使用者對於一個 item 是否感興趣、是否會發生點選行為,本質是 item 的內容視覺表達是否吸引到使用者,所以直接建模原生視覺表達會更為本質。於是,過去兩年我們重點建設多模態 MM Embedding 技術體系,並將其應用到使用者行為興趣建模中,打造樸素但強大的視覺興趣模型(MIM:Multi-modal content Interest Modeling)。
視覺興趣模型 MIM 採用 “Pre-train + Post-train + CTR” 的迭代正規化,核心考慮就是將 Deeper 方向的引數規模化交由 Pre-train 和 Post-train 來實現,前序階段的訓練目標就是產出高質量的 MM Embedding,然後基於 MM Embedding 的視覺興趣建模由 CTR 任務來高性價比地完成。該正規化有諸多優勢,包括多模態能力可以及時追蹤前沿開源技術、CTR 任務能夠保持效能和迭代的高效、Deeper 方向的規模化可以有規劃性的持續迭代、生產關係可以解耦並各司其職地有序開展等。這些優勢在過去兩年的模型升級中體現得淋漓盡致,這也是我們沒有采用端到端建模路線的原因。
高質量 MM Embedding 生成的核心是承載語義資訊的內容空間與承載協同資訊的興趣空間如何有效對齊,模型架構就是多模態領域的稠密模型。稠密模型和 CTR 任務的稀疏模型相比,語義理解比統計判別任務相對更難,幾十層的模型架構更為主流,給 Deeper 方向規模化帶來空間。Pre-train 職責是 Encode,負責內容空間的理解與遷移,關注圖文是什麼,多模態對齊能力的持續最佳化是基礎,將開源世界知識往電商知識遷移是關鍵;Post-train 職責是 Align,負責內容空間與興趣空間的對齊,關注使用者行為反饋、凸顯圖文吸引要素,高質量的訓練樣本和找到與下游 CTR 任務正相關的中間指標是關鍵。另外,這兩個階段也有著共同的最佳化主線:
-
訓練模式,包括分類、對比學習、掩碼學習、自迴歸學習等,且 backbone 緊隨主流更迭,包括 BEiT3、BGE、BLIP2、EVA2 等。
-
資料質量,圖文質量包括視覺強相關的主體和關鍵詞識別,難正負樣本挖掘,結合行業特色挖掘興趣樣本例如拍立淘的圖搜場景等。
-
規模效應,包括圖片尺寸、訓練樣本和模型引數,模型尺寸經歷了 0.1B、1B 和 10B 的升級過程,是 Deeper 方向規模化的主要路徑。
有了高質量的 MM Embedding,CTR 階段的興趣建模就回歸傳統、輕車熟路,基於 Target-Attention 機制將 ID Embedding 升級為 MM Embedding 就可以靈活高效地建模使用者視覺偏好。整個演算法框架就如此運作,三個階段既是互相解耦又是相互聯絡。同時,關於 Pre-train 和 Post-train 的稠密模型框架和 CTR 的稀疏模型框架的有機結合,工程側在離線和線上環節都做了相應的架構升級和效能最佳化。至今,MIM 模型共上線 4 期,分別在過去兩年的大促(2023&2024-618 & 雙 11)全量上線,每期都有大約整體 CTR+5%、長尾 CTR+10% 的顯著提效。

歡迎探討,【MIM】MIM: Multi-modal Content Interest Modeling Paradigm for User Behavior Modeling
論文連結:https://arxiv.org/abs/2502.00321
3.2. 推理 – 使用者行為大模型
隨著使用者行為序列特徵的規模不斷擴大,包括長週期行為的不斷加長、多型別行為和多場域行為的不斷擴充等,這類特徵的重要性逐漸在整個特徵體系中佔據主導地位。過去,單值特徵型別的特徵互動建模曾是模型迭代的主線,而如今,實際業務提效的研究焦點早已轉向多值 / 序列特徵型別的使用者行為建模。研究焦點的轉向和該方向的 Scaling Law 密不可分,例如針對行為週期的不斷拉長,設計高效能的 Target-Attention 結構能夠帶來持續性收益。但是傳統 Scale up 依然僅在 Wider 方向有效,我們多次試圖加深行為興趣網路結構的層數,卻提效甚微且很快就遇到瓶頸,我們開始意識到 CTR 任務的端到端建模會限制模型的複雜度,Deeper 方向的規模化紅利需要用新思路來解決。
為此,我們提出 LUM(Large User Model)模型,同樣採用 “Pre-train + Post-train + CTR” 的迭代正規化,考慮點和 MIM 模型類似,Deeper 方向規模化由 Pre-train 和 Post-train 來承擔,同時系統架構、迭代效率、推理效能和生產關係等對實際落地和長遠發展均有益處。前序階段參考 LLM 模型架構設計自迴歸生成式任務 ——Next Item Prediction,旨在從使用者行為序列中以資料驅動的方式學習協同過濾模式,該階段專注下游行為預測類模型的可遷移性。CTR 模型則依賴 LUM 的推理結果,進行 Target-Attention,除了傳統的從歷史行為中提取興趣以外,還將從推理的未來資訊中挖掘潛在興趣,該方式高效融合了生成式與判別式任務的各自特點。
其實類似的正規化並不新鮮,但之前可能大家對該正規化的 Scale up 能力估計不足,在 LLM 盛行之前並沒有成為持續迭代的主流,這次我們以全新的認知重新做系統性建設。LUM 模型的規模化潛力主要源自 Next Item Prediction 的任務設計,因為 Item 集合非常大,模型學習空間相較只有 1bit 資訊量的是否點選的 CTR 任務更大,可以容納更多的樣本與模型引數。實踐表明,確實該模式下模型層數可以加深到幾十層,與之對應的該階段設立的一些技術指標如 recall 等均能持續提升,並與下游 CTR 任務結合,可以體現推理能力不斷提升。
LUM 模型的最佳化核心要解決兩個問題,Item 如何高效 Token 化和語義資訊與協同資訊如何高效融合。前者,一方面 Item 規模相較 LLM 的 Token 詞表過於龐大,另一方面如果參考初期文獻直接文字化的做法對於長序列表達是個災難,所以將語義資訊壓縮至小規模的 Token 非常有必要。目前 Token 化方法處於百花齊放中,包括語義 ID、LLM 總結、多模態表徵等;後者,雖然協同資訊和語義資訊的建模思路大同小異,都是在時序維度刻畫 Token 之間的 “共現” 機率,但是背後的 Pattern 還是有很大差異。為了求解解耦可以各司其職,分層架構是理想方案,底層 Token 化聚焦語義資訊的編碼,上層 Transformer 結構聚焦協同資訊的挖掘。如上,使用者行為建模可以增強興趣推理能力,並開啟新的規模化路徑。

歡迎探討:
-
【LUM】Unlocking Scaling Law in Industrial Recommendation Systems with a Three-step Paradigm based Large User Model
-
論文連結:https://arxiv.org/abs/2502.08309
-
【UQABench】UQABench: Evaluating User Embedding for Prompting LLMs in Personalized Question Answering
-
論文連結:https://arxiv.org/abs/2502.19178
四、大模型重塑搜尋廣告系統
大模型的出現對搜推廣業務影響深遠,短期來看可以透過 AI 能力升級重構現有系統,長期來看必將孕育出新的產品形態和商業模式。本章重點介紹一下我們如何利用大模型的能力全鏈路重塑現有的搜尋廣告系統。主要體現在兩方面的優勢:1)傳統搜尋系統過於依賴 ID 特徵體系,大模型在語義理解和邏輯推理上的驚人能力可以真正讀懂使用者的搜尋需求,各環節的匹配效率都會大幅提升;2)大模型沉澱下來的 Pre-train 和 Post-train 的迭代正規化,能夠更加一體化地最佳化全鏈路,並進一步開啟 Scale up 的空間。繼 2023 年的效果初探,2024 年我們在全鏈路上有更加全面的落地,包括改寫、召回、相關性和創意等模組,累計提效約 CTR+10%、RPM+5%,下文選取幾個代表性工作做介紹。

4.1. 改寫
改寫是搜尋廣告場景極具業務特色的技術模組,使用者輸入搜尋詞 Query 表達搜尋需求,廣告主透過廣告平臺設定和自己產品有關的競買詞 Bidword 表達想要觸達的流量,改寫的目標是對 Query 和 Bidword 做高效匹配。匹配效率體現在兩方面,分別是相關性和流量價值,前者是基礎,後者是在前者的基礎上挑選流量變現價值更高的 Bidword。核心挑戰主要有兩個:1)精準理解 Query 背後的真實購物需求,尤其是手機文字輸入成本高,使用者和廣告主的表達習慣千差萬別,Query 和 Bidword 之間的語義鴻溝對於相關性挑戰很大;2)相關性和高價值的平衡。
經典方案需要有兩類模型相配合,深度語義模型解決相關性問題,基於協同過濾的深度價值模型解決流量價值問題。該方案有兩方面問題,一方面存在老生常談的問題即對長尾 Query 理解和改寫能力不足,另一方面兩段式目標融合往往會顧此失彼。大模型 LLM 的出現可以極大改善前者長尾流量上的相關性問題,LLM 蘊含的世界知識對於文字理解和推理能力非常強大,我們在 2023 年初就開始推進 LLM 在改寫方向的落地,探索生成式改寫的提效潛力。電商廣告領域知識的 SFT 和線上動態 RAG 是迭代初期的常規最佳化手段,效果不錯。生成式改寫也是 LLM 在搜尋廣告業務中第一個上線專案。
但是簡單將 LLM 適配成改寫任務仍然會存在兩個問題,一個是 LLM 的生成結果無法保證一定是在競買詞庫中,導致生成結果不可用;另一個是生成結果雖然能夠極大保證相關性但是無法提供流量價值的判斷。所以系統往往需要有一個第二段改寫的模組,給上述兩個問題兜底或者改善。為了進一步最佳化改寫效果,我們提出基於帶權 Trie 樹的 LLM 生成式改寫技術(VALUE)。一方面透過將全庫競買詞構建成 Trie 樹,使得 LLM 生成過程在 Trie 樹約束搜尋下進行,確保生成結果一定是在競買詞庫中;另一方面離線環節構建高低價值的反饋判斷(哪個詞的變現效率更高)進行 DPO 訓練,線上環節將 Trie 樹升級為帶權(權重即變現效率的層層匯聚)且即時更新的模式,兩相結合使得一段式生成過程兼顧了高價值判定。如上,基於 LLM 的生成式改寫方向,兩年時間總共上線 4 期,提效顯著。

4.2. 召回
電商場景下,使用者的搜尋需求除了搜尋詞 Query 的主動表達以外,還有背後的個性化需求,包括價格、品牌、款式等偏好。同時,商品廣告庫的豐富性意味著,即使滿足基本的相關性需求,系統仍需在眾多符合條件的商品中做出偏好篩選。所以深度挖掘使用者興趣偏好,才能更加全面理解使用者的搜尋需求。基於此,召回模組的核心目標就是在確保高召回率的前提下,檢索出與後續排序階段價值判定一致的最優廣告集合子集,從而同時滿足相關性和個性化的搜尋需求。
召回模組的核心技術挑戰是在計算效能有限的情況下近似做到全庫打分檢索,從而在準確率和召回率之間達到最優平衡。向量化檢索是深度學習時期應用最為廣泛的技術方案,其中索引結構是關鍵,透過 LSH、PQ 或 HNSW 等方法設計合理的資料結構,對索引進行分片或分層處理,可以減少大量不必要的計算,達到近似最近鄰 ANN 的計算效果。然而電商搜尋有別於傳統的文字搜尋,Query、User 和 Item 是異構實體且有不同模態,向量化檢索模式有天然的最佳化瓶頸。主要體現在兩方面,一方面是基於相似度量的索引構建與檢索模型相分離會導致最佳化目標不統一,另一方面基於效能考慮實體間的計算只能侷限在簡單的線性計算模式。
大模型 LLM 的建模範式給生成式召回帶來新思路,生成式召回可以從本質上統一索引構建和檢索打分兩個過程,此時模型引數即索引,模型的離線訓練和線上推理的最佳化目標是一致的,而且可以自然地引入複雜的非線性計算,這類端到端的最優子集生成過程有更高的最佳化天花板。生成式召回有兩類探索方向:1)參考 LLM 的自迴歸建模思路,基於 Transformer 架構自行構建 Next Item Prediction;2)將使用者行為和 Query 一樣文字化,直接藉助 LLM 的世界知識和推理能力進行 Next Token Prediction。
關於以上兩類探索方向,前者就是前文提到的 LUM 模型,該模型在召回和預估環節均有應用,這裡不再贅述;後者是 LLM 應用於推薦系統中的最早且最直接的探索思路,因為召回對於打分精準度的要求不像預估這麼嚴苛,所以針對該思路我們優先選擇在召回側做了大量嘗試。其中最核心要解決的技術問題是如何讓協同過濾資訊融入到 LLM 模型中,我們分別做了幾個改進工作:蘊含協同過濾資訊的 ID Embedding 以特殊 Token 的方式引入、利用行為序列資訊進行領域遷移的 SFT、Next Token 實際應用成 Next CPV(商品關鍵屬性,結構化資訊天然有聚類效果),實踐表明該召回方式能夠提升召回通道獨佔比,帶來明確業務收益。當然,眼下關於生成式的計算效能問題還在逐步攻克中。
4.3. 相關性
在電商場景中,搜尋廣告結果通常以商品的原生形態呈現,因此搜尋相關性對使用者體驗至關重要。相關性模型作為 NLP 技術在搜尋廣告中的核心應用,主要用於判斷使用者搜尋需求(Query)的文字表達與商品展示的圖文資訊是否匹配。該技術體系包括實體識別模型、關鍵屬性識別模型,以及貫穿召回與排序各階段的相關性判別模型等多個關鍵模組。長期以來,相關性模型的技術迭代始終沿著 NLP 技術的發展路徑演進。隨著大語言模型 LLM 的崛起,NLP 技術正規化正經歷深刻變革。相關性模型有別於 CTR 等行為預測模型,它沒有個性化資訊,文字語義的深度理解是建模關鍵,所以我們認為它具備 LLM 遷移最先落地的可能性。
相關性模型一直以來的核心技術挑戰是如何在標註資料稀少且昂貴的情況下做模型規模化。技術發展路線主要經歷過兩個階段:1)挖掘行為資料作為弱標籤,藉助圖學習和表徵學習的能力做資料層面 Scale up;2)借鑑 BERT 系列的文字類多工預訓練 + 下游任務微調的正規化,進行模型層面 Scale up。隨著自迴歸模式的 GPT 架構興起,模型的進一步規模化還能湧現出邏輯推理能力,而這正是相關性模型可以代際性進階的突破機會。邏輯推理和可解釋性對於相關性任務判定很重要,一方面我們實踐論證透過思維鏈 CoT 慢推理的任務設計可以顯著提升判定結果的準確性,另一方面推理的過程資訊對於模型的再一次迭代以及業務應用都有助益。
所以,我們研發了基於思維鏈模式的聚焦邏輯推理的相關性大模型,並且升級了智慧化標註系統,設計機器標註和人工校驗的協同機制,徹底改變標註資料稀疏且昂貴的窘境。同時,考慮到相關性大模型無法線上毫秒級即時響應,我們設計一系列電商業務特色的細粒度蒸餾手段包括資料蒸餾、隱層蒸餾和過程蒸餾等,大幅提升線上傳統相關性模型的預估能力。如上,基於 LLM 的相關性模型全面落地,配合 Case 驅動方法論踐行,今年在相關性體驗上做的提效收益高於過去三年之和。

歡迎探討,【ELLM-rele】Explainable LLM-driven Multi-dimensional Distillation for E-Commerce Relevance Learning
論文連結:https://arxiv.org/abs/2411.13045
五、總結與展望
本文介紹了阿里媽媽搜尋廣告在多模態和大語言模型方面的成功實踐,儘管取得了不錯收益,但仍需關注當前 LLM 線上服務中的實際應用情況。目前,凡是依賴 LLM 原生能力的線上服務,主要依託非同步快取機制實現,而真正能支撐全流量即時服務的核心模組,依然以傳統模型為主,LLM 主要作為增強手段提供輔助最佳化。因此,如何設計高效能推理架構,使大模型真正實現線上即時應用,將成為下一階段的關鍵突破點。這不僅能帶來更全面的業務收益,也意味著更大的效率提升空間。
曾參與深度學習改造搜推廣系統的同學對此一定深有體會。在早期,DNN 作為一種從 CV 和 NLP 領域借鑑來的技術,能否順利在搜推廣系統中服役曾一度令人疑慮,整個落地過程充滿挑戰。然而,如今 DNN 已經成為行業的標配,背後支撐這一變革的核心因素,是算力成本的指數級下降。大模型的發展趨勢亦然。儘管當前 LLM 的迭代受到算力瓶頸的制約,但可以預見,在不遠的將來,隨著計算成本的降低和推理架構的升級,LLM 也將全面線上化,成為搜推廣系統的核心技術基座。
參考文獻
[1] A Survey of Large Language Models
[2] Pre-train, Prompt, and Predict- A Systematic Survey of Prompting Methods in Natural Language Processing
[3] A Survey on Large Language Models for Recommendation
[4] A Survey on Multimodal Large Language Models
[5] A Comprehensive Survey on Multimodal Recommender Systems Taxonomy, Evaluation, and Future Directions
[6] Multimodal Recommender Systems- A Survey
[7] Pre-train, Prompt and Recommendation- A Comprehensive Survey of Language Modelling Paradigm Adaptations in Recommender Systems
[8] Exploring the Upper Limits of Text-Based Collaborative Filtering Using Large Language Models- Discoveries and Insights
[9] Large Language Models for Information Retrieval- A Survey
[10] Towards Next-Generation LLM-based Recommender Systems: A Survey and Beyond
© THE END
轉載請聯絡本公眾號獲得授權
投稿或尋求報道:[email protected]