一句話,滿足兩個廣告商!谷歌最新「Token拍賣模型」,多LLM聯合創作廣告詞


新智元報道  

編輯:英智
【新智元導讀】谷歌研究人員提出了一種創新的token拍賣模型,透過「競拍」的方式,讓智慧體在文字生成過程中進行出價,確保最終輸出能滿足各方利益,實現最佳效果。這一機制優化了廣告、內容創作等領域的協作。
當多個LLM智慧體共同創作內容時,它們會如何協調彼此的「話語權」?
想象一下,在廣告投放中,A航空公司和B度假村都希望吸引使用者的目光,但單獨宣傳各自的服務可能不如聯合推廣來得有吸引力。
那麼,如何讓AI智慧體像人類一樣展開博弈,在競爭與合作之間找到最佳平衡?
谷歌研究人員提出了一種創新的「token拍賣模型」,讓LLM在文字生成過程中透過「競拍」來決定最終輸出,確保每個智慧體的利益最大化,同時生成最優質的內容。
這種機制不僅能最佳化廣告創意,還能拓展至智慧客服、內容創作等多個領域,重新定義AI協作。
以廣告為例,當用戶搜尋「夏威夷度假」時,網頁上可能會出現一個廣告位。A航空公司和B度假村這兩家廣告商,都希望在這個位置展示自家的廣告。
他們分別藉助LLM生成廣告內容,比如A公司的「乘坐A航空,飛向夏威夷」,B度假村的「在B度假村,享受夏威夷的美景」。
但如果能將兩者的優勢結合,形成聯合廣告「乘坐A航空抵達夏威夷,在B度假村享受夢幻一週的度假體驗」無疑會更具吸引力,也能更好地滿足使用者夏威夷度假的需求。
假設有兩個分別代表虛擬廣告商A航空和B度假村的智慧體,它們的任務是合作一則聯合廣告創意。
然而,這種合作並不容易實現。
每個LLM背後的廣告商都有自己的偏好和利益訴求。廣告商們都希望自家的產品或服務能在廣告中被重點提及,並且突出展示那些他們認為更有吸引力的特點。
這就好比在一場團隊比賽中,每個隊員都想讓自己負責的部分成為焦點。
這種情況下,如何協調多個LLM的輸出,讓它們共同生成一個既能滿足各方利益,又能達到最佳效果的聯合輸出,成為了一個需要解決的問題。
Token「拍賣」模型
為了解決上述問題,研究人員提出了token拍賣模型。
該模型以token為單位,逐個進行拍賣。在每次拍賣中,每個LLM作為競拍者,根據自身的能力和意願對下一個token進行出價。模型的核心任務包括:
1. 擴充套件共享的token序列:決定下一個新增到文字中的token。
2. 確定每個競拍者的支付費用:透過支付函式計算每個LLM需要支付的費用。
分佈聚合函式在此過程中扮演裁判角色,綜合考慮每個LLM提供的token分佈和出價,生成新的聚合分佈。支付函式則負責確定每個智慧體的支付金額,激勵其真實地表達自身偏好。
先來看看單個LLM是如何工作的。當模型接收到一段輸入文字後,會根據自己所學的知識和模式,給出下一個可能出現的token的機率分佈。
例如,輸入「機制設計為」,模型可能會輸出 [(大型,0.8), (生成式,0.2)],這意味著下一個token是「大型」的機率為80%,是「生成式」的機率為20%。
基於這種機率分佈,LLM可以自動生成文字,從一個初始的提示文字開始,不斷根據機率分佈選擇下一個token,直到生成一個完整的文字。
token拍賣模型在此基礎上進行了拓展,它以token為單位,逐個進行拍賣。
在這個「拍賣會」上,每個LLM都是一個「競拍者」,它們根據自己的能力和意願出價。
同時,token拍賣模型承擔著兩個關鍵任務:一是擴充套件共享的token序列,也就是決定下一個新增到文字中的token;二是確定每個「競拍者」需要支付的「費用」。這兩個任務分別由分佈聚合函式和支付函式來完成。
Token拍賣模型架構
分佈聚合函式就像是一個裁判,它綜合考慮每個LLM給出的token分佈和它們的出價,然後給出一個新的聚合後的token分佈。
假設有三個LLM智慧體,當前共享的token序列是「機制設計為」,智慧體1的LLM給出的分佈是 [(大型,0.8),(生成式,0.2)],出價為1;智慧體2的分佈是 [(大型,1.0)],出價為2;智慧體3的分佈是 [(生成式,1.0)],出價為2。
那麼,分佈聚合函式可能會根據出價加權平均的方式,得到一個新的聚合分佈 [(大型,0.56),(生成式,0.44)] 。

設計空間縮減

在Token拍賣模型的設計中,研究人員強調了以下兩個理想屬性:
  • 支付單調性:如果一個LLM提高了出價,那麼在最終的聯合輸出中,其偏好應得到更好的體現。
  • 一致聚合:不同LLM的分佈應以合理、一致的方式進行聚合。
透過嚴謹的數學推導,研究人員發現,這兩個屬性等同於要求分佈聚合函式具有單調性。這一發現縮小了分佈聚合函式的設計空間,使得模型設計和分析更加簡潔。
支付函式負責確定每個智慧體需要支付的費用。支付單調性意味著如果一個智慧體提高了出價,那麼它在最終的聯合輸出中應該得到更好的待遇,也就是聚合後的分佈應該朝著它更偏好的方向變化。
一致聚合則要求不同的LLM在參與拍賣時,它們的分佈能夠以一種合理、一致的方式進行聚合。

「第二價格」支付機制

在拍賣理論中,「第二價格」支付方式被證明能夠提供良好的激勵效果。
在傳統的單物品拍賣中,「第二價格」支付是指把物品賣給出價最高的競拍者,但讓他支付第二高的出價。
在token拍賣模型中,研究人員也借鑑了這一理念。他們證明了(在一些合理的假設條件下),任何單調的分佈聚合函式都可以採用類似「第二價格」的支付方式。
這種支付方式的好處在於,它可以促使智慧體更真實地出價,因為即使他們提高出價贏得了競拍,也不需要支付過高的費用,從而避免了智慧體為了獲得更好的結果而盲目抬高出價的情況。

最優聚合策略

為了設計最優的分佈聚合函式,研究人員從先進的LLM訓練方法中汲取靈感,構建了聚合損失函式。
該函式為每個輸出分佈關聯一個總損失值,目標是透過調整分佈聚合函式,使總損失最小化。
研究人員提出了兩種有效的分佈聚合函式:
  • 線性分佈聚合函式:輸出分佈為出價加權平均值。
  • 對數線性分佈聚合函式:在對數空間中執行加權平均操作。
這兩種聚合函式在不同的場景下都有著良好的表現,為實際應用提供了更多的選擇。
實驗結果
為了驗證token拍賣模型的有效性,研究人員進行了一系列實驗。
他們選擇了現有的LLM,並透過提示調整(prompt tuning)的方式,讓模型扮演不同的廣告商角色。
在前面提到的A航空公司和B度假村的例子中,研究人員展示了在不同的出價相對權重(λ)下,線性聚合規則和對數線性聚合規則生成的廣告內容。
隨著λ值的變化,生成的廣告內容呈現出有趣的變化。
當λ=1時,廣告主要提及A航空公司;隨著λ逐漸減小,廣告開始同時提及A航空公司和B度假村。當λ=0時,廣告則主要宣傳B度假村。
實驗結果顯示,隨著出價權重的變化,生成的廣告內容能夠合理地體現各方的利益訴求,實現了不同廣告商之間的有效協作。
此外,研究人員還展示了更多不同提示,包括競爭廣告商場景下的實驗結果,進一步證明了token拍賣模型的靈活性和有效性,為多個LLM的協作提供了方案。
LLM的機制設計研究為多個LLM的協同工作帶來了啟發。
Token拍賣模型的提出,解決了多模型協作中的關鍵問題,還為後續的研究和應用奠定了基礎。
從實際應用的角度來看,這種機制在廣告、內容創作、智慧客服等領域都有著廣闊的應用前景。
例如,在廣告領域,它可以讓不同品牌的廣告更巧妙地融合,提高廣告的吸引力和效果;在內容創作方面,多個智慧體可以透過這種機制共同創作出更豐富、多元的作品。
參考資料:https://research.google/blog/mechanism-design-for-large-language-models/

相關文章