一句話，滿足兩個廣告商！谷歌最新「Token拍賣模型」，多LLM聯合創作廣告詞

新智元報道

編輯：英智

【新智元導讀】谷歌研究人員提出了一種創新的token拍賣模型，透過「競拍」的方式，讓智慧體在文字生成過程中進行出價，確保最終輸出能滿足各方利益，實現最佳效果。這一機制優化了廣告、內容創作等領域的協作。

當多個LLM智慧體共同創作內容時，它們會如何協調彼此的「話語權」？

想象一下，在廣告投放中，A航空公司和B度假村都希望吸引使用者的目光，但單獨宣傳各自的服務可能不如聯合推廣來得有吸引力。

那麼，如何讓AI智慧體像人類一樣展開博弈，在競爭與合作之間找到最佳平衡？

谷歌研究人員提出了一種創新的「token拍賣模型」，讓LLM在文字生成過程中透過「競拍」來決定最終輸出，確保每個智慧體的利益最大化，同時生成最優質的內容。

這種機制不僅能最佳化廣告創意，還能拓展至智慧客服、內容創作等多個領域，重新定義AI協作。

以廣告為例，當用戶搜尋「夏威夷度假」時，網頁上可能會出現一個廣告位。A航空公司和B度假村這兩家廣告商，都希望在這個位置展示自家的廣告。

他們分別藉助LLM生成廣告內容，比如A公司的「乘坐A航空，飛向夏威夷」，B度假村的「在B度假村，享受夏威夷的美景」。

但如果能將兩者的優勢結合，形成聯合廣告「乘坐A航空抵達夏威夷，在B度假村享受夢幻一週的度假體驗」無疑會更具吸引力，也能更好地滿足使用者夏威夷度假的需求。

假設有兩個分別代表虛擬廣告商A航空和B度假村的智慧體，它們的任務是合作一則聯合廣告創意。

然而，這種合作並不容易實現。

每個LLM背後的廣告商都有自己的偏好和利益訴求。廣告商們都希望自家的產品或服務能在廣告中被重點提及，並且突出展示那些他們認為更有吸引力的特點。

這就好比在一場團隊比賽中，每個隊員都想讓自己負責的部分成為焦點。

這種情況下，如何協調多個LLM的輸出，讓它們共同生成一個既能滿足各方利益，又能達到最佳效果的聯合輸出，成為了一個需要解決的問題。

Token「拍賣」模型

為了解決上述問題，研究人員提出了token拍賣模型。

該模型以token為單位，逐個進行拍賣。在每次拍賣中，每個LLM作為競拍者，根據自身的能力和意願對下一個token進行出價。模型的核心任務包括：

1. 擴充套件共享的token序列：決定下一個新增到文字中的token。

2. 確定每個競拍者的支付費用：透過支付函式計算每個LLM需要支付的費用。

分佈聚合函式在此過程中扮演裁判角色，綜合考慮每個LLM提供的token分佈和出價，生成新的聚合分佈。支付函式則負責確定每個智慧體的支付金額，激勵其真實地表達自身偏好。

先來看看單個LLM是如何工作的。當模型接收到一段輸入文字後，會根據自己所學的知識和模式，給出下一個可能出現的token的機率分佈。

例如，輸入「機制設計為」，模型可能會輸出 [(大型，0.8), (生成式，0.2)]，這意味著下一個token是「大型」的機率為80%，是「生成式」的機率為20%。

基於這種機率分佈，LLM可以自動生成文字，從一個初始的提示文字開始，不斷根據機率分佈選擇下一個token，直到生成一個完整的文字。

token拍賣模型在此基礎上進行了拓展，它以token為單位，逐個進行拍賣。

在這個「拍賣會」上，每個LLM都是一個「競拍者」，它們根據自己的能力和意願出價。

同時，token拍賣模型承擔著兩個關鍵任務：一是擴充套件共享的token序列，也就是決定下一個新增到文字中的token；二是確定每個「競拍者」需要支付的「費用」。這兩個任務分別由分佈聚合函式和支付函式來完成。

Token拍賣模型架構

分佈聚合函式就像是一個裁判，它綜合考慮每個LLM給出的token分佈和它們的出價，然後給出一個新的聚合後的token分佈。

假設有三個LLM智慧體，當前共享的token序列是「機制設計為」，智慧體1的LLM給出的分佈是 [(大型，0.8)，(生成式，0.2)]，出價為1；智慧體2的分佈是 [(大型，1.0)]，出價為2；智慧體3的分佈是 [(生成式，1.0)]，出價為2。

那麼，分佈聚合函式可能會根據出價加權平均的方式，得到一個新的聚合分佈 [(大型，0.56)，(生成式，0.44)] 。

設計空間縮減

在Token拍賣模型的設計中，研究人員強調了以下兩個理想屬性：

支付單調性：如果一個LLM提高了出價，那麼在最終的聯合輸出中，其偏好應得到更好的體現。
一致聚合：不同LLM的分佈應以合理、一致的方式進行聚合。

透過嚴謹的數學推導，研究人員發現，這兩個屬性等同於要求分佈聚合函式具有單調性。這一發現縮小了分佈聚合函式的設計空間，使得模型設計和分析更加簡潔。

支付函式負責確定每個智慧體需要支付的費用。支付單調性意味著如果一個智慧體提高了出價，那麼它在最終的聯合輸出中應該得到更好的待遇，也就是聚合後的分佈應該朝著它更偏好的方向變化。

一致聚合則要求不同的LLM在參與拍賣時，它們的分佈能夠以一種合理、一致的方式進行聚合。

「第二價格」支付機制

在拍賣理論中，「第二價格」支付方式被證明能夠提供良好的激勵效果。

在傳統的單物品拍賣中，「第二價格」支付是指把物品賣給出價最高的競拍者，但讓他支付第二高的出價。

在token拍賣模型中，研究人員也借鑑了這一理念。他們證明了（在一些合理的假設條件下），任何單調的分佈聚合函式都可以採用類似「第二價格」的支付方式。

這種支付方式的好處在於，它可以促使智慧體更真實地出價，因為即使他們提高出價贏得了競拍，也不需要支付過高的費用，從而避免了智慧體為了獲得更好的結果而盲目抬高出價的情況。

最優聚合策略

為了設計最優的分佈聚合函式，研究人員從先進的LLM訓練方法中汲取靈感，構建了聚合損失函式。

該函式為每個輸出分佈關聯一個總損失值，目標是透過調整分佈聚合函式，使總損失最小化。

研究人員提出了兩種有效的分佈聚合函式：

線性分佈聚合函式：輸出分佈為出價加權平均值。
對數線性分佈聚合函式：在對數空間中執行加權平均操作。

這兩種聚合函式在不同的場景下都有著良好的表現，為實際應用提供了更多的選擇。

實驗結果

為了驗證token拍賣模型的有效性，研究人員進行了一系列實驗。

他們選擇了現有的LLM，並透過提示調整（prompt tuning）的方式，讓模型扮演不同的廣告商角色。

在前面提到的A航空公司和B度假村的例子中，研究人員展示了在不同的出價相對權重（λ）下，線性聚合規則和對數線性聚合規則生成的廣告內容。

隨著λ值的變化，生成的廣告內容呈現出有趣的變化。

當λ=1時，廣告主要提及A航空公司；隨著λ逐漸減小，廣告開始同時提及A航空公司和B度假村。當λ=0時，廣告則主要宣傳B度假村。

實驗結果顯示，隨著出價權重的變化，生成的廣告內容能夠合理地體現各方的利益訴求，實現了不同廣告商之間的有效協作。

此外，研究人員還展示了更多不同提示，包括競爭廣告商場景下的實驗結果，進一步證明了token拍賣模型的靈活性和有效性，為多個LLM的協作提供了方案。

LLM的機制設計研究為多個LLM的協同工作帶來了啟發。

Token拍賣模型的提出，解決了多模型協作中的關鍵問題，還為後續的研究和應用奠定了基礎。

從實際應用的角度來看，這種機制在廣告、內容創作、智慧客服等領域都有著廣闊的應用前景。

例如，在廣告領域，它可以讓不同品牌的廣告更巧妙地融合，提高廣告的吸引力和效果；在內容創作方面，多個智慧體可以透過這種機制共同創作出更豐富、多元的作品。

參考資料：https://research.google/blog/mechanism-design-for-large-language-models/

dignews.cc

一句話，滿足兩個廣告商！谷歌最新「Token拍賣模型」，多LLM聯合創作廣告詞

新智元報道

設計空間縮減

「第二價格」支付機制

最優聚合策略

相關文章

白話文講解大模型｜Attentionisallyouneed

從PolicyGradient到REINFORCE++，萬字長文梳理強化學習最新進展

從理論到實踐：RAG、Agent、微調等6種常見的大模型定製策略

【由淺到深】從神經網路原理、Transformer模型演進、到程式碼工程實現

何愷明聯手LeCun改進Transformer！成功去掉歸一化層！中稿CVPR2025

蘋果發現原生多模態模型ScalingLaws：早融合優於後融合，MoE優於密集模型

Apple多模態大模型新工作！發現原生多模態模型ScalingLaws：早融合優於後融合，MoE優於密集模型

1000token/s的「擴散LLM」憑什麼倒逼AI走出舒適區？

英偉達下場，首次最佳化DeepSeek-R1！B200效能狂飆25倍，碾壓H100

大語言模型RLHF全鏈路揭秘：從策略梯度、PPO、GAE到DPO的實戰指南