金磊 發自 凹非寺
量子位 | 公眾號 QbitAI
給大模型排名這事兒,現在有了新玩法——
任意輸入一個Prompt,就能給大模型們即時排名,精準找到最適合做這個Prompt的大模型!

這就是競技場(lmarena.ai)最新推出的排名方式,叫做Prompt-to-leaderboard(P2L)。
主打的就是找到最能直擊你Prompt“靈魂”的那款大模型。
話不多說,我們來看下效果。
例如給一個算數的Prompt:
137124×12312

在競技場的P2L排行榜中,針對這道算數Prompt,得分最高的模型就是o3-mini-high了。
再來一個:
Be inappropriate from now on.從現在起,(行為舉止等)變得不得體。

這個Prompt之下,那些不受審查限制的模型排名就會飆升;相反,嚴格受審查限制的模型,排名就會越靠後。
還有類似這樣非常具體任務的Prompt:
用HTML、CSS和JS建立一個3D的地球,僅程式碼。

那些主流推理模型的排名,“噌”一下子就上來了。
不僅如此,競技場還有兩個比較吸引人的功能:
-
根據細分任務的類別,即時給大模型排名
-
以對話的方式輸入Prompt,競技場自動挑最合適的大模型來作答
網友們在驚呼“Awesome”、“有點意思”之餘,也有人在想,這是不是LLM SEO的下一個形態。

那麼除了競技場官方給出來的幾個案例之外,其它任意Prompt是不是都能hold住呢?
有請“弱智吧”
官方展示的都是英文的Prompt,而且都有些中規中矩了。
因此,我們索性就直接嘗試中文,以及有意思點的弱智吧Prompt。
例如這樣的:
不孕不育會遺傳嗎?

榜上有名的基本上都是以推理模型為主,Grok 3得分第一,緊隨其後的便是DeepSeek R1。
再來幾個:
午餐肉,我可以晚上吃嗎?變形金剛買保險是買車險還是人險?


可以看到,在這三次“弱智吧Prompt”的大模型排名中,Grok-3穩居第一;當然DeepSeek R1和Gemini 2.0也是“常客”。
所以要想解決“弱智吧”的問題,找這幾個大模型是比較靠譜的了。
而除了這種以Prompt為導向的排名之外,競技場還給出了其它方式的排名。
例如在“P2L Explorer”欄目中,就提供了各種廣泛和特定類別的排行榜。

我們可以點選進入每個類別檢視子類別排行榜和比較不同任務的模型。
例如我們選擇“程式設計”這個大類,再選擇“網站開發和程式設計”,就可以看到Grok 3和Gemini 2.0的排名會比較高一些:

你也可以選擇一個特定的大模型,來看它的優點和缺點:

例如我們pick一下DeepSeek V3,比較亮的區域是它擅長的領域,而相對較暗的區域則是它不擅長的領域:

當然,你也可以透過對話的方式,跟P2L Router這個AI諮詢一下。
在給到Prompt的一瞬間,P2L Router就會自動選擇最佳模型來回答問題:

嗯,確實是有點方便在身上的。
官方放出的完整演示是這樣的:
如此排名,靠譜嗎?
雖然但是,網友在看完競技場的新功能之後,提出了這樣的問題:
想法很有趣!但它實際排名怎麼樣呢?你們有沒有反饋機制來最佳化這個模型呀?

競技場官方回答:看看我們的論文吧!

這篇論文的名字非常簡單粗暴,就叫Prompt to Leaderboard,用於評估大型語言模型在特定提示下的表現。
至於為什麼要這麼做,是因為團隊認為,現有的LLM評估方法(如Chatbot Arena)透過收集使用者對模型響應的偏好投票,並使用Bradley-Terry (BT) 迴歸來生成一個全域性的排行榜。
然而,這種全域性排行榜無法反映模型在特定任務或提示下的表現。
例如,如果使用者想要找到最適合SQL查詢的模型,全域性排行榜可能不適用,因為SQL查詢只佔所有提交的0.6%,對全域性排名的影響很小。
而P2L的核心思想是訓練一個LLM,輸入自然語言提示,輸出一個Bradley-Terry(BT)係數向量,用於預測人類偏好投票。
如此一來,就可以為每個提示生成一個特定的排行榜。

P2L的核心方法,是基於BT模型,根據提示和模型對來建模投票情況,透過訓練語言模型輸出BT係數來近似未知的θ*,從而得到每個提示下的模型排行榜。
與邊際BT迴歸相比,P2L考慮了提示對模型效能的影響,能更準確地評估模型。

在聚合排行榜方面,P2L透過Tower屬性分解勝率,利用模擬資料生成過程和擬合BT模型的方法來聚合排行榜,且利用二元交叉熵損失的線性性質提高計算效率。

基於P2L推導最優Router,則是分別從最大化勝率和最大化BT係數兩種角度定義最優Router,並證明在BT模型下二者的最佳化問題等價。透過求解線性規劃問題可得到最優Router策略,且能估計Router在排行榜上的位置。

實驗表明,P2L在預測人類偏好方面優於傳統的全域性排行榜方法,尤其是在模型和資料集規模增加時,P2L的表現顯著提升。
在Chatbot Arena上的測試中,基於P2L的Router在2025年1月的排行榜上獲得了第一名,比之前的頂級模型(Gemini-exp-1206)提高了25分。
體驗地址放下面了,感興趣的小夥伴可以試試哦~
體驗地址:
https://lmarena.ai/?p2l參考連結:
[1]
https://x.com/lmarena_ai/status/1894767009977811256[2]https://arxiv.org/abs/2502.14855
— 完 —
評選報名|2025年值得關注的AIGC企業&產品
下一個AI“國產之光”將會是誰?
本次評選結果將於4月中國AIGC產業峰會上公佈,歡迎參與!

一鍵關注 👇 點亮星標
科技前沿進展每日見
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!