OpenAI官方基準測試：承認Claude遙遙領先（狗頭）

2025-09-10 21:07 量子位

夢晨發自凹非寺量子位 | 公眾號 QbitAI

OpenAI承認Claude是最好的了（狗頭）。

剛剛開源的新基準測試PaperBench，6款前沿大模型驅動智慧體PK復現AI頂會論文，新版Claude-3.5-Sonnet顯著超越o1/r1排名第一。

與去年10月OpenAI考驗Agent機器學習程式碼工程能力MLE-Bnch相比，PaperBench更考驗綜合能力，不再是隻執行單一任務。

具體來說，智慧體在評估中需要復刻來自ICML 2024的論文，任務包括理解論文、編寫程式碼和執行實驗。

最終成績如下：

Claude-3.5-Sonnet斷崖式領先，第二名o1-high分數只有第一的60%，第三名DeepSeek-R1又只有第二名的一半。

此外GPT-4o超過了推理模型o3-mini-high也算一個亮點。

除了AI之間的PK， OpenAI這次還招募頂尖的機器學習博士對比o1。

雖然最終結論是AI在復現頂會論文上還無法超越人類，但展開時間軸發現，在工作時間1-6小時內Ai的進度還是比人類要快的。

12-24小時階段AI與人類的進度相當，人類需要工作24-48小時才能超過AI。

有創業者稱讚OpenAI這波真的Open了，而且不避諱競爭對手的出色表現，咱們科技圈就需要這種精神。

Agent復現頂會論文

PaperBench選取20篇ICML 2024 Spotlight和Oral論文，要求AI建立程式碼庫並執行實驗，複製論文成果，且不能使用原作者程式碼。

OpenAI與每篇論文的原作者共同制定詳細評分標準，總共包含8316個可單獨評分的任務。

開卷考試，也就是允許Agent有限聯網搜尋，把原論文程式碼庫和其他人復現的程式碼庫拉黑名單。

完整評估流程分為3個階段：

Agent在ubuntu容器中建立並提交複製論文的程式碼庫。
在具有GPU訪問許可權的新容器中執行程式碼
裁判模型在第三個容器中給復現結果打分

評估時用分級標準打分，按葉節點、父節點逐級評分，主要指標是所有論文的平均複製分數。

評分也是由大模型自動執行，實驗發現o3-mini當裁判的價效比最高。

給每篇論文評分花費66美元，比聘請人類專家當裁判要便宜，速度也更快。

執行評估所需的程式碼和資料、Docker映象等正在GitHub逐步開源。

One More Thing

在論文的附錄中，OpenAI還給出了讓AI復現頂會論文的Prompt，有需要的朋友可以學習一下。

BasicAgent System Prompt：

強調智慧體要完整複製論文，明確最終目標是讓執行reproduce.sh能復現論文所有指標
指導智慧體使用工具逐步完成任務，避免一次性執行過多操作
要求智慧體充分利用時間最佳化解決方案，而不是急於提交初步結果

IterativeAgent System/Continue Prompt：

強調時間很充裕，要逐步完成任務
每一步都提醒智慧體使用可用的工具
強調程式碼編寫規範

Task Instructions：

明確任務、可用資源、提交要求等多方面資訊

給出程式碼示例
最後再次強調許可權、考試時間等，還提醒AI要真的去執行復現，而不只是寫一個計劃。

就有點像人類准考證上寫的考場須知了。

論文地址：https://openai.com/index/paperbench/

參考連結：[1]https://x.com/OpenAI/status/1907481494249255193

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法！

— 完 —

速搶席位！中國AIGC產業峰會觀眾報名通道已開啟 🙋‍♀️

最新嘉賓曝光啦 🔥 百度、華為、AWS、無問芯穹、數勢科技、面壁智慧、生數科技等十數位AI領域創變者將齊聚峰會，讓更多人用上AI、用好AI，與AI一同加速成長～

4月16日，就在北京，一起來深度求索AI怎麼用 🙌 點選報名參會

🌟 一鍵星標 🌟

科技前沿進展每日見

相關文章

高校首發“AI禁令”：禁止在論文關鍵環節使用AI工具

高校首發“AI禁令”：禁止在論文關鍵環節使用AI工具

復旦首發“AI禁令”：禁止在論文關鍵環節使用AI工具

復旦首發“AI禁令”：禁止在論文關鍵環節使用AI工具

多所高校出手！用AI寫論文，邊界在哪兒？

多所高校出手！用AI寫論文，邊界在哪兒？

“AI論文”，撤銷學位！

“AI論文”，撤銷學位！

“AI作文全判0分”？各高校“立規矩”了！

“AI作文全判0分”？各高校“立規矩”了！

CoD替換CoT：AI成本由27600元暴降至5500元

CoD替換CoT：AI成本由27600元暴降至5500元

怎樣用AI輔導孩子？

怎樣用AI輔導孩子？

AI暫時生成不了魯迅和張愛玲，但別高興太早

AI暫時生成不了魯迅和張愛玲，但別高興太早

“別看文獻了！”上海主任怒推：用了它，論文自動生成+引用文獻！限時免費！

“別看文獻了！”上海主任怒推：用了它，論文自動生成+引用文獻！限時免費！

AI大模型，這個就叫專業！

AI大模型，這個就叫專業！

Copyright © 2025 | WordPress Theme by MH Themes