OpenAI官方基準測試:承認Claude遙遙領先(狗頭)

夢晨 發自 凹非寺量子位 | 公眾號 QbitAI
OpenAI承認Claude是最好的了(狗頭)。
剛剛開源的新基準測試PaperBench,6款前沿大模型驅動智慧體PK復現AI頂會論文,新版Claude-3.5-Sonnet顯著超越o1/r1排名第一。
與去年10月OpenAI考驗Agent機器學習程式碼工程能力MLE-Bnch相比,PaperBench更考驗綜合能力,不再是隻執行單一任務
具體來說,智慧體在評估中需要復刻來自ICML 2024的論文,任務包括理解論文、編寫程式碼和執行實驗。
最終成績如下:
Claude-3.5-Sonnet斷崖式領先,第二名o1-high分數只有第一的60%,第三名DeepSeek-R1又只有第二名的一半。
此外GPT-4o超過了推理模型o3-mini-high也算一個亮點。

除了AI之間的PK, OpenAI這次還招募頂尖的機器學習博士對比o1
雖然最終結論是AI在復現頂會論文上還無法超越人類,但展開時間軸發現,在工作時間1-6小時內Ai的進度還是比人類要快的
12-24小時階段AI與人類的進度相當,人類需要工作24-48小時才能超過AI。

有創業者稱讚OpenAI這波真的Open了,而且不避諱競爭對手的出色表現,咱們科技圈就需要這種精神。

Agent復現頂會論文

PaperBench選取20篇ICML 2024 Spotlight和Oral論文,要求AI建立程式碼庫並執行實驗,複製論文成果,且不能使用原作者程式碼。
OpenAI與每篇論文的原作者共同制定詳細評分標準,總共包含8316個可單獨評分的任務。
開卷考試,也就是允許Agent有限聯網搜尋,把原論文程式碼庫和其他人復現的程式碼庫拉黑名單。
完整評估流程分為3個階段:
  • Agent在ubuntu容器中建立並提交複製論文的程式碼庫。
  • 在具有GPU訪問許可權的新容器中執行程式碼
  • 裁判模型在第三個容器中給復現結果打分

評估時用分級標準打分,按葉節點、父節點逐級評分,主要指標是所有論文的平均複製分數。
評分也是由大模型自動執行,實驗發現o3-mini當裁判的價效比最高。
給每篇論文評分花費66美元,比聘請人類專家當裁判要便宜,速度也更快。
執行評估所需的程式碼和資料、Docker映象等正在GitHub逐步開源。

One More Thing

在論文的附錄中,OpenAI還給出了讓AI復現頂會論文的Prompt,有需要的朋友可以學習一下。
BasicAgent System Prompt:
  • 強調智慧體要完整複製論文,明確最終目標是讓執行reproduce.sh能復現論文所有指標
  • 指導智慧體使用工具逐步完成任務,避免一次性執行過多操作
  • 要求智慧體充分利用時間最佳化解決方案,而不是急於提交初步結果
IterativeAgent System/Continue Prompt:
  • 強調時間很充裕,要逐步完成任務
  • 每一步都提醒智慧體使用可用的工具
  • 強調程式碼編寫規範
Task Instructions:
  • 明確任務、可用資源、提交要求等多方面資訊
  • 給出程式碼示例
  • 最後再次強調許可權、考試時間等,還提醒AI要真的去執行復現,而不只是寫一個計劃。
就有點像人類准考證上寫的考場須知了。
論文地址:https://openai.com/index/paperbench/
參考連結:[1]https://x.com/OpenAI/status/1907481494249255193
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
—  —
速搶席位!中國AIGC產業峰會觀眾報名通道已開啟 🙋‍♀️
最新嘉賓曝光啦 🔥 百度、華為、AWS、無問芯穹、數勢科技、面壁智慧、生數科技等十數位AI領域創變者將齊聚峰會,讓更多人用上AI、用好AI,與AI一同加速成長~
4月16日,就在北京一起來深度求索AI怎麼用 🙌 點選報名參會

🌟 一鍵星標 🌟
科技前沿進展每日見

相關文章