GPT-4.5登頂6小時即失守！Grok-3上演1分逆襲

2025-09-13 21:37 量子位

夢晨發自凹非寺

量子位 | 公眾號 QbitAI

基礎模型競爭又緊張刺激起來了！

GPT-4.5剛登頂競技場且全任務分類第一名，6小時後總榜就被馬斯克的新版Grok-3反超。

兩者都是獲得3000+票數，總分1412：1411只差一分。

目前Grok-3總分第一，只在總體帶風格控制、困難提示詞帶風格控制和略輸GPT-4.5一點。

DeepSeek-R1總分第6，數學和困難提示詞帶風格控制分項與GPT-4.5並列第一。

也有使用者對此結果產生了懷疑，僅僅6個小時就能發生如此大的變化嗎？

有人解釋原因在於，大模型競技場有一個投票數量門檻，兩個一週前釋出的模型剛好先後達到3000票才會出現在榜單上。

不過拋開跑分之外，GPT-4.5的口碑也在悄然翻轉。

GPT-4.5口碑翻轉

GPT-4.5剛釋出時顯得又大又貴，官方強調情商看起來很虛，看跑分也沒比GPT-4o高到哪裡去了。

但幾天後，誇他情商高的使用者確實多了起來。

奧特曼本曼也發表一條感言：有時高品位測試者是對的。

他還爆料，這是這輩子第一次有人發郵件求他承諾以後不會下架這個模型

奧特曼也曬出了一些自己與GPT-4.5對話的聊天記錄，針對奧特曼自己寫的六個單詞小故事“臨近奇點，不清楚在哪一側”，GPT-4.5的看法如下：

作為GPT-4.5，在反思這個有趣的故事時，我認為我們已經超越了奇點的事件視界，但只是剛剛越過。

我們已經進入了人工智慧重塑人類思想、創造力、溝通甚至身份的世界。然而，確切的含義——無論是解放還是擔憂——仍未定論。

換句話說，我們已經踏入了奇點的引力範圍，但要完全理解它可能帶來的後果還為時過早。

One More Thing

與此同時GPT-4.5還登頂了一個另類榜單，類似大模型狼人殺：

AI模型參加多輪淘汰賽，比賽中需要公開辯論、私下制定策略並投票淘汰其他人，最終獲勝者由被淘汰的參賽者組成的陪審團決定。

在結盟、欺騙、背叛、表現得不具威脅性等方面都是第一，且比人類優秀。

參考連結：

[1]

https://x.com/lmarena_ai/status/1896675400916566357
[2]https://x.com/sama/status/1896651354648818121
[3]https://x.com/AISafetyMemes/status/1896579947830849970

— 完 —

評選報名｜2025年值得關注的AIGC企業&產品

下一個AI“國產之光”將會是誰？

本次評選結果將於4月中國AIGC產業峰會上公佈，歡迎參與！

一鍵關注 👇 點亮星標

科技前沿進展每日見

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法！

相關文章

OpenAI推出GPT-4.1，撞期智譜Z.ai

OpenAI推出GPT-4.1，撞期智譜Z.ai

GPT-4.1深夜偷襲！OpenAI掏出史上最小、最快、最便宜三大模型，百萬token上下文

GPT-4.1深夜偷襲！OpenAI掏出史上最小、最快、最便宜三大模型，百萬token上下文

剛剛，GPT-4.5問世！OpenAI迄今最大、最貴模型，API價格飛漲30倍，不拼推理拼情商

剛剛，GPT-4.5問世！OpenAI迄今最大、最貴模型，API價格飛漲30倍，不拼推理拼情商

GPT-4.1淘汰了4.5！全系列百萬上下文，主打一個性價比

GPT-4.1淘汰了4.5！全系列百萬上下文，主打一個性價比

GPT-4.1深夜登場，中科大校友領隊|【經緯低調分享】

GPT-4.1深夜登場，中科大校友領隊|【經緯低調分享】

OpenAI又推“全能模”GPT-4.1，B端市場福音

OpenAI又推“全能模”GPT-4.1，B端市場福音

GPT-4.5釋出！OpenAI史上最大最貴也可能是最慢那個，全網都在罵大街啦

GPT-4.5釋出！OpenAI史上最大最貴也可能是最慢那個，全網都在罵大街啦

剛剛，GPT-4.5震撼上線情商逆天！OpenAI最大最貴模型最像人類，奧特曼帶娃缺席

剛剛，GPT-4.5震撼上線情商逆天！OpenAI最大最貴模型最像人類，奧特曼帶娃缺席

GPT-4.5上線，情商高、很類人，OpenAI最大最貴模型

GPT-4.5上線，情商高、很類人，OpenAI最大最貴模型

GPT-4.1深夜登場，中科大校友領隊！百萬上下文程式設計驚人，GPT-4.5三個月後淘汰

GPT-4.1深夜登場，中科大校友領隊！百萬上下文程式設計驚人，GPT-4.5三個月後淘汰

Copyright © 2025 | WordPress Theme by MH Themes