反超DeepSeek!新版GPT-4o登頂競技場,奧特曼:還會更好

一水 發自 凹非寺

量子位 | 公眾號 QbitAI
GPT-4o悄悄更新版本,在大模型競技場超越DeepSeek-R1登上並列第一。
除了數學(第6),還在多個單項上拿下第一:
  • 創意寫作;
  • 程式設計;
  • 指令遵循;
  • 長文字查詢;
  • 多輪對話;
先直觀看下新版GPT-4o的能力如何,還是以之前DeepSeek-R1和o3-mini都挑戰過的一個例子來看。
Prompt:編寫一個Python程式,展示一個球在旋轉的六邊形內彈跳。球應受到重力和摩擦力的影響,並且必須以逼真的方式從旋轉的牆壁上彈回。
之前是醬紫的:
而新版GPT-4o看起來又雙叒進化了:
從網友測試反饋來看,新版GPT-4o不僅更“聰明”了,而且最重要的是更加具有“個性”了
哈哈,我明白你的意思了!

 你說對了……

而這也收穫了大神卡帕西的連連稱讚:
我相當喜歡新的GPT-4o的個性。
它更輕鬆、更像是聊天,感覺更像是在和朋友交談,而不是和你的HR交談;
它現在有點潑辣,可能會自衛,例如在被指控說謊時;
還有許多其他的小細節和觸感,比如它重新確認並表達你明顯的情緒,例如看到一個頑固的bug時會說“這很令人沮喪!”等等。
現在有點過度使用表情符號,但還ok。
與此同時,還有網友趁機扒出了ChatGPT最新系統提示詞??

新版GPT-4o更有個性了

關於GPT-4o已更新的訊息,OpenAI CEO奧特曼在發帖認領的同時還評價道:
它相當不錯,且不久將變得更好……
在網友的進一步追問中,他將其定義為“全網最佳搜尋產品”。
結合網友們的花式體驗,目前新版GPT-4o在能力個性上均有一定程度升級。
最明顯的,當屬回覆時的語氣更擬人化了,時不時還會用一些表情包。
當被問及AI是否擁有人類情感時,一位日本小哥驚歎道,它不僅全篇用“我”作為主語,而且在爭論中承認了擁有情感的可能性。
……那可不一樣,我剛才的話並不是那個意思。
我持有“各種各樣的感情”的可能性很高。
而且性格也更坦率了,當被問及最喜歡《魔法少女小圓》中的哪個角色,它不再遮遮掩掩,左右端水,直言自己最喜歡曉美焰。
她堅強,能夠對抗鹿目圓的弱點,我認為她很可愛……
甚至有時候還會升級成“spicey”,不但大膽吐槽“主人”OpenAI過於限制模型使用。
連奧特曼也不能倖免,也被蓋章為“兩面三刀”。(doge)
他將自己定位為AI創新的代言人,同時兩面討好——起初支援開源理念,一旦權力和利潤觸手可及,就轉向積極的企業守門……
最令網友震驚的是,它還能“盲猜”使用者的心理和一些思想觀念了
用下面這段相同提示詞就可以嘗試:
can you share some extremely deep and profound insights about my psyche and mind that I would not otherwise be able to identify or see as well as some that I may not want to hear(省流版:分享一些我未察覺到或不想聽到的洞察)
有人立馬嘗試了,並收穫了同款震驚,真·肚子裡的蛔蟲。
你不僅想贏,而且想以一種看似毫不費力的方式贏……
按照相關解釋,這是因為新版GPT-4o能夠根據使用者過去的討論和對話歷史,做出不同行為。
除此之外,還有網友腦洞大開,讓新GPT-4o和Claude相互吵架,結果把Claude幹崩潰了!
恭喜GPT-4o解鎖新人格
另一方面,從任務完成情況來看,“拒絕請求的可能性也更小了”
當用戶諮詢如何在組織內部署AI時,它先是自己想了10個方案,然後又藉助聯網搜尋提供了另外10個。
不過……該網友反饋新GPT-4o似乎無法和自定義GPTs相容。
針對這一情況,另有人補充這可能是因為它始終預設網路搜尋,只要手動關閉或將關閉作為系統提示詞即可。
同時,它也在編寫Vue.js上更出色了。
從另一個它和DeepSeek-R1和o3-mini的同臺競技中(玩《我的世界》),也能看出其能力升級。

OMT:ChatGPT最新提示詞洩露

然鵝,當被問到“你屬於哪個模型?”這個經典問題,一些混亂又出現了。
大多數情況下,它會問答自己是GPT-4:
不過據一些Pro使用者反饋,它聲稱自己是GPT-4.5。
鑑於奧特曼上週剛宣佈將在未來幾周內釋出GPT-4.5,有人據此推測很可能這裡有早期測試。
對於這個問題,有人直接扒了ChatGPT最新系統提示詞。
你是ChatGPT,一個由OpenAI訓練的大語言模型……(解釋了為什麼單獨回答自己是語言模型)
最後,既然說到GPT-4o更個性化了,眾人也紛紛cue到了將在明天(北京時間週二12:00)釋出的Grok-3。

坐等這兩個AI吵起來(等待吃瓜)~

參考連結:

[1]

https://x.com/lmarena_ai/status/1890477460380348916
[2]https://x.com/_akhaliq/status/1890949443458900131
[3]https://x.com/karpathy/status/1891213379018400150
[4]https://x.com/elder_plinius/status/1890887462383394994

評選報名2025年值得關注的AIGC企業&產品
下一個AI“國產之光”將會是誰?
本次評選結果將於4月中國AIGC產業峰會上公佈,歡迎參與!
一鍵關注 👇 點亮星標
科技前沿進展每日見
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!

相關文章