OpenAI正式釋出了全新一代模型——“大杯”O3與“小杯”O3 mini。據官方透露,高規格的O3版本在完成特定複雜任務時單次呼叫成本可能高達數美元,而O3 mini則有望成為付費會員或更高階使用者專屬的高性價比選項。
在多項嚴苛測試中,O3表現卓越,效能顯著超越前代模型以及業內其他同類技術嘗試。讓我們盤點一下O3在各大關鍵測評任務中的成果:
ARC-AGI測試中
O3在低效能版本(相當於前代O1的3倍水準)與高效能版本(high版本)中成績亮眼。其中高版本O3取得了87.5%的得分,而普通人類平均分在70-80%之間。若將low和high理解為低能效模式和高能效模式,那麼相較之下,高能效模式的O3表現已大幅超越人類平均水平。
EpochAI的Frontier Math測試
O3解決了25.2%的難題。在此測試中,過往任意模型的解題率一直未能突破2%的門檻。O3的表現說明,其在數學推理與複雜問題求解上的能力已實現重大飛躍。
程式設計Codeforces測試
在極具挑戰性的程式設計競賽平臺測試中,O3得分高達2727分,這甚至超過OpenAI首席科學家在同樣環境下的2665分。據統計,這一分數相當於在人類選手中進入全球前150名的水準。這意味著O3不僅能應對常規演算法題,更能在高難度程式設計情境中展現不凡的演算法構思與實現能力。
AIME 2024測試中
O3的成績接近滿分,達到96.7%。要知道,上一代模型O1僅有83%的得分。O3的進步顯然不止小幅提升,而是實現了全方位精進——從理解問題、構建解題策略,到最終正確演算,每個環節的智慧化水平都顯著提高。
GPQA Diamond測試中
面對博士難度級別的GPQA Diamond測試,O3取得了87.7%的成績。這遠超人類專家分數線,標誌著O3在高階學術和專業領域同樣具有極強的知識處理與推斷能力。
總的來說,O3在通往AGI(通用人工智慧)的道路上,似乎已不再受到傳統障礙的桎梏。無論是數學難題、程式設計競賽抑或高階學術測試,其表現均展現出超越以往模型的卓絕實力。OpenAI此次釋出既是對自身技術積累的集中釋放,也是對行業競爭對手施加的無形壓力。
隨著O3與O3 mini的問世,未來的AI應用場景將更加多元、精細與高效。也許在不久的將來,人類與AGI的界限將逐漸模糊,而O3僅僅是邁向這一終點的又一個重要里程碑。