OpenAI最新模型O3及O3mini：通往通用人工智慧的里程碑

OpenAI正式釋出了全新一代模型——“大杯”O3與“小杯”O3 mini。據官方透露，高規格的O3版本在完成特定複雜任務時單次呼叫成本可能高達數美元，而O3 mini則有望成為付費會員或更高階使用者專屬的高性價比選項。

在多項嚴苛測試中，O3表現卓越，效能顯著超越前代模型以及業內其他同類技術嘗試。讓我們盤點一下O3在各大關鍵測評任務中的成果：

ARC-AGI測試中

O3在低效能版本（相當於前代O1的3倍水準）與高效能版本（high版本）中成績亮眼。其中高版本O3取得了87.5%的得分，而普通人類平均分在70-80%之間。若將low和high理解為低能效模式和高能效模式，那麼相較之下，高能效模式的O3表現已大幅超越人類平均水平。

O3解決了25.2%的難題。在此測試中，過往任意模型的解題率一直未能突破2%的門檻。O3的表現說明，其在數學推理與複雜問題求解上的能力已實現重大飛躍。

在極具挑戰性的程式設計競賽平臺測試中，O3得分高達2727分，這甚至超過OpenAI首席科學家在同樣環境下的2665分。據統計，這一分數相當於在人類選手中進入全球前150名的水準。這意味著O3不僅能應對常規演算法題，更能在高難度程式設計情境中展現不凡的演算法構思與實現能力。

O3的成績接近滿分，達到96.7%。要知道，上一代模型O1僅有83%的得分。O3的進步顯然不止小幅提升，而是實現了全方位精進——從理解問題、構建解題策略，到最終正確演算，每個環節的智慧化水平都顯著提高。

面對博士難度級別的GPQA Diamond測試，O3取得了87.7%的成績。這遠超人類專家分數線，標誌著O3在高階學術和專業領域同樣具有極強的知識處理與推斷能力。

總的來說，O3在通往AGI（通用人工智慧）的道路上，似乎已不再受到傳統障礙的桎梏。無論是數學難題、程式設計競賽抑或高階學術測試，其表現均展現出超越以往模型的卓絕實力。OpenAI此次釋出既是對自身技術積累的集中釋放，也是對行業競爭對手施加的無形壓力。

隨著O3與O3 mini的問世，未來的AI應用場景將更加多元、精細與高效。也許在不久的將來，人類與AGI的界限將逐漸模糊，而O3僅僅是邁向這一終點的又一個重要里程碑。