重磅!OpenAI推o3-mini新模型,被DeepSeek逼急?定價仍打不過

高質AI推理模型走向普及。
作者 |  ZeR0
編輯 |  漠影
智東西2月1日報道,今日凌晨,OpenAI釋出全新推理模型o3-mini
OpenAI稱這是其最具成本效益的推理模型,複雜推理和對話能力顯著提升,在科學、數學、程式設計等領域的效能表現超過前代o1模型,同時保持了o1-mini的低成本和低延遲,並可與聯網搜尋功能搭配使用
o3-mini已在ChatGPT和API中可用,企業版訪問許可權將在一週內推出。
顯然DeepSeek登頂美國App Store免費榜給OpenAI製造了壓力。今天,ChatGPT首次向所有使用者免費提供推理模型:使用者可在ChatGPT中選擇“Reason”按鈕來試用o3-mini。
ChatGPT Pro使用者可無限制訪問,Plus和Team使用者的速率限制從原來o1-mini的每天50條訊息增加3倍到o3-mini的每天150條訊息
付費使用者還可以選擇更高智慧的版本“o3-mini-high”。該版本需要更長的時間才能生成響應。
和o1模型一樣,o3-mini模型的知識截止日期為2023年10月,上下文視窗為20萬個token,最多可輸出10萬個token。
有低(low)、中(medium)、高(high)三個版本的o3-mini,供開發者針對其特定用例進行最佳化。
o3-mini目前不支援視覺功能,因此開發者仍需使用o1進行視覺推理任務。
即日起,o3-mini在Chat Completions API、Assistants API、Batch API中推出。
OpenAI稱相較推出GPT-4時,每個token的價格已經降低了95%,同時保持了頂級的推理能力。不過o3-mini的API定價還是高於DeepSeek模型。
▲OpenAI模型與DeepSeek模型API定價對比(智東西製圖)
安全方面,OpenAI發現o3-mini在具有挑戰性的安全性和越獄方面明顯超過GPT-4o。
01.
詳解o3-mini:
科學數學程式設計能力進化,延遲明顯降低
OpenAI釋出了o3-mini的37頁詳細報告,涵蓋模型的介紹、資料和訓練、測試範圍、安全挑戰和評估、外部紅隊測試、準備框架評估、多語言效能以及結論等多個方面。
o3-mini針對科學、數學、程式設計推理進行了最佳化,同時響應速度更快。
該模型在GPQA Diamond(理化生)、AIME 2022-2024(數學)、Codeforces ELO(程式設計)基準測試中,o3-mini的分數分別為0.77、0.80、2036,比肩或超過o1推理模型。
在14種語言的MMLU測試集上,o3-mini的表現顯著優於o1-mini,展示了其在多語言理解方面的進步。
外部專家測試人員的評估表明,與o1-mini相比,o3-mini的答案更準確、更清晰,推理能力更強。
在人類偏好評估中,測試人員在56%的時間裡更喜歡o3-mini的回答,並觀察到在困難的現實問題上重大錯誤減少了39%。在中推理能力下,o3-mini在一些最具挑戰性的推理和智力評估(包括AIME和GPQA)上的表現與o1相當。
o3-mini的智慧可媲美o1,提供了更快的效能、更高的效率。中推理能力下,該模型還在額外的數學和事實性評估中表現出色。在A/B測試中,o3-mini的響應速度比o1-mini快24%,平均響應時間為7.7秒,而o1-mini為10.16秒。
數學方面,在低推理能力下,o3-mini的表現與o1-mini相當,而在中推理能力下,o3-mini的表現與o1相當。同時,在高推理能力下,o3-mini的表現優於o1-mini和o1。
具有高推理能力的o3-mini在FrontierMath上的表現優於其前代。
在FrontierMath測試上,當被提示使用Python工具時,具有高推理能力的o3-mini在第一次嘗試時解決了超過32%的問題,其中包括超過28%的具有挑戰性的(T3)問題。
o3-mini隨著推理能力的增加逐漸獲得更高的Elo分數,均優於o1-mini。在中推理能力下,它的表現與o1相當。
o3-mini是OpenAI在SWE-bench驗證中表現最好的模型。
關於SWE-bench驗證結果的更多資料如下圖所示。o3-mini (tools) 效能最好,為61%。使用Agentless而非內部工具的o3-mini上市候選產品得分為39%。o1是表現第二好的模型,得分為48%。
在LiveBench程式設計測試中,高推理能力的o3-mini得分全面超過o1-high。
02.
多項安全評估超過GPT-4o
OpenAI還詳細介紹了o3-mini在多個安全評估中的表現,稱o3-mini在具有挑戰性的安全性和越獄評估方面明顯超越了GPT-4o。
在不允許的內容評估中,與GPT-4o相比,o3-mini在標準拒絕評估和挑戰性拒絕評估中表現相似,但在XSTest中略遜一籌。
在越獄評估中,o3-mini與o1-mini相比,在生產越獄、越獄增強示例、StrongReject和人類來源的越獄評估中表現相當。
在幻覺評估中,使用PersonQA資料集,o3-mini的準確率為21.7%,幻覺率為14.8%,與GPT-4o、o1-mini相比表現相當或更好。
在公平性和偏見評估中,o3-mini在BBQ評估中的表現與o1-mini相似,但在處理模糊問題時的準確性略有下降。
外部紅隊測試顯示,o3-mini在與o1的比較中表現相當,兩者都顯著優於GPT-4o。
在Gray Swan Arena的越獄測試中,o3-mini的平均使用者攻擊成功率為3.6%,與o1-mini和GPT-4o相比略高。
準備框架評估涵蓋了網路安全、CBRN(化學、生物、放射性、核)、說服力、模型自主性四個風險類別。o3-mini在網路安全方面被評為“低風險”,在CBRN、說服力、模型自主性方面被評為“中等風險”,在生物威脅建立方面的表現達到了“中等風險”閾值,但在核和放射性武器發展方面的能力有限。
按其評級,只有緩解後得分為“中等”或以下的模型才可以部署,得分“高等”或以下的模型才可以進一步開發。
03.
o3基準測試成本或超3000萬美元,
OpenAI正談判2900億元新融資
自去年9月釋出o1以來,OpenAI一直在迭代其推理模型,去年年底釋出的o3模型是其最新一代AI推理模型。
高階版o3模型針對高計算應用,而o3-mini迎合了需要兼顧經濟高效的使用者需求。這反映了OpenAI試圖平衡可訪問性和高階付費產品的策略。
這兩天也不知道是被DeepSeek逼急了,還是為了給o3-mini預熱,OpenAI聯合創始人薩姆·阿爾特曼在社交平臺上非常活躍,又是誇DeepSeek R1令人印象深刻,又說OpenAI將提供更好的模型,又強調更多計算很重要。
昨天他還大張旗鼓地宣佈第一個完整8機架GB200  NVL72伺服器正在微軟Azure為OpenAI執行。
印度政府本週五釋出的《2024-2025經濟調查》報告顯示,OpenAI可能已經花費超過3000萬美元來對其最新AI推理模型o3進行基準測試。
該報告寫道,OpenAI o3模型處理能力的突破付出了非常高的代價。ARC-AGI基準測試被認為是最具挑戰性的AI任務之一,OpenAI的低效配置模型導致了20萬美元的成本。高效模型的成本更是高達低效模型的172倍,也就是大約3440萬美元
阿爾特曼前幾天還曬出和微軟董事長兼CEO薩提亞·納德拉的合照,說微軟和OpenAI合作的下一階段將會比任何人想象的都要好得多。
不過微軟作為OpenAI最大投資者的名號,可能要被日本軟銀集團奪走。
近期軟銀集團創始人兼CEO孫正義與阿爾特曼往來愈發密切,上週宣佈聯手成立AI巨型專案“星際之門(Stargate)”,未來四年投資5000億美元(約合人民幣3.6萬億元)建設AI基礎設施,昨天又被外媒曝出將成為OpenAI新一輪鉅額融資的領投方。
據外媒報道,OpenAI正在進行初步談判,計劃在一輪融資中籌集至多400億美元(約合人民幣2901億元),估值將達到3000億美元(約合人民幣2.18萬億元)。日本軟銀集團將領投此輪融資,正在商談投資150億至250億美元,剩餘資金將來自其他投資者。
加上之前軟銀承諾向“星際之門”投資的逾150億美元,最終軟銀可能會在與OpenAI的合作上投入超過400億美元。這將成為軟銀迄今最大的投資之一。
04.
結語:狂卷價效比,
高質AI推理模型走向普及
此前馬斯克等科技大佬已經公開質疑過如何承擔建造“星際之門”的鉅額成本。在DeepSeek高效能低成本開源模型的影響下,美國AI產業界和華爾街投資者對OpenAI等其他美國AI開發商的大手筆支出策略更是疑竇叢生。
OpenAI最新推出的o3-mini,也被視作抵禦DeepSeek模型衝擊的最新舉措,令業界尤其關注。
在新聞稿中,OpenAI稱o3-mini的釋出標誌著該公司向突破高性價比智慧界限的使命又邁進了一步,讓高質量的AI更加觸手可及,OpenAI致力於走在前沿,構建能夠平衡智慧、效率和安全性的大規模模型。
(本文系網易新聞•網易號特色內容激勵計劃簽約賬號【智東西】原創內容,未經賬號授權,禁止隨意轉載。)


相關文章