【重磅直播】2025,將是AI行業真正的星辰大海?

12月21日凌晨2點,OpenAI的12天直播,終於來到了最終章。奧特曼,也在一片聖誕的氣息中終於迴歸。為大家帶來了最後的壓軸大戲。
OpenAI o3。
又一次超群,又一次把模型的能力,推到了新的高度。也向全世界證明了,OpenAI,依然在鐵王座上牢不可摧。而OpenAI直播一完,X上基本就沸騰了。

o3的能力,對現在所有模型,幾乎都直接是降維打擊。


【12月28日,混沌邀請到了矽谷知名華人AI科學家田淵棟老師為我們帶來AI方面的最新進展和思考,更有脈脈創始人兼CEO林凡、雲跡科技創始人支濤 、雲九資本合夥人任鑫、混沌合夥人張雷等AI行業從業者、專家們帶來的精彩的圓桌探索流,不容錯過!

看下o3的能力吧。


一些粗的評測集簡單過一下。


左邊的是軟體工程考試(SWE-Bench Verified),這就像是一個考寫程式的考試,比如你寫一個軟體要它快速、準確,還不能有 bug(小錯誤)。這是考察 o3 是否能像一流的軟體工程師一樣寫出完美的程式碼。
o3 的成績:71.7%,比o1還強了不少。
右邊的那個基準比較猛,Codeforces,一個全球著名的編碼競賽平臺。
o3的得分是2727,這個得分,相當於整個榜單的第175名,已經超越了99.99%的人類了。

o1的程式碼能力已經強到爆炸了,而o3,又向AGI的山頂,前進了一大步。


FrontierMath,Epoch AI 開發的一個數學基準測試,由60多位頂尖數學家的合作開發,旨在評估人工智慧在高階數學推理方面的能力。
而且為了避免資料汙染,所有的題目都是原創的且從來沒有釋出過的新題目。
之前GPT-4 和 Gemini 1.5 Pro這種模型去評估的時候,成功功率不足2%,與其他傳統數學基準(如 GSM-8K 和 MATH)中超過90%的成功率形成鮮明對比。
而這一次,o3直接達到了25.2。
當各大其他模型都還在卷傳統數學基準的時候,o3真的已經進入了另一個世界了。就像大家還在大斗師階段互相卷,你是五星大斗師,我是八星大斗師。兩者爭論不休,正準備要比試比試,忽然就看到一個鬥宗強者踏空而行。
然後,就是我覺得,整個基準裡,最有趣的一個基準了:ARC-AGI。

先說說這是個啥玩意。


ARC-AGI於2019年首次提出,旨在透過一系列抽象和推理任務來測試AI系統的能力。
主要是因為傳統的技能測量方法並不能有效代表智慧,因為它們往往依賴於先前知識和經驗,而真正的智慧應體現在廣泛的適應能力和通用性上。
所以,ARC-AGI誕生了,裡面的這些任務要求AI識別模式並解決新問題,每個任務由輸入輸出示例組成。這些任務以網格形式呈現,每個方塊可以是十種顏色中的一種,網格的大小可以從1×1到30×30不等。參與者需要根據給定的輸入生成正確的輸出,測試其推理和抽象能力。
可以簡單的理解成,找規律。

大概就是這樣的。


非常的難且抽象。

過去幾代模型的評分在此:


* GPT-2 (2019): 0% 
* GPT-3 (2020): 0% 
* GPT-4 (2023): 2% 
* GPT-4o (2024): 5% 
* o1-preview (2024): 21% 
* o1 (2024): 32% 
* o1 Pro (2024): ~50%

但是今天,o3的分數,達到了恐怖的87.5%。


從0%到5%,整整花了5年的時間,而如今,從5%到87.5%,僅僅只花了半年。
而對應的,人類的閾值分數,是85%。
我們通往AGI的路上,已經沒有任何阻礙了。

不過o3強歸強,但是又是一個期貨,OpenAI目前只對紅隊開放,如果是巨佬的話,可以去申請試試。


目前不知道o3什麼時候放出,但是OpenAI又基於o3,訓了3個小尺寸的o3模型。
目前o3-mimi,預估在1月底可以對外開放,但是感覺到時候,肯定又是pro會員專屬的模型了。
我越來越期待,2025年AI行業的進化了。推理模型、Agent、AI硬體、世界模型。每一個都是比這個中間態的2024,都更讓人興奮的東西。

2025,必是AI行業,真正的星辰大海。


【12月28日,混沌邀請到了矽谷知名華人AI科學家田淵棟老師為我們帶來AI方面的最新進展和思考,更有脈脈創始人兼CEO林凡、雲跡科技創始人支濤 、雲九資本合夥人任鑫、混沌合夥人張雷等AI行業從業者、專家們帶來的精彩的圓桌探索流,不容錯過!

我們也在最後,回顧一下這12天的直播吧。


Day 1:滿血o1上線,ChatGPT Pro會員上線,o1 pro推出。
Day 2:基於o1的強化微調。
Day 3:Sora正式釋出。
Day 4:ChatGPT Canvas全員開放以及小功能更新。
Day 5:給蘋果站臺,宣傳蘋果全系接入GPT。
Day 6:4o的即時影片理解上線。
Day 7:ChatGPT釋出新建資料夾“專案”功能。
Day 8:ChatGPT Search全量開放,搜尋體驗大幅最佳化。
Day 9:釋出了o1的API、更新了即時語音的API、釋出了偏好微調能力(PFT)。
Day 10:物理意義上的可以給ChatGPT打電話了。
Day 11:炒冷飯,ChatGPT 桌面版能讀到別的應用。
Day 12:OpenAI o3正式釋出。

《潘多拉魔盒or阿拉丁神燈:OpenAI連續12場釋出會將如何改變2025?》
OpenAI連續12場釋出會,每一次都帶來了振聾發聵的技術突破與產品創新, 究竟是擴大技術焦慮還是真解決問題?是在用概念畫餅還是真科技落地?2025年的AI行業究竟是少數人狂歡還是真全民受益? 
12月28號,不僅一場關於AI技術趨勢的分享,更是一場關於個人未來發展的啟示。AI帶來的不僅是工具的進化,更是思維的迭代與格局的重塑。

老師資訊:
主講人:田淵棟 卡耐基梅隆大學機器人研究所博士、矽谷知名華人AI科學家、科幻小說《破曉之鐘》作者
圓桌嘉賓:
林凡 脈脈創始人兼CEO、懂AI且最懂中國職場的男人
支濤 雲跡科技創始人、人工智慧機器人行業先行者、混沌學園校友
任鑫 雲九資本合夥人、AI鍊金術主理人、混沌創新領教
張雷 混沌合夥人、混沌線上業務負責人/AI產品負責人、混沌創新領教

相關文章