【重磅直播】2025，將是AI行業真正的星辰大海？

2025-08-24 13:41 混沌學園

12月21日凌晨2點，OpenAI的12天直播，終於來到了最終章。奧特曼，也在一片聖誕的氣息中終於迴歸。為大家帶來了最後的壓軸大戲。

OpenAI o3。

又一次超群，又一次把模型的能力，推到了新的高度。也向全世界證明了，OpenAI，依然在鐵王座上牢不可摧。而OpenAI直播一完，X上基本就沸騰了。

o3的能力，對現在所有模型，幾乎都直接是降維打擊。

【12月28日，混沌邀請到了矽谷知名華人AI科學家田淵棟老師為我們帶來AI方面的最新進展和思考，更有脈脈創始人兼CEO林凡、雲跡科技創始人支濤、雲九資本合夥人任鑫、混沌合夥人張雷等AI行業從業者、專家們帶來的精彩的圓桌探索流，不容錯過！】

看下o3的能力吧。

一些粗的評測集簡單過一下。

左邊的是軟體工程考試（SWE-Bench Verified），這就像是一個考寫程式的考試，比如你寫一個軟體要它快速、準確，還不能有 bug（小錯誤）。這是考察 o3 是否能像一流的軟體工程師一樣寫出完美的程式碼。

o3 的成績：71.7%，比o1還強了不少。

右邊的那個基準比較猛，Codeforces，一個全球著名的編碼競賽平臺。

o3的得分是2727，這個得分，相當於整個榜單的第175名，已經超越了99.99%的人類了。

o1的程式碼能力已經強到爆炸了，而o3，又向AGI的山頂，前進了一大步。

FrontierMath，Epoch AI 開發的一個數學基準測試，由60多位頂尖數學家的合作開發，旨在評估人工智慧在高階數學推理方面的能力。

而且為了避免資料汙染，所有的題目都是原創的且從來沒有釋出過的新題目。

之前GPT-4 和 Gemini 1.5 Pro這種模型去評估的時候，成功功率不足2%，與其他傳統數學基準（如 GSM-8K 和 MATH）中超過90%的成功率形成鮮明對比。

而這一次，o3直接達到了25.2。

當各大其他模型都還在卷傳統數學基準的時候，o3真的已經進入了另一個世界了。就像大家還在大斗師階段互相卷，你是五星大斗師，我是八星大斗師。兩者爭論不休，正準備要比試比試，忽然就看到一個鬥宗強者踏空而行。

然後，就是我覺得，整個基準裡，最有趣的一個基準了：ARC-AGI。

先說說這是個啥玩意。

ARC-AGI於2019年首次提出，旨在透過一系列抽象和推理任務來測試AI系統的能力。

主要是因為傳統的技能測量方法並不能有效代表智慧，因為它們往往依賴於先前知識和經驗，而真正的智慧應體現在廣泛的適應能力和通用性上。

所以，ARC-AGI誕生了，裡面的這些任務要求AI識別模式並解決新問題，每個任務由輸入輸出示例組成。這些任務以網格形式呈現，每個方塊可以是十種顏色中的一種，網格的大小可以從1×1到30×30不等。參與者需要根據給定的輸入生成正確的輸出，測試其推理和抽象能力。

可以簡單的理解成，找規律。

大概就是這樣的。

非常的難且抽象。

過去幾代模型的評分在此：

* GPT-2 (2019): 0%

* GPT-3 (2020): 0%

* GPT-4 (2023): 2%

* GPT-4o (2024): 5%

* o1-preview (2024): 21%

* o1 (2024): 32%

* o1 Pro (2024): ~50%

但是今天，o3的分數，達到了恐怖的87.5%。

從0%到5%，整整花了5年的時間，而如今，從5%到87.5%，僅僅只花了半年。

而對應的，人類的閾值分數，是85%。

我們通往AGI的路上，已經沒有任何阻礙了。

不過o3強歸強，但是又是一個期貨，OpenAI目前只對紅隊開放，如果是巨佬的話，可以去申請試試。

目前不知道o3什麼時候放出，但是OpenAI又基於o3，訓了3個小尺寸的o3模型。

目前o3-mimi，預估在1月底可以對外開放，但是感覺到時候，肯定又是pro會員專屬的模型了。

我越來越期待，2025年AI行業的進化了。推理模型、Agent、AI硬體、世界模型。每一個都是比這個中間態的2024，都更讓人興奮的東西。

2025，必是AI行業，真正的星辰大海。

【12月28日，混沌邀請到了矽谷知名華人AI科學家田淵棟老師為我們帶來AI方面的最新進展和思考，更有脈脈創始人兼CEO林凡、雲跡科技創始人支濤、雲九資本合夥人任鑫、混沌合夥人張雷等AI行業從業者、專家們帶來的精彩的圓桌探索流，不容錯過！】

我們也在最後，回顧一下這12天的直播吧。

Day 1：滿血o1上線，ChatGPT Pro會員上線，o1 pro推出。

Day 2：基於o1的強化微調。

Day 3：Sora正式釋出。

Day 4：ChatGPT Canvas全員開放以及小功能更新。

Day 5：給蘋果站臺，宣傳蘋果全系接入GPT。

Day 6：4o的即時影片理解上線。

Day 7：ChatGPT釋出新建資料夾“專案”功能。

Day 8：ChatGPT Search全量開放，搜尋體驗大幅最佳化。

Day 9：釋出了o1的API、更新了即時語音的API、釋出了偏好微調能力（PFT）。

Day 10：物理意義上的可以給ChatGPT打電話了。

Day 11：炒冷飯，ChatGPT 桌面版能讀到別的應用。

Day 12：OpenAI o3正式釋出。

《潘多拉魔盒or阿拉丁神燈：OpenAI連續12場釋出會將如何改變2025？》

OpenAI連續12場釋出會，每一次都帶來了振聾發聵的技術突破與產品創新，究竟是擴大技術焦慮還是真解決問題？是在用概念畫餅還是真科技落地？2025年的AI行業究竟是少數人狂歡還是真全民受益？

12月28號，不僅一場關於AI技術趨勢的分享，更是一場關於個人未來發展的啟示。AI帶來的不僅是工具的進化，更是思維的迭代與格局的重塑。

老師資訊：

主講人：田淵棟卡耐基梅隆大學機器人研究所博士、矽谷知名華人AI科學家、科幻小說《破曉之鐘》作者

圓桌嘉賓：

林凡脈脈創始人兼CEO、懂AI且最懂中國職場的男人

支濤雲跡科技創始人、人工智慧機器人行業先行者、混沌學園校友

任鑫雲九資本合夥人、AI鍊金術主理人、混沌創新領教

張雷混沌合夥人、混沌線上業務負責人/AI產品負責人、混沌創新領教

相關文章

OpenAI急了？我們應該抓住哪些變數？

OpenAI急了？我們應該抓住哪些變數？

OpenAI釋出會技術全面分析

OpenAI釋出會技術全面分析

DeepSeek開源最後一天，GPT-4.5有些拉胯….

DeepSeek開源最後一天，GPT-4.5有些拉胯….

瑟瑟發抖！！！AI取代程式設計師就在眼前…

瑟瑟發抖！！！AI取代程式設計師就在眼前…

超級智慧才是未來，OpenAI的連續劇釋出會哪些是真創新？哪些是營銷噱頭？

超級智慧才是未來，OpenAI的連續劇釋出會哪些是真創新？哪些是營銷噱頭？

矽谷四月新聞：Amino合夥人與YCCEO、TechCrunch主編在YC｜天使投資的Guesty完成九億美金估值融資

矽谷四月新聞：Amino合夥人與YCCEO、TechCrunch主編在YC｜天使投資的Guesty完成九億美金估值融資

DeepSeek公開成本利潤率545％/中國兩AI公司CEO互撕抄襲/AI.com域名要價7億|HuntGood週報

DeepSeek公開成本利潤率545％/中國兩AI公司CEO互撕抄襲/AI.com域名要價7億|HuntGood週報

矽谷三月新聞：矽谷李師傅對話富國銀行CEO｜Amino獨角獸CXO晚餐會｜李師傅在奧斯卡之後的亞裔電影大獎

矽谷三月新聞：矽谷李師傅對話富國銀行CEO｜Amino獨角獸CXO晚餐會｜李師傅在奧斯卡之後的亞裔電影大獎

矽谷三月新聞：AMINO與Artly主辦NVIDIAGTC投資者活動｜AMINO早期投資的Turing完成22億美金估值E輪

矽谷三月新聞：AMINO與Artly主辦NVIDIAGTC投資者活動｜AMINO早期投資的Turing完成22億美金估值E輪

矽谷十二月新聞：矽谷李師傅和中歐商學院DBA朋友交流｜AMINO天使投資的EzDubs即時翻譯AI完成$4.2M融資

矽谷十二月新聞：矽谷李師傅和中歐商學院DBA朋友交流｜AMINO天使投資的EzDubs即時翻譯AI完成$4.2M融資

Copyright © 2025 | WordPress Theme by MH Themes