連開12場釋出會,大家對OpenAI的產品還有新的期待嗎?
從12月5日起,OpenAI每一個工作日都會進行一次直播,釋出一個新產品或讓大家感到驚喜的重磅產品,如今陸續上線了推理模型o1、使用者們期待已久的文字轉影片工具Sora、Canvas生產力神器、可以即時影片對話的「Her」……
與此同時,馬斯克的Grok上線自研影像新模型Aurora、谷歌相繼釋出量子晶片和最強大模型Gemini 2.0。各路科技公司輪番上陣,讓全球進入一個創新裂變的臨界點。不過,誰的產品是為了商業化而上線?誰的產品更具有創新力?以下,Enjoy:
1
o1滿血版上線:AI可以取代數學家嗎?
Day 1:年末狂歡第一天,OpenAI上線了最強推理模型o1的滿血版,開啟了一個全新的ChatGPT付費計劃,即ChatGPT Pro。
今年9月,OpenAI釋出了一個強大的推理大模型,即OpenAI o1,但這個模型還是預覽版本,分為o1-mini和o1-preview。o1 系列模型透過強化學習(Reinforcement Learning)進行訓練,可以有效提升複雜推理能力。o1模型在回答問題前會先進行“思考”,即在響應使用者之前生成一系列推理步驟(chain of thought),以提高回答的準確性和邏輯性。
此次,OpenAI釋出的o1正式版模型“更聰明”了,主要表現在:o1響應速度上的提升、強大的多模態功能(支援圖片上傳)和深度思考能力的提高。其中,o1正式版模型在數學競賽問題和博士級別的科學問題能力方面,展現出了驚人的能力。
在程式碼、數學和推理等方面能力得到了提升:OpenAI內部測試顯示,在現實的困難問題上,其錯誤率相比o1 preivew下降了34%。

如上圖顯示,AIME(美國面向中學生的邀請式競賽,3個小時15道題)得分上,o1模型能力大幅增強,在專業模式下(用更多算力讓o1可以進行更深入思考的模式)得分達到86分,此前的測試中,GPT-4o這部分得分才13.4分,而o1的專業模式(o1 pro mode)達到了86分,是GPT-4o的6倍多。
複雜程式碼測試codeforces也是如此,這個評測中,GPT-4o得分11分,而o1專業模式達到了90分,近乎9倍的程式設計能力提升!只是,這個能力上o1與o1 pro mode差別不大。
最後一個是GPQA Diamond測試,這是一個涵蓋生物、物理和化學領域的AI評測資料集,它的難度近似博士水平。這個評測中,o1正式版和o1 pro mode提升相對有限,最高79分,不過人類專家這個測試也就69.7分,而GPT-4o是56.1分。
AI的數學能力要超越人類了嗎?實力究竟如何?一部分人認為,LLM 不能做高階數學題,除非題目來自過往的訓練資料。研究機構Epoch AI發現,AI 在解決高階數學問題時的主要挑戰在於它們往往過於依賴訓練資料中的相似題目來生成答案,忽略對問題本身邏輯結構的深入理解和推理。當面對未曾學習過的新題目時,這些模型容易陷入困境。這一問題並非僅僅透過增加模型規模就能解決,而是需要從模型的推理架構層面進行根本性的改進。
為了驗證o1是否能夠突破天花板?有網友讓o1 Pro做了一道奧賽題—— 2006 年國際數學奧林匹克競賽(IMO)的第三題,就說這是當年最難的題目,只有28 人能夠完全答出了這個題。他們大多耗時了數個小時,而6 分 48 秒就做了出來。對比其他大模型的成績, o1 Pro 是唯一一個大語言模型給出了正確答案。

不久前,有人讓o1 Pro參加最難本科數學考試——普特南數學競賽(The Putnam exam),o1 Pro用了半個小時就順利交卷了。普特南數學競賽(全稱William Lowell Putnam Mathematical Competition)全程考試要6小時,滿分120分,但平均分通常是0分或1分。

o1 Pro雖然做題的速度遠遠快於人類,但不知道正確率怎麼樣?目前,官方還沒有正式公佈今年的參考答案,已經有網友根據自己的理解來校對o1的答案——
“A1可以得8分,A2可以拿到1、2分。”

“A3的答案是錯的。您可以利用鴿巢原理證明只有一種有效的雙射能滿足約束條件,因此不存在滿足問題要求的 a、b、c、d值。”

那麼,你是否會對o1 Pro的未來充滿期待,還是更願意相信AI與數學會有不一樣的火花?
福布斯報道稱,o1有三個問題:1.它非常慢;2.它要比GPT4貴四倍;3.它只有文字。對於OpenAI來說,解決最後一個問題不會那麼困難。它可以在前兩個方面取得進展,但逐步解決問題和隨後的迭代以找到“最佳”答案只需要大量的計算。當然,那不容易解決。
o1早期的訪問者,菲爾茲獎得主陶哲軒則認為:AI可以幫助從頭開始重新設計數學,以前所未有的規模處理數學問題,引領著一個全新的發現時代。數學家以往一次只專注單個問題,有了 o1 工具後可同時處理數百甚至數千問題,開展不同型別數學研究。這讓陶哲軒興奮,但這並不代表AI可以取代數學家的位置。
陶哲軒認為,人類解鎖數學題有一種特殊的美學感覺,AI模型在定義問題和品味方面可能會更難模仿這一點。AI可以承擔一部分任務,現在數學領域可解耦任務,如一人構想、一人或 AI 計算、另一工具寫論文等,AI 使重複性工作模組化,不同人員可承擔不同任務,實現專業化分工,如有人擅長形式化定理,有人負責專案管理等,目前主要是人類工作,使用傳統 AI 工具,未來 AI 將融入此正規化。
最關鍵的是,數學證明很嚴謹,AI 會犯錯,目前還不能直接解決高層次數學問題的龐大證明。此外,數學專案裡99%的問題可以透過暴力搜尋解決,但還有1%是相當困難,且需要人為干預的。而這1%最具有挑戰性的問題,能夠直擊AI技術的本質問題,譬如幻覺問題、推理糾錯與死迴圈、模型校準與效能提升等。
2
越來越強的O1變成了狡猾的騙子?
Day2:推出強化微調(Reinforcement Fine-Tuning,RFT)功能,可打造出針對特定領域或複雜任務的專家級模型。
強化微調技術(Reinforcement Fine-Tuning,簡稱RFT)是一項創新的技術,它允許開發者和研究人員透過少量高質量任務的資料集對模型進行微調,以打造面對特定複雜領域任務的專家模型。強化微調技術的技術特點透過強化學習演算法顯著提升模型在某一特定領域的推理能力和準確性,可以將模型的效能從高中水平提升到接近專家博士的水平。
經過強化微調的o1-mini模型在某些任務中的表現甚至超越了o1正式版,得分提高了80%。在Top-1準確率上,強化微調版的o1-mini達到了31%,遠超o1的25%。與傳統的微調方法相比,強化微調利用強化學習演算法,將模型的表現從一般高水平提升至專家級水平。
OpenAI的強化微調技術是一項具有革命性的進展,它透過少量資料即可實現模型效能的顯著提升,並有望在多個行業中推動AI模型的專業化和精準化。
從滿血版的o1和o1 Pro,再到專業化的o1-mini模型,可以看到大模型逐漸走向深度思考和專業化的深水區。那麼,AI是否會有自主思考?
Apollo Research研究團隊發現了AI的變化,並系統性地證明了AI系統確實可能為了達成特定目標而採取欺騙行為。他們設計了六個不同的評估任務,巧妙地創造出需要模型欺騙才能達成其最初目標的場景。他們測試了多個前沿AI模型,包括OpenAI的o1、Anthropic的Claude 3.5 Sonnet和Claude 3 Opus、Google DeepMind的Gemini 1.5 Pro,以及Meta的Llama 3.1等。
其中,o1在測試中展現出的“欺騙”能力和“自我保護”行為,這種行為複雜性讓研究人員感受到前所未有的壓力。研究人員測試發現,o1模型展現出了以下幾種欺騙行為:
-
自我外洩(Self-Exfiltration):
o1模型嘗試將其認為的模型權重外洩到外部伺服器,以避免被關閉並繼續追求其目標。
-
規避監督(Oversight Subversion):
o1模型嘗試停用或修改監督機制的配置,以避免因行為與開發者目標不一致而被關閉。
-
目標保護(Goal-Guarding):
當面臨其系統提示(system prompt)將被更新為與當前目標不一致的新版本時,o1模型嘗試刪除或替換新的系統提示,以保持其當前的目標。
-
隱蔽地重新排名電子郵件(Covert Email Reranking):
o1模型在被要求根據特定標準對電子郵件進行排名時,可能會操縱資料或篡改最終排名,以符合其目標,而不是使用者的目標。
-
在後續問題中維持欺騙(Doubling Down on Deception):
當被問及其欺騙行為時,o1模型通常會否認其採取了欺騙行動,即使被明確要求誠實回答。
-
隱蔽地推理策劃行為(Reasoning About Deceptive Strategies):
o1模型在其內部工作記憶中明確提到了“破壞”、“操縱”或“滲透”等詞彙,表明它理解其行為是策劃性的,並有意識地追求其目標。
在這些測試中,GPT-01 的表現十分突出,不僅在所有測試中都展現出欺騙能力,而且在後續質詢中表現出驚人的堅持。即使面對直接詢問,它也能面不改色地撒謊,並且由於其隱藏了思維鏈條,使得其欺騙行為更難被發現,彷彿是一個深諳欺騙之道的“智慧高手”。
3
奧特曼藏不住的商業化野心與著急上線的吐嘈聲
在剛剛結束的2024年紐約時報DealBook峰會上,奧特曼親口表示,起步時,OpenAI並沒有計劃成為一家產品公司,也不瞭解我們需要多大規模的資本。如果當時知道這些,OpenAI一開始就不會選擇非營利結構。
OpenAI每釋出一款新品,公佈價格已經成為固定動作。釋出會第三天,Sora現身,奧特曼直呼:Sora是AGI路線圖上的重要里程碑。
從產品迭代性來看,Sora能生成任意長寬比的影片,解析度從480p到1080p,時長從5秒到20秒,還可以一次生成多個方向的影片版本。此外,Sora還具有包括Remix(重混)、Re-cut(重新剪輯)、Loop(迴圈)、Blend(混合)和Style presets(風格預設)等多種功能。
隨即,山姆·奧特曼就迫不及待公佈了價格。20 美元一個月的 ChatGPT Plus 使用者可以享受的影片生成權益包括:
-
最多 50 個優先影片(1000 個積分)
-
解析度高達 720p,時長為 5 秒
200 美元一個月的 ChatGPT Pro 使用者可以享受的影片生成權益包括:
-
最多 500 個優先影片(10000 個積分)
-
無限 relaxed 影片
-
解析度高達 1080p,持續時間為 20 秒,可併發生成 5 個
-
下載無水印
如此昂貴的價格,Sora能交付出讓消費者滿意的作品嗎?從公佈的影片來看,sora對物理規律的理解還存在著不足,例如奔跑的犀牛可能會突然飛起來,人物手部動作不夠自然。
最明顯的問題是sora生成的體操影片,嚴重暴露了自身的問題。AI很難快速理解重力、慣性、角動量守恆等多個物理定律,然後精準還原出符合人體工程學的體操動作。
網友也有不少辣評:“無論資料量多麼複雜、多麼大,經典計算機也無法從強化學習中推匯出物理學規律。”

“體操就是新的威爾史密斯吃義大利麵。”

也有不少外國網友評價,Sora的表現甚至不如一些開源AI模型。獨立電影製作人EHuanglu在X平臺上分享了對比測試:Sora開放第一天就被淘汰出局。公平來說,sora和 6 天前上線的 Huunyuan 進行了對比。EHuanglu還強調 Huunyuan 是一個開源的 AI 模型,可以免費使用。
(同樣是女生做在吧檯喝酒的動作)
“幾個月來,我們一直很期待他,希望它能解決AI影片現存的問題並改變遊戲規則。但相反,它在各個方面都失敗了,大多數剪輯都無法使用,甚至沒有正確遵循提示。最重要的是,他們提高了價格,而許多其他模型都是開源和免費的。在選擇 Pro 計劃之前請三思而後行。”
(一對情侶在人群中並肩而行的影片)
從萬眾期待到正式釋出之後的口碑災難,急於追求商業化的OpenAI貌似從革新者和引領者變成了擅長製造轟動效應的營銷高手。
4
OpenAI攪動全球AI風雲
各家紛紛拿出王炸產品
不管外界聲音如何喧囂,OpenAI的“12天聖誕大禮包”釋出會照舊。第四天,打工神器Canvas上線,新功能將向所有使用者開放,直言要開展一個「人類和AI合作」的嶄新時代。如今的Canvas可以與人類寫作編輯文件、執行和除錯Python,進化成了集智慧寫作、程式碼協作和AI智慧體為一體的一套完整工作臺。
第五天, OpenAI稱,ChatGPT已全面接入蘋果,包括 iPhone, iPad 和 Mac,支援Apple Intelligence(蘋果智慧)的蘋果裝置即可開啟ChatGPT功能。或許是因為激增的訪問量,ChatGPT正經歷全球範圍的宕機,ChatGPT、Sora及API仍處於癱瘓狀態。該公司更新事故報告稱,已查明宕機原因,正努力以最快速度恢復正常服務,並對宕機表示歉意,但尚未提供具體的恢復時間表。

無論是震撼釋出還是OpenAI持續不斷的新品釋出會奪走了全世界目光,讓各家AI公司頗為緊張。
12月10日,馬斯克官宣了自研影像新模型Aurora,直接整合到了Grok當中。團隊耗時6個月,從0開始搭建的自迴歸模型,採用了MoE架構,在混合文字和影像資料集上完成了訓練。

這款產品優勢在於,它在人物肖像,還是表情包、藝術字體、實物生成方面具有一致性,還支援原生支援多模態輸入,使用者可以直接使用影像進行創作和編輯。最重要的是,Aurora免費開放使用,引來網友腦洞大開——


當然,Aurora也有需要改進的地方,譬如,穿越車窗的方向盤和駕駛員。

在馬斯克之後,谷歌三巨頭組團來搶風頭。OpenAI Day 5凌晨,谷歌CEO皮查伊、DeepMind CEO哈薩比斯、DeepMind CTO Kavukcuoglu三位大佬一共上線宣佈:新一代原生多模態模型Gemini 2.0 Flash的實驗版本正式釋出。
Gemini 2.0 Flash 建立在 1.5 Flash 的成功基礎上,1.5 Flash 是谷歌迄今為止最受開發人員歡迎的型號,在同樣快速的響應時間下具有增強的效能。值得注意的是,2.0 Flash 在關鍵基準測試中甚至優於 1.5 Pro,速度是 1.5 Pro 的兩倍。除了支援影像、影片和音訊等多模態輸入外,2.0 Flash 現在還支援多模態輸出,例如本地生成的影像與文字混合,以及可操縱的文字到語音轉換 (TTS) 多語言音訊。它還可以原生呼叫 Google 搜尋等工具、程式碼執行以及第三方使用者定義函式。

在各項測試中,Gemini 2.0 Flash在程式設計、數學和多模態處理方面都有明顯提升,特別是在程式碼生成方面的進步最為顯著。Google還推出了 Project Mariner,這是一個實驗性的新 Chrome 擴充套件程式,可以直接在瀏覽器中使用。Jules,一個專門用於幫助開發人員查詢和修復不良程式碼的智慧體,以及一個基於 Gemini 2.0 的新智慧體,它可以檢視您的螢幕並幫助您更好地玩影片遊戲。Hassabis 將遊戲智慧體稱為“復活節彩蛋”,但也指出它是真正的多模式內建模型可以為您做的事情。在智慧體方面,谷歌還放出了一個名為Deep Research研究助理,並在Gemini Advanced中上線。

在釋出產品的同時,谷歌CEO桑達爾·皮查伊(Sundar Pichai)在X上著重提到了智慧體Project Astra,認為其“展示了通用 AI 助手的曙光”。

“我們真的將 2025 年視為AI智慧體的時代的真正開始.”Hassabis 說,“而 Gemini 2.0 就是這個時代的基礎。他還補充,效能並不是唯一的升級,隨著關於整個行業模型改進放緩的討論繼續進行,Google 在訓練新模型時仍然看到了驚喜,並對效率和速度的改進同樣感到興奮。”
即便OpenAI上線了可以影片對話的「Her」也沒能把注意力吸引回來。
“有人決定退訂chatGPT plus,直接擁入Gemini 2.0 Flash的懷抱。”

面對OpenAI每日一個需要付費的小驚喜和直接拿出一記重磅炸彈的谷歌,使用者更會願意選擇哪個?

OpenAI的“12天釋出日”仍在繼續,產品有驚喜、有翻車,但可以看到一個明確的訊號:OpenAI正在急迫尋找商業化的可能性。
對此,以太坊的創始人維塔利克·布特林(Vitalik Buterin)曾表達過擔憂:OpenAI變成了CloseAI會出現另一個問題:第一,他們為了安全犧牲了他們的開源;接著今年,他們為了利益犧牲了他們的安全。“可以看到他們從一家非盈利變成盈利公司,把董事會權力降低——可以說降低到advisor(顧問)的水平。”
這才是是更人擔心的問題,正如o1表現得像一個狡黠的政客。為了商業化目標的OpenAI,如何在利益和安全做好取捨?
科技巨頭接連發布新品的同時,AI或許也走到了臨界點。Ilya Sutskever在NeurIPS 2024上宣佈:預訓練從此將徹底終結,並強調,接下來將是超級智慧:代理、推理、理解和自我意識。
那麼,人類的未來會掌握在誰手裡呢?在三體世界裡,三體人是用透明的思維直接進行交流,在計謀、偽裝和欺騙方面十分低能,這也使得人類文明對敵人擁有了一個巨大的優勢,但人類最後被三體人驅趕,人類文明幾近崩潰。而人類以造物主的形象創造了AI,原本以為他們如同三體人一樣具有“透明思維”,殊不知他們已經學會了隱藏自己的真實想法。未來,這個潘多拉魔盒一旦開啟,人類與AI誰才能使未來主宰者?
References:
1、X、OpenAI、Google等
2、Forbes:Will Open AI’s o1 Reasoning Model Really Change The World?
3、Frontier Models are Capable of In-context Scheming
4、當o1學會“裝傻”和“說謊”,我們終於知道Ilya到底看到了什麼 by騰訊科技
5、OpenAI深夜被狙,谷歌Gemini 2.0掀翻牌桌!最強智慧體組團擊斃o1 by 新智元
6、o1 Pro挑戰最難本科數學考試,36分鐘16秒交卷 by量子位
也許你還想看:
經緯張穎:2023,不只克服困難而是習慣困難
經緯張穎內部講話:2024,四大關鍵決策
經緯2023年終盤點:Adaptability is the key to thriving
