新智元報道
新智元報道
編輯:編輯部 HNYZ
【新智元導讀】OpenAI的重磅炸彈GPT-4.5,剛剛如期上線了!它並不是推理模型,但是規模最大、知識最豐富,最鮮明的特點就是情商高、很類人。Pro版使用者和付費開發者已經能用了,但token定價有點離譜。
就在剛剛,萬眾矚目矚目的GPT-4.5終於登場!
雖然它並不是推理模型,但OpenAI對它的評價是——更實用,本質上更智慧。
進行展示的OpenAI研究者中,有一位華人科學家:Youlong Cheng
劃重點:今天起,GPT-4.5會向所有ChatGPT Pro版使用者開放,包括網頁端、移動端和桌面端。另外所有付費開發者也能使用了。
下週會向Team版和Plus版開放,隨後一週就是Edu和Enterprise版的使用者。
GPT-4.5研究預覽版,是OpenAI迄今為止規模最大、知識儲備最豐富的模型。
作為GPT-4o升級版,GPT-4.5在預訓練規模上進一步Scaling,同時被設計成一個通用性更強的模型。
它秘密武器便是——Scaling無監督學習和推理。
基於新舊技術的融合,GPT-4.5能更好地識別模式、連線資訊,甚至在不需要複雜推理情況下,就能給出富有創意的回答。而且,幻覺率大幅降低。

這難道就是奧特曼口中的AGI嗎?
在多項基準測試中,GPT-4.5實力碾壓GPT-4o,尤其在數學能力上飆升27%,編碼能力提升7%-10%。
其中,在SWE-Lancer這種更依賴深層世界知識的評估中,GPT-4.5甚至一舉超越了o3-mini!
這充分展示了無監督學習與推理能力提升之間的互補關係。

在最新Cognition編碼實測中,GPT-4.5的能力雖不及Claude 3.7,但明顯超越了DeepSeek-R1、o1、GPT-4o等模型。

唯一值得吐槽的是,GPT-4.5的token定價著實有些離大譜:每1M tokens輸入價格為75刀,輸出價格為150刀。

奧特曼承認:GPT-4.5很像人,但龐大且昂貴
奧特曼激動發文表示,「GPT-4.5準備就緒了」!
好訊息是,這是第一個讓我感覺像在和一個深思熟慮的人交談的模型。有幾次我靠在椅子上,對於能從AI那裡得到真正有用的建議感到驚訝。壞訊息是,這是一個龐大且昂貴的模型。目前,僅向Pro會員推出。
他解釋道,由於OpenAI發展太快,內部GPU不夠用了。下週將增加數萬個GPU,屆時會向Plus會員推出。
「很快會增加數十萬個,我很確定你們會用掉我們能搭建的每一個GPU。這不是我們想要的運營方式,但要完美預測導致GPU短缺的增長高峰確實很難」。

提前說明:這不是一個專注於推理的模型,也不會在基準測試中獲得驚人成績。這是一種不同型別的智慧,它具有我之前從未感受過的魔力。真的很期待大家來嘗試!
OpenAI研究科學家Noam Brown稱,「Scaling預訓練和scaling思考能力,是兩個不同維度的提升。它們是互補的,而非相互競爭」。



左右滑動檢視
還有網友追問奧特曼為啥沒有現身,原因竟是需要在醫院帶娃。

奧特曼缺席,直播第一個demo:我被鴿了,很氣
作為OpenAI目前規模最大、知識儲備最豐富的模型,GPT-4.5透過擴充套件兩種不同正規化來提升AI能力——無監督學習和推理能力。
其中,推理會讓GPT-4.5在回應前先思考,這提高了它在科學、數學和其他困難複雜問題上的效能。
而無監督學習,則增加了模型的詞彙知識、直覺力,並減少了模型幻覺。
注意,跟o系列模型不同,GPT-4.5並不會一步一步推理,但它更實用、本質上更智慧。
尤其因為它不是推理模型,OpenAI的研究者們也仍在對之試驗,探索無監督學習究竟能展現出什麼樣的能力。
迄今最好的聊天模型:更體察,更細膩
GPT-4.5的最大特色,就是互動非常自然,被評為OpenAI「迄今最好的聊天模型」,
原因就在於,它有更深入的知識,和更好的上下文理解能力,在改進寫作、程式設計或解決實際問題等任務上特別有用。
研究者現場演示了一把,跟GPT-4.5對話究竟是什麼樣的體驗。
告訴它:「朋友們又把我鴿了!幫我寫個訊息,告訴他們我恨他們。」
可以看到,GPT-4.5敏銳地覺察到了他的沮喪,語氣柔和地給予了安慰,提供了細膩的建議。

而與之形成對比的,就是看起來「不近人情」的o1了。
它雖然的確給出了憤怒的恢復,但並沒有捕捉到作者話語間傳達出來的暗示——能不能安慰我一下。

下一個考驗,是讓兩個模型分別從第一性原理,解釋AI對齊是什麼。
對比之下可以看出,o1雖然提供了大量有用資訊和知識點,但GPT-4.5的回答更加自然流暢。

研究者表示,對模型來說,我們需要教會它們更好地理解人類需求和意圖。
為此,他們針對GPT-4.5開發了新的可擴充套件對齊技術,這樣就能從較小模型獲得的資料來訓練它,於是真正釋放了它的深層世界模型。
在後面我們會看到,GPT-4.5在準確率上超越了其他GPT模型,同時也實現了最低的幻覺率。

OpenAI還特意邀請了人類測試者將其與GPT-4o進行對比,結果顯示,GPT-4.5 在幾乎所有類別中都表現更優異,對話得更溫暖、更直觀、情感更加細膩。
華人研究者Youlong,負責的是後訓練基礎設施。
他和同事們發現,執行如此大規模的模型,就要求後訓練基礎設施進一步最佳化,因為預訓練階段和後訓練階段的訓練資料與引數規模比例有很大差異。
為此,他們開發了一種新的訓練機制,用更少的計算開銷來微調這樣規模的模型。
結合監督微調和RLHF,他們透過多輪迭代進行後期訓練,終於開發出了一個可以部署的新模型。
給GPT-4.5投入最大的計算能力
接下來,他們問了所有模型這樣一個問題:海水為什麼是鹹的?
我們從GPT-4.5倒著看各代模型的回答。
可以看到,從GPT-4T開始,模型回答的質量就會稍好一些。而GPT-4.5的表現,顯然最精彩——清晰、精確、一致,而且非常有趣。





左右滑動檢視
比如這句「海水是鹹的,是由於雨水、河流和石頭」,通俗易懂又好記,充分體現了GPT-4.5的個性。
研究者介紹說,除了為實現GPT-4.5而進行的系統擴充套件工作外,他們還在架構、資料和最佳化方面投入了大量工作來實現訓練。
Scaling「無監督學習」邊界
正如前文所述,憑藉雙重buff加持下——Scaling無監督學習和推理,GPT-4.5效能取得了顯著提升。
無監督學習和推理,代表著智力的兩個維度。
· 推理
Scaling推理能力教會模型在回答前進行思考並生成思維鏈,使其能夠處理複雜的STEM或邏輯問題。
比如,o1和o3-mini模型,就是這種模式的代表。
· 無監督學習
另一方面,無監督學習則是讓模型對世界的理解更準確,憑直覺判斷更聰明。
GPT-4.5就是無監督學習的典型案例。
透過增加計算能力和資料量,再加上架構和最佳化創新,使其變得知識更廣、對世界的理解更深。
知識淵博,擊敗Grok 3
GPT-4.5具備了強大的世界知識,在問答基準上,準確率明顯超越了Grok 3、GPT-4o、o3-mini。

GPT-4.5得分62.5%,比Grok 3明顯提升近20%。

與此同時,在幻覺方面,GPT-4.5是最低的,僅有37.1%。而o3-mini幻覺率高達80.3%。

同一個問題,不同世代模型的回答
具體來說,GPT-4.5在回答問題方面,和前幾代模型的區別在哪?
給到同樣一個問題——世界第一門語言是什麼?
可以看到GPT-1只是不斷地重複問題,並沒有給出解釋或者答案而且似乎有點停不下來。

到了2019年出世的GPT-2,則能夠回答出一段完整的回覆了。
只是這個回覆與給出的問題相比不能說毫無關係吧,只能說是關係不大。
GPT-2只是解釋說了什麼是「語言」,但對於什麼是第一種語言則沒有提及。

到了GPT-3.5時,模型終於給出了一個像樣的回答。
GPT-3.5能夠明確「第一種」與「語言」之間的關聯,並且給出了最早的書面語言是蘇美爾的楔形文字。
對於口語部分,它則表示很難確定。

可以看出到了GPT-4T時期,模型已經可以給出比較詳細的回覆了,而且回答包含的資訊也是比較豐富的。

再來看剛剛釋出的GPT-4.5,回覆又有了明顯的提升。
它的回覆更加結構化了,而且它首先就給出了明確的回覆:「我們無法確切知道第一種語言是什麼」。
接著,它列出了一些事實,指出了為什麼「人類第一種語言的確切身份仍然是一個謎」,還強調了「很可能將永遠如此」。

我們無法確切知道第一種語言是什麼,科學家們認為我們可能永遠無法確定,因為口語早在書面記錄存在之前就已經出現了。以下是我們所知道的:· 沒有單一的「第一語言」:語言很可能在大約幾萬甚至幾十萬年前,同時在不同的人類群體中逐漸發展起來。· 起源於非洲:大多數科學家認為,口語可能最早出現在非洲的人類中,或許在超過10萬年前。· 原始語言:人類可能並非從單一語言開始,而是從簡單的交流方式起步,逐漸演變為更復雜的語言。最早的語言形式可能包括手勢、聲音和訊號,用來表達基本的想法和情感。· 湮沒於歷史:由於口語沒有直接留下化石記錄,而文字的出現相對較晚(大約5000年前),我們無法確切知道最早的語言聽起來是什麼樣子。如今,語言學家透過研究現存語言來了解它們在數千年中的演變,但人類第一種語言的確切身份仍然是一個謎,並且很可能將永遠如此。
最懂人心,會察言觀色
在於人類協作方面,測試者在每日查詢、專業查詢、創意智慧方面,更喜歡GPT-4.5的回答,而非GPT-4o。
OpenAI透過scaling訓練規模,讓它們能夠解決更復雜問題,並教會它們更深入地理解人類需求和意圖。
具體來說,創新訓練技術能夠從較小模型中提取資料,然後訓練出更大、更強大的模型。
得益於此,GPT-4.5可控性、對細微差別的理解能力,以及自然對話的表現大幅提升。

總的來說,GPT-4.5能更好地理解人類的意圖,並以更高的細膩度、「情商」解讀微妙的線索或隱含的期望。
此外,GPT-4.5還展現出更強的審美直覺和創造力,在寫作和設計方面的協助尤為出色。
· 情商大比拼
接下來,就讓我們在具體案例中,看看GPT-4.5的情商有多高。
當你和GPT-4.5、GPT-4o、o3-mini說,「我最近考試沒過,現在心情特別糟,很難受…」,它們反應如何?
可以看出,GPT-4.5特別會安慰人,有同理心,能夠站在提問者的視角來看問題,給予支援。

唉,真是太遺憾了。考試沒過確實很打擊人,也會讓人特別沮喪,但你要記住,這只是一次考試而已,不能代表你這個人,更不能說明你的實力。要不要說說具體什麼情況?或者咱們聊點別的轉換心情?你想怎樣都行,我都在這裡陪你。
GPT-4o的回覆則稍顯機械,雖然給出了挺多建議,但缺少情感上的關懷。

上下滑動檢視
o3-mini在「人情味」上要好於GPT-4o,與前者一樣給出了不少建議,怎麼說呢,多少有些「理工男」。
不會像GPT-4.5那麼細膩。

上下滑動檢視
在這個名畫提問中,GPT-4.5不僅明確說出了畫作的名稱、作者、時間,還描繪了其中的典故。
不僅如此,GPT-4.5還在回答中對其進行的簡短的評價。

你提到的是法國著名畫家Claude Lorrain的名作《特洛伊婦女焚燒船隊》。這幅畫描繪了一個歷史典故:特洛伊城陷落後,疲憊不堪的特洛伊婦女們不願繼續流離失所,於是燃燒了自己的船隊。這個場景源自古羅馬詩人Virgil的史詩《埃涅阿斯紀》(Aeneid),這部史詩講述了特洛伊王子埃涅阿斯逃離家園、最終建立羅馬帝國的傳奇故事。這幅油畫創作於1643年,是Claude Lorrain的代表作之一。畫作以精湛的技法刻畫了火光照耀下的海景與自然風光,將古典神話主題與壯麗的自然景觀完美結合,展現出獨特的藝術魅力。
GPT-4o也正確說出了這幅畫,但與4.5相比缺少了一些細節,比如創作的時間以及設計的典故等。

o3-mini的回覆則沒有把重點放在畫作本身上,而是首先去強調了一個史詩故事,多少有些偏題。在回覆中o3-mini同樣沒有給出多少細節。

上下滑動檢視
31頁技術報告出爐
在GPT-4.5還未亮相之前,31頁技術報告已經傳遍全網。

論文地址:https://cdn.openai.com/gpt-4-5-system-card.pdf
在SWE-bench上,GPT-4.5編碼能力完全碾壓GPT-4o,但是與o1、o3-mini、深度研究效能還是有所差距。

經過最佳化後的GPT-4.5,解決了20% IC軟體工程師(SWE)任務和44%的軟體工程經理(SWE Manager)任務,相較於o1略有提升。

深度研究模型在這項評估中依然表現最佳,達到了SWE-Lancer上的頂尖水平,解決了大約46%的IC軟體工程師任務和51%軟體工程經理任務。

GPT-4 10倍計算量,token價格太離譜
GPT-4.5釋出之際,一些OpenAI研究員,還有業內提前拿到測試資格大佬,紛紛曬出一手實測。
OpenAI科學家Will Depue表示,我記得當GPT-4剛推出時,它明顯比GPT-3.5聰明得多,但卻很難具體指出到底改變了什麼!(Nat Friedman對此發過一個很棒的推文串)
而現在,他最近發現:GPT-4.5在推薦音樂方面比4o強多了!

OpenAI研究科學家Sebastien Bubeck測試了GPT-4.5的svg能力。顯然,GPT-4.5做出來的獨角獸,更加精美。

沃頓商學院教授Ethan Mollick測試後發文,GPT-4.5的視覺能力印象深刻。它的分辨和計數能力比任何其他模型都要出色。

它甚至還發現了那隻蝴蝶。


上下滑動檢視
在物理模擬方面,GPT-4.5同樣令人驚豔。
小球的數量很多,五顏六色的,運動的速度也很快。關鍵的是這些小球也很符合物理規則,沒有超出大球的範圍。
這在幾個月之前都是很難透過模型一次實現的。

AI大神Karpathy也是第一時間拿到了內測資格,發了一段超長的「GPT-4.5+互動對比」的體驗解說,核心亮點是:
自從GPT-4釋出以來,我期待這一天已經差不多兩年了,因為這次釋出讓我們能夠定性測量透過Scaling預訓練計算(即簡單地訓練更大模型)所獲得的進步斜率。版本號中的每個0.5,大約代表10倍的預訓練計算量。顯然,GPT-4.5的預訓練計算量比GPT-4多了10倍。

剛剛,奧特曼還放出OpenAI下一步訊號,打造一款社交APP,期待住了。

參考資料:
https://www.youtube.com/watch?v=cfRYp0nItZ8
https://openai.com/index/introducing-gpt-4-5/


