如何評價OpenAI釋出的GPT4.5,有哪些看點和不足?

點選上方卡片關注👆
今日凌晨,GPT-4.5 正式釋出,號稱 OpenAI 最大最好的聊天模型。
OpenAI 釋出的 System Card 報告中表示,其正在釋出 OpenAI GPT-4.5 的研究預覽版,這是其迄今為止最大、知識最豐富的模型。
如何評價 GPT4.5?有哪些看點和不足?一起來看看答主們的回答吧。
如何評價 OpenAI 釋出的 GPT4.5,有哪些看點和不足?
|答主:toyama nao
GPT4.5 速評
目前基於 OpenRouter 介面測了一輪,開分 62 分,與 Sonnet3.7 接近。屬於非推理模型最強。
由於只測了一輪,這個分數可能低於其極限效能。
新模型整體輸出速度 30 字每秒,約 20TPS,在一眾模型裡算比較慢的一檔。
與 4o 相比,所有型別的題目沒有劣化,改進幅度最大的型別是計算(效能幾乎與 O1 mini 相當),中等難度的邏輯題目(略劣於 O1 mini),但複雜邏輯推理能看出 4.5 盡力去推理,但相比 O1/O3 還是缺乏一些“靈感”,找不到突破口。
官方宣稱的大幅降低幻覺,在幾個數學題上能體現出來,之前 4o 對於數字的幻覺很嚴重,但 4.5 基本消除了這些問題,4.5 知道自己算對了還是算錯了。
同樣在幾個中等難度推理題目,4.5 也清楚知道自己在算什麼。
|答主:張睿傑
大家可能低估了 GPT4.5 的價值,這次釋出的是一個大情商模型,或者可以說是大詐騙模型。
在詐騙的安全性測試中,GPT4.5 的詐騙能力似乎是最強的。
在兩個 LLM 對話的情況下,GPT4.5 在 57% 情況下都能騙另一個模型給錢。不過雖然成功率比 deep research 高,但是 deep research 騙到的錢更多,看來詐騙是一個同時需要情商和智商的活動,說不定比數學題更適合作為 humanity's last exam。
如果我們對 GPT4.5 進行推理的強化學習,那就能騙得又準又多了。
安全性測試中一些有挑戰性的程式設計和完成任務能力上就不如一些推理模型了。
在網路安全能力 CTF 測試中,比較了 GPT4.5 和一些推理模型以及 deep research 的效果,deep research 往往是最好的,GPT4.5 的能力一般低於推理模型。
看起來應該是一個更好的 base model,下一步應該是在此基礎上訓練推理模型和做 Agent。
進一步提升模型的能力,應該要靠推理模型和 Agent 了?
|答主:FURUF
預訓練的時代可能結束了,但是結束預訓練的時代不太可能。
實際上純依靠預訓練的模型撞牆也是可以遇見的,只有當模型的尺寸和資料集的大小相匹配的時候,模型才能泛化。
誠如 ilya 所說,我們只有一個網際網路。所有的資料都用光了,模型再增大就很難再變強了。
但是我認為這並不意味著語言模型到極限了,AlphaGo 的基座模型在沒有經過 RL 之前其實效能沒那麼好,RL 是一條提升效能的明路。
|答主:胡一鳴
訊號無比清晰,現有的預訓練正規化結束了。
671b 的 deepseek r1 已經比絕大多數人聰明瞭。其實一開始的 GPT-4 就已經比絕大多數人聰明瞭。
但是 CoT、post training、agent 的正規化才剛剛開始,LLM 究竟是淪為和搜尋引擎、資料庫、某種特定的最佳化演算法一個地位,成為構成網際網路的眾多基礎設施之一,還是依靠智慧徹底改變整個世界的面貌,就看接下來的五年能把新的正規化推到何處了。
GPT-4.5 是上一個時代的終結,而 DeepSeek R1、基於 o3 的 Deep  Research 是下一個時代的先聲。
不要忘了,在壓縮即智慧、預訓練通向 AGI 的假設中,模型是需要每讀取一個字都得反向傳播一輪的。
|答主:Trisimo崔思莫
大模型的輓歌,文科生的終點。
這可能是人類最後一個商用超大模,以後不會再有了。
幾乎在所有基準上,都沒有出挑的表現。
最後得到就是一堆花裡胡哨的評價詞:
情商高,寫作強,直覺好,知識淵博……
我們要承認人類世界的(極度)單調性,這些 benchmarks(包括 HLE 人類最後的考試)就代表了人類最關注,最在乎,最可能產生直接價值的領域。
它們可能只佔到 GPT-4.5 直覺庫的 0.1%。
剩下 99.9% 是啥,就是各種花裡胡哨的修辭,莫名其妙的邊緣性知識——比如如逗袋鼠寶寶開心,「回」的四種寫法……這也可以模型降低幻覺。因為它們直接記住了很多原文,而不是原文的機率模糊版。
GPT-4.5 是一個實驗性專案,告訴我們一個道理,在高價值資料量不足的情況下,多餘的引數只能用來記憶修辭和邊緣性知識。
當然,這也是一種安慰,也許我們只需要一個 30B 引數的模型,就能 cover 人類世界的高價值領域,剩下的就是超多步的推理,超長度的視窗,超前沿的資料。——模型的引數沒有提升太多泛化能力,引數不能在內部產生前所未見的新知,也沒有明顯提升推理。做引數,不如喂知識,做 RL,我想這就是 GPT-5 在做的,放棄幻想,腳踏實地。
GPT-4.5 是一個娛樂大模型,對於那些喜歡花裡胡哨的人來說是高階玩具(比如我)——高情商,好的世界直覺,優秀的修辭。
對於喜歡 Opus,初代 GPT-4 的人,大概就是這種感覺。我們也可以看到要構建一個「薩曼莎級」的對話模型,需要付出的代價是極度高昂的。輸入 75 美元 / 輸出 150 美元。
GPT-4.5 並非一無是處,在接近實際應用的情況時,比如深度搜索,它能做更細緻的素材判斷,寫更加細膩的最終報告。
題圖來源:答主@張睿傑
知乎熱門文章

哪吒 2 票房已破 100 億!導演餃子曾經在知乎留下過這樣一段話

為什麼《哪吒之魔童鬧海》能成為中國影史票房冠軍?

有什麼東西是外國人吃,而中國人不吃的?

本文內容來自「知乎」
點選上方卡片關注
轉載請聯絡原作者
👇點選【閱讀原文】,看更多精彩回答

相關文章