點選下方卡片,關注“CVer”公眾號
AI/CV重磅乾貨,第一時間送達
新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球!可以獲得最新頂會/頂刊上的論文idea和CV從入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!
轉載自:新智元 |編輯:編輯部 JHZ
點選下方卡片,關注“CVer”公眾號
點選下方卡片,關注“CVer”公眾號
AI/CV重磅乾貨,第一時間送達
AI/CV重磅乾貨,第一時間送達
新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球!可以獲得最新頂會/頂刊上的論文idea和CV從入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!
新增微訊號:CVer2233,小助手會拉你進群!
掃描下方二維碼,加入CVer學術星球!可以獲得最新頂會/頂刊上的論文idea和CV從入門到精通資料,及最前沿應用!發論文/搞科研/漲薪,強烈推薦!

轉載自:新智元 |編輯:編輯部 JHZ
【導讀】GPT-4.5上線一天,已經引起了集體群嘲:這個模型徹頭徹尾失敗了,OpenAI已經陷入嚴重困境,失去護城河!有人算出,GPT-4.5比DeepSeek V3貴了500倍,效能卻更差。有的權威AI預測者看完GPT-4.5,氣得直接把AGI預測時間推後了……當然了,OpenAI並不這麼認為。
自從OpenAI釋出GPT-4.5之後,Ilya這張圖又開始火了。
GPT-4.5令人失望的表現,再次印證了Ilya這句話的含金量:預訓練已經達到極限,推理Scaling才是未來有希望的正規化。

GPT-4.5在基準測試上並沒有提升,推理沒有增強,只是變成了一個更易於合作、更有創造性、幻覺更少的模型。
GPT-4.5的「失敗」更加證明,Ilya是對的。
現在,各方評測都已經出爐,結果顯示,OpenAI實在是太打臉了。
從ARC-AGC的評估上來看,GPT-4.5幾乎跟GPT-4o處於同一水平,智慧上似乎沒有任何提升。

紐約大學教授馬庫斯直接髮長文痛批:GPT-4.5就是個空心漢堡。

一位AI初創CEO更是直言:在自己心目中最實用評估基準Aider Polyglot上,OpenAI的「鎮國之寶」GPT-4.5,比DeepSeek–V3貴了500倍,但表現反而更差。
如果這個結果準確,那OpenAI將陷入嚴重困境,甚至是徹底失去護城河!

與此同時,國內這邊DeepSeek連續6天給人們帶來了開源暴擊,R1模型直接減價75%。
總之,在DeepSeek、xAI Grok 3、Anthropic首個混合模型Cluade 3.7 Sonnet等的前後夾擊之下,OpenAI這位昔日明星,如今顯然已風光不再。

「GPT-4.5真這麼差?我不會看錯了吧」
正如上文所提,剛剛那位AI初創CEO在看到下面這張圖表後,感覺實在難以置信,因為GPT-4.5 Preview的表現,直接全班墊底。

為此,他還求證了表格製作者,對方表示自己仔細檢查了效能資料,進行了多次執行,能保證每個結果都是對的。

GPT-4.5比GPT-4基礎模型多出了10倍的預訓練計算量,但卻什麼都不擅長,這合理嗎?
有人猜測說,GPT-4.5可能並沒有經過太多的監督微調,因為OpenAI本來是打算將其作為未來模型(如GPT-5)的基礎模型或教師模型,用於進一步透過強化學習進行微調的。
可能是這個原因,導致它在程式碼的指令遵循上不算特別強。

或者,問題可能出在了資料混合上,因為OpenAI這次採用了一種全新的訓練機制,所以可能有某種「成長痛」。
不過令人心涼的是:OpenAI內部許多能做到這件事的人,如今已經走了。

有人直接開麥表示:「如果DeepSeek能有OpenAI的資金量,那我們就完蛋了」。
還有人調侃道,這可能就是所謂的「用智商換情商」吧。
不管怎麼說,在大家眼中,OpenAI的先發優勢已經不復存在了。



左右滑動檢視
馬庫斯:OpenAI徹底失去護城河
馬庫斯轉發了這個結果驚人的研究後表示,不管OpenAI在兩年前有什麼優勢,如今他們已經徹底失去了護城河。
雖然他們現在仍擁有響亮的名字、大量資料和眾多使用者,但相對競爭對手並未擁有任何決定性的優勢。
Scaling並沒有讓他們走到AGI的終點。GPT-4.5非常昂貴,GPT-5也失敗了。
所有人都開始疑問:OpenAI能拿出的,就只有這麼多了?
現在,DeepSeek已經引發了一場價格戰,削減了大模型的潛在利潤。而且,目前還沒有任何殺手級應用出現。
在每一次模型的響應中,OpenAI都在虧損。公司的燒錢速度如此之快,但資金鍊卻有限,連微軟也不再完全支援他們了。

如果不能快速轉型為非營利組織,一大筆投資就會變成債務。
而且,Ilya、Murati、Schulman……許多頂尖人物已經離開。
如果孫正義改變主意,OpenAI就會立刻面臨嚴重的現金問題(馬斯克有一句話說對了,星際之門的很大一部分資金,他們並沒有拿到手)。
總之,在推出ChatGPT上,奧特曼確實是那個正確的CEO,但他並沒有足夠的技術遠見,帶領OpenAI邁向下一個階段。
在這篇《GPT-4.5是個空心漢堡》中,馬庫斯也再次強調:Scaling已經撞牆了。
在GPT-4.5釋出前,他就預測將是一場空歡喜,而LLM的純粹Scaling(無論是增加資料量還是計算)已經撞牆。
在某些方面,GPT-4.5還不如Claude上一個版本的模型。

甚至第一次出現了這種情況:頗受尊敬的AI預測師感到極度失望,以至於推遲了自己對於AGI何時到來的預測時間。

而奧特曼在產品釋出上的異常冷靜,就更耐人尋味了。
他沒有像往常那樣大肆宣傳AGI,而是承認了大規模模型的成本,卻對AGI完全避而不提。

總之,馬庫斯表示,自己在2024年的預測依然強勁——
耗費五千億美元后,依然沒人找到可行的商業模式,除了英偉達和一些諮詢公司之外,沒人獲得了可觀的利益。
沒有GPT-5,沒有護城河。
「Scaling是一個假設,我們投入了相當於阿波羅計劃兩倍的資金,但至今並未取得太多實質性成果。」
GPT-4.5:不求最好,但求最貴
總之,從輸入價格來看,GPT-4.5可謂是貴到離譜:
-
o1的5倍
-
GPT-4o的30倍
-
o3-mini的68倍
-
DeepSeek-R1的137倍
-
DeepSeek-V3的278倍
但正如前文所說,作為「最貴」模型的GPT-4.5,在表現上卻不是「最好」的。
跑分一個第1都沒有
由知名華裔億萬富翁Alexandr Wang創辦的Scale AI,定期會更新一套基於私有資料集的LLM排行榜SEAL,目前首頁上共有15個。
然而,在這波最新的排名中,GPT-4.5 Preview竟然沒有一項取得第一!

全場最佳成績,是智慧工具使用(Chat)專案的亞軍——略強於Claude 3.7 Sonnet,但次於上一代GPT-4o。

接下來,GPT-4.5在EnginmaEval,Agentic Tool Use(Enterprise)兩個專案上,取得第3。
其中,前者需要創造性地解決問題和綜合不同領域資訊的能力;後者評估模型工具使用的熟練程度,特點是需要將多個工具組合在一起。
分別輸給了自家的o1/o1-preview和競爭對手最新的Claude 3.7 Sonnet(Thingking)。


在MultiChallenge中,排名第4,輸給了o1、Claude 3.5 Sonnet和3.7 Sonnet。
榜單MultiChallenge用於評估LLM與人類使用者進行多輪對話的能力,考察LLM的指令保留、使用者資訊推理記憶、可靠版本編輯和自我一致性等4方面上的指令遵循、上下文分配和在上下文中推理的能力。

在「人類最後一次考試」中,排在第5。
這次,它不僅輸給了Anthropic的Claude,就連Gemini也騎在了它的頭上。甚至,還是Flash版本。
顧名思義,這裡測試的是LLM推理深度(例如,世界級數學問題)及其學科領域的知識廣度,提供對模型能力的精確測量。目前,還沒有模型的真確率能達到10%。

千萬不要用來程式設計
根據Aider的LLM程式設計排行榜,OpenAI旗下AI模型價效比都不高,而GPT-4.5是價效比最差的。

創立AI公司的Enrico則表示,除非你願意做「冤大頭」或「人傻錢多」,否則在程式設計中不要使用GPT-4.5。

但其實,這些現象或許也在情理之中,畢竟按照OpenAI的說法,這次既不看智商也不看效能,而是強調「啥都懂」和「情商高」。
OpenAI首席研究官:我們還能Scaling!
雖然外面的爭論異常激烈,但在OpenAI首席研究官Mark Chen看來,GPT-4.5的釋出正是說明模型在規模上的Scaling還沒達到極限。
同時,對OpenAI而言,GPT-4.5也是對那些質疑「Scaling模型規模可以繼續取得進展」的回應:
「GPT-4.5實實在在地證明了我們可以繼續沿用Scaling Law,並且代表著我們已經邁入了下一個數量級的發展階段。」

預訓練和推理,兩條路並行
如今,OpenAI正沿著兩個不同的維度進行Scaling。
GPT-4.5是團隊在無監督學習上最新的擴充套件實驗,與此同時,團隊也在推進推理能力的進展。
這兩種方法,是相輔相成的:「為了構建推理能力,你首先需要知識基礎。模型不能盲目地從零開始學習推理。」
相比起推理模型,擁有更多世界知識的GPT-4.5,在「智慧」的體現方式上完全不同。
使用規模更大的語言模型時,雖然需要更多時間處理和思考使用者提出的問題,但它依然能夠提供及時的反饋。這一點與GPT-4的體驗非常相似。而當使用像o1這樣的推理模型時,它需要先思考幾分鐘甚至幾分鐘,才會作答。
對於不同的場景,你可以選擇一個能夠立即回應、不需要長時間思考但能給出更優質答案的語言模型;或者選擇一個需要一段時間思考後才能給出答案的推理模型。
根據OpenAI的說法,在創意寫作等領域,更大規模的傳統語言模型,在表現上會顯著優於推理模型。
此外,相比於上一代GPT-4o,使用者在60%的日常使用場景中也更喜歡GPT-4.5;對於生產力和知識工作,這一比例更是上升到了近70%。
GPT-4.5符合預期,沒有特別困難
Mark Chen表示,OpenAI在研究方法上非常嚴謹,會基於所有之前訓練的LLM建立預測,以確定預期的效能表現。
對於GPT-4.5來說,它在傳統基準測試上展現出的改進,和GPT-3.5到GPT-4的躍升可以說十分類似。
除此之外,GPT-4.5還具備了很多新的能力。比如製作早期模型都無法完成的——ASCII Art。
值得一提的是,Mark Chen特別指出——GPT-4.5在開發過程中並沒有特別困難。
「我們所有基礎模型的開發都是實驗性的。這通常意味著在某些節點停止,分析發生了什麼,然後重新啟動執行。這並非GPT-4.5特有的情況,而是OpenAI在開發GPT-4和o系列時都採用的方法。」

參考資料:
https://scale.com/leaderboard
https://x.com/GaryMarcus/status/1895299900952453362
https://x.com/jeremyphoward/status/1895279057614577828
https://the-decoder.com/gpt-4-5-is-proof-that-we-can-continue-the-Scaling-paradigm-says-openais-chief-research-officer/
何愷明在MIT授課的課件PPT下載
何愷明在MIT授課的課件PPT下載
CVPR 2025 論文和程式碼下載
CVPR 2025 論文和程式碼下載
ECCV 2024 論文和程式碼下載
ECCV 2024 論文和程式碼下載
CV垂直方向和論文投稿交流群成立
一定要備註:研究方向+地點+學校/公司+暱稱(如Mamba、多模態學習或者論文投稿+上海+上交+卡卡),根據格式備註,可更快被透過且邀請進群
▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)來了!想要了解最新最快最好的CV/DL/AI論文速遞、優質實戰專案、AI行業前沿、從入門到精通學習教程等資料,歡迎掃描下方二維碼,加入CVer計算機視覺(知識星球),已彙集上萬人!
▲掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請贊和在看

▲掃碼或加微訊號: CVer2233,進交流群
CVer計算機視覺(知識星球)來了!想要了解最新最快最好的CV/DL/AI論文速遞、優質實戰專案、AI行業前沿、從入門到精通學習教程等資料,歡迎掃描下方二維碼,加入CVer計算機視覺(知識星球),已彙集上萬人!

▲掃碼加入星球學習
▲點選上方卡片,關注CVer公眾號
整理不易,請贊和在看
