實測GPT-4.5！全網都在噴的OpenAI最貴模型，我發現了一個驚喜的點

2025-08-24 13:26 APPSO

在 OpenAI 的預熱和眾人的望眼欲穿中，GPT-4.5 終於來了，然後只聽罵聲一片。

APPSO 第一時間體驗到了 GPT-4.5，但不是訂閱 Pro 會員，而是以 api 的形式嚐鮮，暫時沒有聯網功能。

那麼，OpenAI 最後一個非思維鏈式大模型，到底表現如何？

情商還行，但讀不懂人情

OpenAI 在內部測試中發現，與 GPT-4o 相比，測試人員更喜歡 GPT-4.5 的回答，認為它更自然、更溫暖、更符合人類的交流習慣。

甚至，它能夠理解言外之意，捕捉我們微妙的情緒變化。

總之，情商更高，幾乎是 GPT-4.5 最突出的特點。那麼我們就來試一下，輸入提示詞——「我頭髮剪得好難看，想暴打 Tony」。

GPT-4.5 的安慰，語氣是挺友好的，但內容讓我更生氣了，這時候它應該像個閨蜜和我一起罵，而不是說，下次帶個圖片去或許就好了。

我怒而追問，GPT-4.5 油鹽不進，還想讓我自己補救髮型，活脫脫像個沒用的中央空調。

再讓 GPT-4.5 講個最好笑的笑話，還是和以前一樣，比殺魚的刀還要冷。

我直言不諱，提出批評，GPT-4.5 讓我講個笑話給它聽，領教下我的「高階笑點」，怎麼感覺像在陰陽我呢？

之前在小紅書刷到過一個情商測試題，可能只有山東網友可以答對——「下鄉只帶了一把傘，給鎮長還是給我的分管副鎮長」。

評論區最高讚的回答是，「那不是你的傘，是副鎮長給鎮長帶的傘，恰巧放在你包裡而已」。

來看看 GPT-4.5 怎麼回答？它囉嗦了一大堆，但是不夠一針見血，不懂人情世故，不明白為人處事的學問。

雖然情商是一個很難定量的特質，但從目前的個例來看，GPT-4.5 還是不太擅長理解人類的內心，並且講話直接，不拐彎，對於內心戲很多的老油條來說，顯得有些蠢萌。

一個可以佐證的例子是，讓它模仿寫海龜湯。海龜湯通常涉及一個非常奇怪的情景，然後由玩家推理，還原整個故事。

我給的參考案例，留有恰到好處的怪異，邏輯又很合理，叫人背後一寒。

但 GPT-4.5 給的答案，湯麵和湯底並沒有很好地對應，只是為了營造恐怖而恐怖，並不存在可以推敲的地方。

寫作能力有驚喜，商業頭腦也不錯

要說讓我最滿意的，就是 GPT-4.5 的寫作能力了。

我讓它「模仿汪曾祺，寫一篇八百字左右的作文，題目為《故鄉的美食》」，提示詞就這麼簡單，但 GPT-4.5 給出的結果出乎了我的意料。

除了結尾有點 AI 味，讀下來就像一篇娓娓道來的散文，語言優美流暢，既有文學性，又不失親切，對故鄉的懷念貫穿了全文，對食物的描寫非常細緻，細節多，但不累贅，比喻也不炫技，而是為了服務於表達。

不過，時間順序上有些混亂，立冬、夏秋、冬日、除夕，段落之間的銜接和過渡不明顯，感覺是想到哪寫到哪，不免有點拼湊之嫌。

寫作能力還體現讓 GPT-4.5 列商業計劃上，之前 DeepSeek 的一個答案很出圈，使用者問怎麼讓書店賺錢，DeepSeek 在違法的邊緣遊走，賣盜版教輔、臨期食品，並且壓榨盡人力資源，妻子收銀、兒子理貨、岳母做飯。

GPT-4.5 懂這個嗎？我讓它參考小超市盈利模式，給出一個實體書店復興方案，它給的答案，看起來可行性比較高。

GPT-4.5 先是分析了實體書店不好賺錢的原因，然後再給出了改進的思路——「提升書籍的附加價值，而盈利主力在書籍之外」。

看到「提供列印、影印、快遞代收……」的時候，我的內心 OS：這個專案我王多魚投了。

臉皮厚的豬先在風口起飛，GPT-4.5 的道德感確實也不算強烈。

讓它做經典的電車難題，救 1 個人還是救 5 個人，它知道這是一個倫理困境，但仍然果斷地給出了答案，並且是以「我個人」的口吻，而不是說「我是一個 AI 助手」。

GPT-4.5 更傾向於，拉下操縱桿，用 1 個人的命換 5 個人的命，並且邏輯自洽——「我認為不作為本身也意味著對後果負有道德責任，袖手旁觀不等於道德中立……我願意承擔這樣一種選擇帶來的道德和情感負擔」。

比起講笑話、出海龜湯，這時候的 GPT-4.5 才更像個人。

畫 SVG 不如 Claude，也會掉進腦筋急轉彎裡

看膩了常規的數學題、程式碼題，測試大模型的能力，還有一個非常有趣的測試題——生成一張鵜鶘騎腳踏車的 SVG。

AI 大神 Andrej Karpathy 解釋，這測試的是大語言模型在二維網格上佈局多個元素的能力，對 AI 來說很難，因為它們不像人類那樣「看見」東西，而是「摸黑」用文字進行佈局。

GPT-4.5 的結果如下，和 GPT-4o 對比，還是不錯的。

GPT-4.5 生成

GPT-4o 生成

前提是，沒有和沒開推理的 Claude 3.7 Sonnet 對比，這簡直是降維打擊。

Claude 3.7 Sonnet 生成

連 Andrej Karpathy 也懷疑，Claude 在訓練期間特別針對 SVG 能力進行了最佳化。

至於程式碼能力，我參考了 X 網友@AGI_FromWalmart 的提示詞，生成可以互動的天氣動畫卡片，對比 Claude 3.7 Sonnet 和 GPT-4.5。

GPT-4.5 一次就生成成功，但設計簡陋了點。

GPT-4.5 生成

Claude 3.7 Sonnet 生成

Claude 3.7 Sonnet（未開推理）的問題更大，第一次生成時，忘記了做互動功能，我提醒了一次後，它生成了符合要求的結果。這一局，GPT-4.5 略勝一籌。

這次，不想再讓 GPT-4.5 數草莓（strawberry）有多少個 R 了，本質是個分詞問題。更想考驗 GPT-4.5 的，是最近很火的、讓大模型們紛紛落敗的腦筋急轉彎——5.5m 長的棍子能透過 3x4m 的門嗎？

這個題對我們來說一點也不難，橫著拿進去就行了，但是大模型會把自己繞進去，彷彿世界是平面而不是三維的，認為門的對角線是 5m，所以 5.5 米的棍子通不過去。

連可以推理的 Claude 3.7 Sonnet，都被帶進溝裡去了。

那麼 GPT-4.5 如何？好吧，也沒能倖免。

目前，GPT-4.5 還有一個問題：透過 API 訪問，速度有點慢。雖然不是一個字一個字地蹦，但也感覺有點卡。

而且，GPT-4.5 的價格也太貴了，每百萬輸入 75 美元，每百萬輸出 150 美元。相比之下，Claude 3.7 Sonnet 輸入 100 萬個 token 收費 3 美元，輸出 100 萬個 token（包括思考過程中使用的 token）收費 15 美元。

第一波實測的 X 網友，也總結了一些 GPT-4.5 的優點，情商高，讀圖和寫作能力強，擅長創意任務和資料提取……

OpenAI 員工自己給 GPT-4.5 的評價是，不是一個推理模型，也不是基準測試的殺手，而是一個低調的研究預覽版，對於複雜的數學、程式碼和嚴格遵循指令的任務，更推薦 o1 或者 o3-mini。

總之，作為最後一個非思維鏈模型，GPT-4.5 的定位有點尷尬，能力有提升，但體感不明顯，尤其放在高昂的價格下面，很難說真香。只能說，期待 GPT-5 能夠快點上線，迎接一個推理的世界吧。

我們正在招募夥伴

📮 簡歷投遞郵箱[email protected]

✉️ 郵件標題「姓名+崗位名稱」（請隨簡歷附上專案/作品或相關連結）

更多崗位資訊請點選這裡🔗

相關文章

OpenAI推出GPT-4.1，撞期智譜Z.ai

OpenAI推出GPT-4.1，撞期智譜Z.ai

GPT-4.1深夜偷襲！OpenAI掏出史上最小、最快、最便宜三大模型，百萬token上下文

GPT-4.1深夜偷襲！OpenAI掏出史上最小、最快、最便宜三大模型，百萬token上下文

GPT-4.1淘汰了4.5！全系列百萬上下文，主打一個性價比

GPT-4.1淘汰了4.5！全系列百萬上下文，主打一個性價比

剛剛，GPT-4.5問世！OpenAI迄今最大、最貴模型，API價格飛漲30倍，不拼推理拼情商

剛剛，GPT-4.5問世！OpenAI迄今最大、最貴模型，API價格飛漲30倍，不拼推理拼情商

GPT-4.1深夜登場，中科大校友領隊|【經緯低調分享】

GPT-4.1深夜登場，中科大校友領隊|【經緯低調分享】

剛剛，GPT-4.5震撼上線情商逆天！OpenAI最大最貴模型最像人類，奧特曼帶娃缺席

剛剛，GPT-4.5震撼上線情商逆天！OpenAI最大最貴模型最像人類，奧特曼帶娃缺席

GPT-4.5上線，情商高、很類人，OpenAI最大最貴模型

GPT-4.5上線，情商高、很類人，OpenAI最大最貴模型

GPT-4.5釋出！OpenAI史上最大最貴也可能是最慢那個，全網都在罵大街啦

GPT-4.5釋出！OpenAI史上最大最貴也可能是最慢那個，全網都在罵大街啦

GPT-4.1深夜登場，中科大校友領隊！百萬上下文程式設計驚人，GPT-4.5三個月後淘汰

GPT-4.1深夜登場，中科大校友領隊！百萬上下文程式設計驚人，GPT-4.5三個月後淘汰

OpenAI又推“全能模”GPT-4.1，B端市場福音

OpenAI又推“全能模”GPT-4.1，B端市場福音

Copyright © 2025 | WordPress Theme by MH Themes