GPT-4.5 更傾向於,拉下操縱桿,用 1 個人的命換 5 個人的命,並且邏輯自洽——「我認為不作為本身也意味著對後果負有道德責任,袖手旁觀不等於道德中立……我願意承擔這樣一種選擇帶來的道德和情感負擔」。比起講笑話、出海龜湯,這時候的 GPT-4.5 才更像個人。畫 SVG 不如 Claude,也會掉進腦筋急轉彎裡看膩了常規的數學題、程式碼題,測試大模型的能力,還有一個非常有趣的測試題——生成一張鵜鶘騎腳踏車的 SVG。AI 大神 Andrej Karpathy 解釋,這測試的是大語言模型在二維網格上佈局多個元素的能力,對 AI 來說很難,因為它們不像人類那樣「看見」東西,而是「摸黑」用文字進行佈局。
GPT-4.5 的結果如下,和 GPT-4o 對比,還是不錯的。
GPT-4.5 生成
GPT-4o 生成前提是,沒有和沒開推理的 Claude 3.7 Sonnet 對比,這簡直是降維打擊。
Claude 3.7 Sonnet 生成連 Andrej Karpathy 也懷疑,Claude 在訓練期間特別針對 SVG 能力進行了最佳化。至於程式碼能力,我參考了 X 網友@AGI_FromWalmart 的提示詞,生成可以互動的天氣動畫卡片,對比 Claude 3.7 Sonnet 和 GPT-4.5。GPT-4.5 一次就生成成功,但設計簡陋了點。
GPT-4.5 生成
Claude 3.7 Sonnet 生成Claude 3.7 Sonnet(未開推理)的問題更大,第一次生成時,忘記了做互動功能,我提醒了一次後,它生成了符合要求的結果。這一局,GPT-4.5 略勝一籌。這次,不想再讓 GPT-4.5 數草莓(strawberry)有多少個 R 了,本質是個分詞問題。更想考驗 GPT-4.5 的,是最近很火的、讓大模型們紛紛落敗的腦筋急轉彎——5.5m 長的棍子能透過 3x4m 的門嗎?這個題對我們來說一點也不難,橫著拿進去就行了,但是大模型會把自己繞進去,彷彿世界是平面而不是三維的,認為門的對角線是 5m,所以 5.5 米的棍子通不過去。連可以推理的 Claude 3.7 Sonnet,都被帶進溝裡去了。