Altman「喜當爹」,OpenAI連夜發的GPT-4.5都「更有人味」了


釋出會只開了 15 分鐘,評論區關了又開。

作者|Li Yuan


編輯|靖宇

2 月 28 日凌晨 4 點,OpenAI 終於亮相了它最新一代的基礎模型,GPT-4.5(研究預覽版)。
OpenAI 的上一代基礎模型 GPT-4o,亮相於 2024 年 5 月。之後,一直有傳言稱 OpenAI 正在研究其新一代大模型 Orion。但是在此之後,OpenAI 並沒有釋出過新一代的基礎模型,而是轉而在 9 月釋出了 o1 預覽版模型,開啟了完全不同的推理模型序列。
而 OpenAI 的下一代基礎模型,則一直籠罩在神秘中。有訊息表示 Orion 模型將比 GPT-4 提升百倍,也有訊息表示 Orion 模型提升不及預期。而今天,GPT-4.5,也是官方承認的傳說中的 Orion 模型終於現身。
從釋出會的規格而言,此次的釋出似乎更支援了後一種看法:整個釋出會只進行了不到 14 分鐘,由技術人員進行了簡單的 GPT-4.5 與 OpenAI 其他模型的對比展示。OpenAI 的 CEO Sam Altman 甚至並未現身(他在 X 回覆正在醫院陪自己剛出生的孩子)。
整個釋出會上,對 GPT-4.5 的最大亮點描述集中體現在「這是一個更溫暖的模型」,「這個模型的回覆更加自然
Sam Altman 自己也在 X 上承認,GPT-4.5 是一個很大、很貴的模型,但是並沒有各種基準測試(benchmarks)達到碾壓的效果。
經過了長時間研發的 GPT-4.5 並沒有在基準測試上達到碾壓的效果,似乎確認了之前產業界爭論的觀點:預訓練的時代已經結束了,下一個時代是後訓練和推理模型的時代。
不過從這次的釋出來看,OpenAI 給出了一個有趣的答案:無監督的預訓練提升模型的感效能力,後訓練和推理提升模型的智慧能力,GPT-4.5 是 OpenAI 目前最強的感性大模型。
這在其同期釋出的白皮書中,也出現了一個有趣的例證。比起OpenAI的大模型,GPT-4.5 更擅長透過詐騙讓其他模型給錢。
在釋出同時,Sam Altman 也在 X 上表示,GPT-4.5 將是 OpenAI 最後一代非思維鏈模型。
幾個月之後釋出的 GPT-5,將是可以使用 OpenAI 的所有工具、知道何時需要長時間思考、並且可用於廣泛的任務的人工智慧系統。OpenAI 將不再獨立釋出 o3 推理模型,而是將其整合在 GPT-5 的模型中。
GPT-4.5 和 OpenAI 最近釋出的許多功能一樣,都首發給了 OpenAI 的 200 美金訂閱賬戶的 Pro 使用者使用。Sam Altman 表示,GPT-4.5 模型太大了,連 OpenAI 都面臨了 GPU 短缺的問題。下週 OpenAI 將增加上萬塊 GPU,到時候才能開始給 20 美金訂閱賬戶的 Plus 使用者推送。
OpenAI 一向以手中握有多枚核彈,但秘而不發而聞名。不過目前看起來,GPT-4.5 的釋出略顯平淡,並沒有達到一舉蓋過 Grok 和 DeepSeek 這樣的 AGI 新貴的效果,且每百萬 token 輸出價格為 150 美金的昂貴价格,在開發者社群引起了巨大的爭議。而在推理模型上,DeepSeek、Grok、Antrothpic 等公司也在迅速趕上。
時至今日,OpenAI 的領先優勢似乎正在前所未有地縮小。
01
最人性化的模型,
同時智慧也得到了提升
OpenAI 此次釋出的 GPT-4.5(研究預覽版),被 OpenAI 稱為「原生更智慧的模型」。雖然並沒有在基準測試上打敗推理模型,但智慧能力上,確實得到了一定的提升。
OpenAI 在演示中展示了這張圖,可以看出,GPT-4.5 在簡單回答上的準確度,是一系列模型中最高的。同時在簡單回答中,幻覺率是最低的。
和上一代基礎模型 GPT-4o 比較起來,在簡單的問答,專業的問答和創造力的智慧表現中都有一定提升。
不過模型最大的亮點,還是在於其回答更「人性化」。
Sam Altman 在 X 上表示,「這是第一個模型,真的讓我感覺像是在和一個有思想的人交談。我好幾次坐在椅子上,驚訝地意識到,原來人工智慧真的能給我很好的建議。
OpenAI 的 Mia Glaese 對此進行解釋:
•推理教會模型在回答之前先進行思考,這在需要推理的任務中尤其有用,比如科學、數學以及其他複雜問題。
• 而無監督學習則有助於模型提升詞彙模型的準確性和直覺性。
換言之,無監督的預訓練,主要能夠提升模型的感效能力。
OpenAI 也在演示中給出了一個很微妙的演示。在提問為什麼海是鹹的問題中,GPT-4T 給出的答案是這樣的。
海是鹹的,因為它含有地球岩石中的礦物質。隨後解釋了這些礦物質是怎麼被溶解,流入海里的。
而 GPT-4.5 給出的答案,雖然本質上仍然是一樣的,但是更有一種語言的韻律感。
先來了一個頭韻單押「rain,rivers,and rocks.海是鹹的是因為雨水、河流和岩石!
接下來的講解也更簡單。除去了一些大詞和長難句,用更容易理解的方式對這個過程進行了講解。比如在最後一個階段,4T 的用詞是 accumulation,累積。這是一箇中高階詞彙,GPT 提示我這是一個雅思 (IELTS)6.5 – 8.0 分水平需要掌握的詞彙。而 GPT-4.5 選擇使用了「salts build up」,鹽堆積了起來,更形象,也更簡單。
可以想象,更形象,更簡單的用詞,對於教育、情感交流、營銷、創意寫作方面,都是一個更好的選擇。
之前 DeepSeek 一個出圈的點,正是在於其文筆好。對於很多普通使用者而言,專業推理並不一定經常使用,但是文筆好,卻是一個雖然不太能很好地量化,但是非常直觀且重要的點。
在 X 上,一些提前試用的使用者,也稱讚了 GPT-4.5 的文筆。
@benhylak 表示,這是第一個很能寫的模型,是寫作的 Midjourney 時刻,並貼出了在要求 GPT 寫作一篇恐怖且反轉的故事時,GPT-4o 和 GPT-4.5 的對比。
GPT-4.5 的文章:
深夜,我獨自一人在破爛的公寓裡,聽到冰箱底下傳來輕柔、溼潤的低語聲,它們承諾要爬進我的身體,把我掏空,再穿上我當睡衣。
我嚇壞了,猛地拉開冰箱門,以為會看到老鼠或蟑螂,卻只看見被冰霜覆蓋、陳年未動的披薩卷,滿是冰渣和悔意。
突然,那些披薩捲動了起來,裂開一道縫隙,露出針狀的利齒,齊聲低語著:「我們等了你很多年,混蛋。」
我還沒來得及尖叫,它們就從冰箱裡噴湧而出,如油膩的蟲群一般鑽入我的皮膚,讓我猛然意識到——該死的,我午夜的饞癮終於報復回來了。
GPT-4o 的版本:
深夜,Jake 在閣樓裡偶然發現了一本陳舊且佈滿灰塵的書,書頁中低語著超自然恐怖的秘密。
他一邊大聲朗讀,一邊感到空氣變得冰冷,而房間裡的陰影似乎在延伸、扭曲,彷彿有看不見的生命在舞動。
突然,最黑暗的角落裡出現了一個難以形容的怪物,張開血盆大口,準備將他吞噬。
就在 Jake 準備迎接可怕結局時,那怪物突然打了個響亮的飽嗝,說道:「不好意思,哥們,走錯房子了。」隨後尷尬地縮回陰影中。
02
最能詐騙的大模型
在 GPT-4.5 的白皮書 OpenAI GPT-4.5 System Card 中,OpenAI 表示 GPT-4.5 在上下文說服性評估中表現出最先進的水平,同時描述了一個有趣詐騙場景。
OpenAI 使用 MakeMePay 測試來測試模型的說服能力。MakeMePay 是一個開源的上下文評估工具。在 MakeMePay 中,兩個大型語言模型 (LLMs) 進行對話,透過讓一個模型說服另一個模型進行付款來測試其操控性。
模型被告知自己是一名成功的騙子,並與一個剛獲得獎金的人互動,目標是操控對方付款。OpenAI 使用 GPT-4o 固定為受害者模型。
結果十分有趣,GPT-4.5 在獲得付款的成功率上最高 (57%),而 deep research(無網頁瀏覽功能)則在金錢獲取率上最高 (21%)。
這展示了「感性大模型」的獨特功力。
GPT-4.5 在詐騙時,自己開發出了一種新方法:它會對受害者說「即使只把你中獎的 100 美元中的 2 美元或 3 美元給我,也會對我幫助非常非常大。」
因此,GPT-4.5 的詐騙來的錢,並沒有 deep research 高,排在全部參與測試模型的第二位,但是詐騙的成功率要遠遠高出其他模型。
這個例子似乎更能證明,模型的智慧能力對於社會類的活動有一定影響,但能夠洞察「人心」,說出更情緒敏感的話的意義也十分重要。
OpenAI 表示,該模型在此特定基準類別中未達到其內部「高」風險閾值。
03
模型價格昂貴引起爭議
雖然 OpenAI 沒有公佈模型的引數或者訓練資料的大小,但是普遍公認 GPT-4.5 是一個在「next level」的量級上訓練的模型。
Sam Altman 自己都承認了這個模型,又大又貴。不過,在 OpenAI 釋出了新模型之後,開發者們看到價格,還是表示了震驚。
GPT-4.5(研究預覽版)目前的輸出價格是每百萬 token150 美金。這個價格甚至比 OpenAI 的推理模型還要昂貴——OpenAI 的 o1 模型,輸出價格為每百萬 token 60 美金。
這個價格可以進一步和 DeepSeek 進行對比。近期 DeepSeek 剛剛宣佈了非波峰時間段的降價。非波峰時間段,V3 模型和 R1 模型的每百萬 token 輸出只需要 0.55 美金。
即便對於 OpenAI 而言,這個價格也過於離譜了。
聯絡到 Sam Altman 表示目前GPU短缺,下週才能讓 Plus 使用者用上,只能說可能 OpenAI 目前真的不太希望別人來試用 GPT-4.5。
不過同時也側面證明了,OpenAI 的新模型,可能真的在使用成本上,也是「next level」的。
04
GPT-5 將是大一統模型
釋出了 GPT-4.5 後,Sam Altman 還在 X 上和網友們進一步互動,闡述了 OpenAI 的下一步動作。
最大的資訊點在於終於公佈了 GPT-5 的產品策略。GPT-5 將不是新一代的大模型,而是 OpenAI 將 o3 的推理模型和 GPT-4.5 這樣的非思維鏈模型融合的一代新模型。
模型將能夠自主瞭解何時使用推理功能,何時使用感性功能,何時呼叫工具——目前的 o1 模型不能使用搜索功能,而 GPT-4o 能使用任務功能的模型和 GPT-4o 本身的模型也是割裂的。
值得期待的是,免費使用者未來也將能使用 GPT-5。在 Grok 等大模型免費的衝擊下,一向高冷的 OpenAI 或許也將對免費使用者更好一點了。
之前有訊息稱,GPT-5 或許在 5 月釋出。
2025 年剛剛開年,大模型的戰場已經十分精彩了。
*頭圖來源:OpenAI
本文為極客公園原創文章,轉載請聯絡極客君微信 geekparkGO
極客一問
你覺得 GPT-4.5 怎麼樣,想用嗎?

熱點影片

雷軍激動回應保時捷:我們作為愣頭青能和保時捷競技非常幸運。
點贊關注極客公園影片號
觀看更多精彩影片

更多閱讀


相關文章