MLNLP

社群是國內外知名的機器學習與自然語言處理社群，受眾覆蓋國內外NLP碩博生、高校老師以及企業研究人員。

社群的願景是促進國內外自然語言處理，機器學習學術界、產業界和廣大愛好者之間的交流和進步，特別是初學者同學們的進步。

來源 | 機器之心

大家心心念唸的 GPT-4.5 終於來了！

凌晨 4 點，OpenAI 開始了直播，奧特曼並沒有現身。直播不到 15 分鐘就匆匆結束了。

OpenAI 正式釋出了其最大、最強的聊天模型 GPT‑4.5 研究預覽版本。

奧特曼發推稱，GPT‑4.5 讓他第一次感覺像在與一個有思想的人在交談，可以從模型那裡得到真正好的建議。

OpenAI 表示，GPT-4.5 在擴充套件預訓練和後訓練方面向前邁出了一步。透過擴充套件無監督學習，GPT-4.5 提高了識別模式、建立聯絡和產生創造性見解的能力，而無需推理。這意味著，GPT-4.5 從一開始就不是一個推理模型。

OpenAI 的早期測試表明，與 GPT-4.5 的互動感覺更自然。它的知識庫更廣泛，更能遵循使用者意圖，而且「情商」更高，使得在提高寫作、程式設計和解決實際問題等任務中非常有用。同時，GPT-4.5 還減少了幻覺出現。

Cognition 聯合創始人兼 CEO Scott Wu 分享了使用 GPT-4.5 的體驗，表示非常棒。在他們的智慧體編碼基準測試中，GPT-4.5 相較於 o1 和 4o 實現大幅改進。同時發現一個有趣的資料點：雖然 GPT-4.5 和 Claude 3.7 Sonnet 在整體基準測試中得分相似，但他們發現 GPT-4.5 在涉及架構和跨系統互動的任務上峰值更大，而 Claude 3.7 Sonnet 在原始編碼和程式碼編輯上峰值更大。

圖源：https://x.com/ScottWu46/status/1895209597084017073

從今天開始，ChatGPT Pro 使用者可以在網頁版、手機版和桌面版使用 GPT-4.5。下週將向 Plus 和 Team 使用者開放，再下週向企業和 Edu 使用者開放。

現在，GPT-4.5 只支援搜尋、上傳檔案和圖片和畫布功能，還不支援語音模式、影片和螢幕共享等多模態功能。OpenAI 表示，未來會持續更新，讓產品變得更容易使用。

基準測試結果

OpenAI 首先在 SimpleQA（評估模型的事實性回答能力）資料集上進行了測試，其中 GPT-4.5 的準確率最高，超越了前代 GPT-4o、o1 和 o3-mini，展現了 GPT-4.5 擁有驚人的世界知識。

同時，GPT-4.5 的幻覺率也最低。

OpenAI 其次測試了人類協作訓練水平。

隨著模型不斷擴充套件並解決更復雜的問題，教會它們更好地理解人類的需求和意圖變得越來越重要。對於 GPT-4.5，OpenAI 開發了全新的可擴充套件技術，可以使用來自較小模型的資料來訓練更大、更強的模型。這些技術提高了 GPT-4.5 的可操縱性、對細微差別的理解和自然對話水平。

下圖人類偏好衡量結果顯示，測試人員更喜歡 GPT-4.5 查詢而不是 GPT-4o。

OpenAI 表示，將對世界的深刻理解與更佳的協作相結合，可以使得模型在更適合人類協作的「熱情直觀對話」中自然地整合想法。GPT-4.5 能夠更好地理解人類的意思，並以更細緻入微的「情商」來解讀微妙的暗示或隱含的期望。此外，GPT-4.5 還表現出了更強的審美直覺和創造力，它擅長幫助寫作和設計。

比如「在考試失敗後，正在經歷一段艱難的時光」，GPT-4.5 能夠給你更擬人的安慰「哎呀，聽到這個訊息我真的很遺憾。考試失敗會讓人感到很艱難和沮喪，但請記住，這只是一個瞬間 —— 並不反映你的身份或能力。想談談發生了什麼，還是你只是需要分散注意力？無論如何，我都在這裡。」。

不過，OpenAI 指出 GPT-4.5 在做出反應之前不會思考，這使得它的優勢與 o1 等推理模型截然不同。因此，與 o1、o3-mini 相比，GPT-4.5 是一種更通用、天然更智慧的模型。

OpenAI 相信推理將成為未來模型的核心能力，而兩種擴充套件方法 —— 預訓練和推理 —— 將相輔相成。隨著 GPT-4.5 等模型透過預訓練變得更加智慧和知識淵博，它們將成為推理和使用工具的代理的更強大的基礎。

從下圖多個基準測試結果，我們可以明顯看到：在 GPQA（科學）、AIME’24（數學）、SWE-Bench Verfied（編碼）等資料集上，GPT-4.5 全面領先於 GPT-4o，但仍然遜色於 o3-mini，尤其是數學和真實程式設計能力。

數字代表最佳內部效能。

擴充套件無監督學習

OpenAI 透過擴充套件兩種互補正規化來提升 AI 能力：無監督學習和推理。

這兩種正規化代表了 AI 智慧的兩個軸向。

其中，擴充套件推理使模型在做出回應之前學會思考併產生思維鏈，從而能夠解決複雜的 STEM（科學、技術、工程和數學）或邏輯問題。例如 OpenAI 的 o1 和 o3‑mini 模型就推動了這一正規化的發展。

另一方面，無監督學習則提高了世界模型的準確性以及直覺能力。

GPT‑4.5 是透過擴大計算和資料規模以及架構和最佳化創新來擴大無監督學習的一個例子。其結果是一個知識面更廣、對世界理解更深入的模型，從而在廣泛的主題上減少了幻覺現象，提高了可靠性。

接下來，我們看看 GPT 在這幾年當中正規化的改變：

2018 年，當問 GPT-1「第一種語言是什麼？」時，GPT-1 只能簡單的重複問題，答案根本沒有參考價值：

2019 年，GPT-2 能進行一些簡短的回答：

GPT-3.5 的回答如下，但並不是最準確的答案：

GPT-4 顯然比其他模型更聰明，但你會明顯感覺到它想讓你知道它有多聰明，只是在列出事實：

最後，我們看一下 GPT-4.5 的答案，可以看出 GPT-4.5 給出了一個很棒的回答。它清晰、簡潔、連貫，而且還很有趣。

API 呼叫和價格

至於 API，所有付費使用者現已可以選擇聊天補全 API、助手 API 和批處理 API 來接入 GPT-4.5 模型，支援函式呼叫、結構化輸出、流式傳輸和系統訊息等主要功能，還支援影像輸入。

測試顯示，GPT-4.5 在寫作輔助、溝通、學習、輔導和頭腦風暴等需要高情商和創造力的應用場景特別有用。在多步驟程式設計和複雜任務自動化等方面也表現出色，看來 OpenAI 是持續押注智慧體了。

GPT-4.5 體量很大，需要大量計算資源，所以 API 價格每 1M token 75 美元，比 GPT-4o 的 2.5 美元暴漲 30 倍。OpenAI 甚至在官方部落格中表示：「因此，GPT-4.5 還無法完全替代 GPT-4o」

考慮到要在支援現有功能和開發未來的模型之間取得平衡，OpenAI 還在評估是否要長期在 API 中提供 GPT-4.5。

大家明顯被 GPT‑4.5 的價格震驚到了，下面這張梗圖說明了一切。

圖源：https://x.com/airesearch12/status/1895215157623889991

OpenAI 已經放出了詳細的 GPT-4.5 系統卡。

系統卡地址：https://cdn.openai.com/gpt-4-5-system-card.pdf

Scaling Law 還在生效

可能比我們期待得更久一些，曾是 OpenAI 和 Tesla AI 團隊重要成員的 Andrej Karpathy 直接寫了一篇「小作文」，表示期待 GPT-4.5 已經約兩年了。

https://x.com/karpathy/status/1895213023238987854

「自從 GPT-4 釋出以來，我一直渴望看到這種升級，因為它能從一個定性的角度來衡量擴大預訓練計算規模所帶來的進步（即大力出奇跡）。」

「每個版本號提升 0.5，大致對應預訓練計算量增長了十倍。」Karpathy 回顧了 Scaling Law 從 GPT-1 到 GPT-4 逐漸生效的過程，雖然相比 GPT-3.5，GPT-4 的進步似乎有些微妙。

「一切似乎都只是在細微之處有所改進：措辭更具創意，對提示詞的細微差別理解得更好，類比更合理，模型也更有趣，對罕見領域的知識和理解有所提升，幻覺現象減少了，整體感覺更好。這就像「水漲船高」，所有方面都提升了大約 20%。」

因此，帶著這種預期，Karpathy 開始測試比 GPT-4 的預訓練計算量增加了 10 倍的 GPT-4.5。在提前體驗過 GPT4.5 時，他再次感受到了從 GPT-3.5 進化到 GPT-4 時那種震撼。

更令人興奮的是，Karpathy 認為 GPT-4.5 依然展示了 Scaling Law 的獨到之處，僅僅透過訓練更大模型就能「免費」獲得模型各方面能力的提升。

Karpathy 判斷 OpenAI 接下來會基於 GPT-4.5 進一步透過強化學習進行訓練，使其具備推理能力。「請注意，GPT-4.5 僅透過預訓練、監督微調和 RLHF 進行了訓練，因此它並不是一個推理模型。因此，在推理至關重要的場景中（如數學、程式設計等），GPT-4.5 的釋出並沒有推動模型能力的提升。」

Karpathy 更期望在非推理密集型任務（更多與情商相關，比如世界知識、創造力、類比能力、整體理解力、幽默感等等）中看到 GPT-4.5 的進步。為此，Karpathy 設計了 5 個好玩的提示詞來測試。

大家如果感興趣，可以去 Karpathy 評論區的輕量級模型競技場上投票，看看 GPT-4.5 的情商是不是更精進了：