GPT-4.5釋出！OpenAI史上最大最貴也可能是最慢那個，全網都在罵大街啦

作者 | 燕珊、Tina

今天，GPT-4.5 作為“研究預覽”釋出，OpenAI Pro 訂閱使用者（$200/ 月）以及擁有 API Key 的開發者可以使用。此外，OpenAI 還發布了 GPT-4.5 的系統卡片（system card），但目前還沒有完整的釋出版本。

雖然 OpenAI 官方稱 GPT-4.5 為“迄今知識最豐富的模型”，但同時警告它並非前沿模型，其效能可能不及 o1 或 o3-mini。

GPT-4.5 是一個“龐大且昂貴的模型”，GPU 不夠使了。

最新、最大，但不前沿

OpenAI 方面表示，GPT-4.5 在寫作能力、世界知識以及個性化最佳化方面均有所增強。並且，使用者與 GPT-4.5 互動的體驗將更加自然，該模型在識別模式、建立關聯方面表現更出色，使其在寫作、程式設計和解決實際問題等任務上更加得心應手。

“GPT-4.5 不是前沿模型，但它是 OpenAI 迄今最大規模的 LLM，在計算效率方面相比 GPT-4 提升了 10 倍以上。”OpenAI 在一份事先洩露的公告檔案中寫道。“與先前的推理版本相比，它未引入 7 項全新的前沿能力，並且在大多數準備評估中，其表現低於 o1、o3-mini 及深度研究模型。”後來，OpenAI 在更新後的官方文件中刪掉了這些內容。

OpenAI 透露，GPT-4.5 採用了新的監督技術，並結合了傳統方法，如監督微調（SFT）和人類反饋強化學習（RLHF），這些方法與 GPT-4o 的訓練方式類似。儘管 GPT-4.5 仍然存在一定侷限，但 OpenAI 表示，相比 GPT-4o，其幻覺現象已顯著減少，甚至略低於 o1 模型。

從目前的情況來看，GPT-4.5 的大部分核心特性與 GPT-4o 相同：

具備 128,000 的上下文視窗
支援相同型別的輸入（文字和圖片）
訓練資料的截止日期仍然是 2023 年 10 月

目前這款大模型的 API 呼叫價格非常貴：輸入 100 萬個 token 需要 75 美元，輸出 100 萬個 token 需要 150 美元！相比之下，o1 的價格是 15 美元 /60 美元，而 GPT-4o 僅為 2.50 美元 /10 美元。

GPT-4.5 將率先向 Pro 使用者開放，並計劃於下週推廣至 Plus 和 Team 級別使用者，隨後逐步向企業和教育使用者開放。此外，該模型現已登陸微軟 Azure AI Foundry 平臺，與 Stability、Cohere 及微軟的其他新模型共同提供服務。

GPT-4.5 有哪些提升？

根據 OpenAI 的部落格，GPT-4.5 結合了更深層次的世界理解能力和增強的協作能力，使其能更自然地整合思想，在更具溫度和直覺性的對話中，更好地適應人類的協作需求。此外，它在理解人類意圖、解讀微妙線索或隱含期望方面更加細膩，並具備更高的 “情商（EQ）”。在美學直覺和創造力方面也表現更優，特別是在寫作和設計方面更為出色。

OpenAI 展示了一張 GPT-4.5 與 GPT-4o 之間的勝率對比圖，顯示在不同類別的查詢中，GPT-4.5 的勝率在 56.8% ~ 63.2% 之間：

日常查詢（Everyday queries）：57.0%
專業查詢（Professional queries）：63.2%
創造性智慧（Creative intelligence）：56.8%

此外，GPT-4.5 在 SimpleQA（簡單問答）任務上的幻覺率（hallucination rate）為 37.1%，相比 GPT-4o（61.8%）和 o3-mini（80.3%）有明顯改善，但仍略遜於 o1（44%）。在程式設計任務的基準測試中，其表現與 o3-mini 相當。

在 Aider 的多語言程式設計基準測試（polyglot coding benchmark）中，根據網友 Paul Gauthier 的報告， GPT-4.5 的得分為 45%，低於 DeepSeek V3（48%）、Sonnet 3.7（無思考模式 60%，有思考模式 65%）、o3-mini（60.4%），但大幅領先 GPT-4o（23.1%）。

有趣的是，OpenAI 自己似乎對這款模型的前景並沒有太大信心：

GPT-4.5 是一個非常龐大且計算資源密集的模型，因此比 GPT-4o 更昂貴，且並不能替代 GPT-4o。基於此，我們正在評估是否長期在 API 中提供它，以平衡當前能力支援與未來模型的構建。

有網友測試了它的繪圖能力，要求它 “生成一張鵜鶘騎腳踏車的 SVG”，結果如下：

此外，API 訪問速度相當慢。完整生成該 SVG 響應花了 112 秒，動畫展示了 Token 返回的緩慢過程。

OpenAI 的研究科學家 Rapha Gontijo Lopes 稱其為“（可能是）全球最大的模型”——顯然，大模型的問題就是比小模型慢得多！

我們（可能）訓練了全球最大規模的模型！我們相信大模型自有其獨特的“氣息”，迫不及待想讓大家來感受一下。

Andrej Karpathy 觀點：沒有明顯提升

Andrej Karpathy 也釋出了一些關於 GPT-4.5 的觀察。他指出，自 GPT-4 釋出以來，他一直期待著這一版本的推出，因為它可以作為一個定性衡量標準，展示大預訓練計算量（即訓練更大的模型）所能帶來的改進幅度。

在 OpenAI 的版本體系中，每提升 0.5 代表 10 倍的預訓練計算量。回顧過去的發展歷程：

GPT-1 幾乎無法生成連貫的文字；
GPT-2 仍顯得有些混亂，像個玩具；
GPT-2.5 被直接跳過，進入 GPT-3，這才變得更有趣；
GPT-3.5 跨越了一個關鍵門檻，足以作為產品釋出，並引發了 OpenAI 的 “ChatGPT 時刻”；
GPT-4 的提升同樣顯而易見，但整體感覺更微妙。

GPT-4 像是一場“水漲船高”的提升，所有方面都提升了大約 20%。但 GPT-4.5 提升幅度並不算顯著，儘管訓練計算量是 GPT-4 的 10 倍，Andrej Karpathy 指出：

[…] 現在測試 GPT-4.5，我的感覺和兩年前一模一樣——它確實有所提升，也很棒，但又很難具體指出到底哪裡有突破性提升。

需要注意的是，GPT-4.5 僅經過了預訓練、監督微調（Supervised Finetuning）和 RLHF（人類反饋強化學習），但並未進行深度推理訓練。因此，它在數學、程式碼等依賴推理能力的領域並沒有顯著提升。

可以推測，OpenAI 接下來可能會在 GPT-4.5 之上進行強化學習訓練，以提升其推理能力，從而進一步擴充套件其在數學、程式設計等領域的表現。

這與一些網友的看法一致。Eli Lifland 認為，如果他對 GPT-4.5 的初步評估成立，那麼他需要拉長對 AI 發展的預期時間線。相比 4o，GPT-4.5 並沒有顯著提升，尤其是在程式設計方面，甚至不如 Sonnet。然而，它的成本卻比 4o 高出 15 倍，比 Sonnet 3.7 高出 10 到 25 倍，這讓他感到困惑。