
今天,GPT-4.5 作為“研究預覽”釋出,OpenAI Pro 訂閱使用者($200/ 月)以及擁有 API Key 的開發者可以使用。此外,OpenAI 還發布了 GPT-4.5 的系統卡片(system card),但目前還沒有完整的釋出版本。
雖然 OpenAI 官方稱 GPT-4.5 為“迄今知識最豐富的模型”,但同時警告它並非前沿模型,其效能可能不及 o1 或 o3-mini。

GPT-4.5 是一個“龐大且昂貴的模型”,GPU 不夠使了。
OpenAI 方面表示,GPT-4.5 在寫作能力、世界知識以及個性化最佳化方面均有所增強。並且,使用者與 GPT-4.5 互動的體驗將更加自然,該模型在識別模式、建立關聯方面表現更出色,使其在寫作、程式設計和解決實際問題等任務上更加得心應手。
“GPT-4.5 不是前沿模型,但它是 OpenAI 迄今最大規模的 LLM,在計算效率方面相比 GPT-4 提升了 10 倍以上。”OpenAI 在一份事先洩露的公告檔案中寫道。“與先前的推理版本相比,它未引入 7 項全新的前沿能力,並且在大多數準備評估中,其表現低於 o1、o3-mini 及深度研究模型。”後來,OpenAI 在更新後的官方文件中刪掉了這些內容。
OpenAI 透露,GPT-4.5 採用了新的監督技術,並結合了傳統方法,如監督微調(SFT)和人類反饋強化學習(RLHF),這些方法與 GPT-4o 的訓練方式類似。儘管 GPT-4.5 仍然存在一定侷限,但 OpenAI 表示,相比 GPT-4o,其幻覺現象已顯著減少,甚至略低於 o1 模型。
從目前的情況來看,GPT-4.5 的大部分核心特性與 GPT-4o 相同:
-
具備 128,000 的上下文視窗 -
支援相同型別的輸入(文字和圖片) -
訓練資料的截止日期仍然是 2023 年 10 月
目前這款大模型的 API 呼叫價格非常貴:輸入 100 萬個 token 需要 75 美元,輸出 100 萬個 token 需要 150 美元!相比之下,o1 的價格是 15 美元 /60 美元,而 GPT-4o 僅為 2.50 美元 /10 美元。
GPT-4.5 將率先向 Pro 使用者開放,並計劃於下週推廣至 Plus 和 Team 級別使用者,隨後逐步向企業和教育使用者開放。此外,該模型現已登陸微軟 Azure AI Foundry 平臺,與 Stability、Cohere 及微軟的其他新模型共同提供服務。
根據 OpenAI 的部落格,GPT-4.5 結合了更深層次的世界理解能力和增強的協作能力,使其能更自然地整合思想,在更具溫度和直覺性的對話中,更好地適應人類的協作需求。此外,它在理解人類意圖、解讀微妙線索或隱含期望方面更加細膩,並具備更高的 “情商(EQ)”。在美學直覺和創造力方面也表現更優,特別是在寫作和設計方面更為出色。
OpenAI 展示了一張 GPT-4.5 與 GPT-4o 之間的勝率對比圖,顯示在不同類別的查詢中,GPT-4.5 的勝率在 56.8% ~ 63.2% 之間:
-
日常查詢(Everyday queries):57.0%
-
專業查詢(Professional queries):63.2%
-
創造性智慧(Creative intelligence):56.8%

此外,GPT-4.5 在 SimpleQA(簡單問答)任務上的幻覺率(hallucination rate)為 37.1%,相比 GPT-4o(61.8%)和 o3-mini(80.3%)有明顯改善,但仍略遜於 o1(44%)。在程式設計任務的基準測試中,其表現與 o3-mini 相當。
在 Aider 的多語言程式設計基準測試(polyglot coding benchmark) 中,根據網友 Paul Gauthier 的報告, GPT-4.5 的得分為 45%,低於 DeepSeek V3(48%)、Sonnet 3.7(無思考模式 60%,有思考模式 65%)、o3-mini(60.4%),但大幅領先 GPT-4o(23.1%)。

有趣的是,OpenAI 自己似乎對這款模型的前景並沒有太大信心:
GPT-4.5 是一個非常龐大且計算資源密集的模型,因此比 GPT-4o 更昂貴,且並不能替代 GPT-4o。基於此,我們正在評估是否長期在 API 中提供它,以平衡當前能力支援與未來模型的構建。
有網友測試了它的繪圖能力,要求它 “生成一張鵜鶘騎腳踏車的 SVG”,結果如下:

此外,API 訪問速度相當慢。完整生成該 SVG 響應 花了 112 秒,動畫展示了 Token 返回的緩慢過程。

OpenAI 的 研究科學家 Rapha Gontijo Lopes 稱其為“(可能是)全球最大的模型”——顯然,大模型的問題就是比小模型慢得多!

我們(可能)訓練了全球最大規模的模型!我們相信大模型自有其獨特的“氣息”,迫不及待想讓大家來感受一下。
在 OpenAI 的版本體系中,每提升 0.5 代表 10 倍的預訓練計算量。回顧過去的發展歷程:
-
GPT-1 幾乎無法生成連貫的文字;
-
GPT-2 仍顯得有些混亂,像個玩具;
-
GPT-2.5 被直接跳過,進入 GPT-3,這才變得更有趣;
-
GPT-3.5 跨越了一個關鍵門檻,足以作為產品釋出,並引發了 OpenAI 的 “ChatGPT 時刻”;
-
GPT-4 的提升同樣顯而易見,但整體感覺更微妙。
GPT-4 像是一場“水漲船高”的提升,所有方面都提升了大約 20%。但 GPT-4.5 提升幅度並不算顯著,儘管訓練計算量是 GPT-4 的 10 倍,Andrej Karpathy 指出:
[…] 現在測試 GPT-4.5,我的感覺和兩年前一模一樣——它確實有所提升,也很棒,但又很難具體指出到底哪裡有突破性提升。 需要注意的是,GPT-4.5 僅經過了預訓練、監督微調(Supervised Finetuning)和 RLHF(人類反饋強化學習),但 並未進行深度推理訓練。因此,它在數學、程式碼等依賴推理能力 的領域並沒有顯著提升。 可以推測,OpenAI 接下來可能會在 GPT-4.5 之上進行強化學習訓練,以提升其推理能力,從而進一步擴充套件其在數學、程式設計等領域的表現。
這與一些網友的看法一致。Eli Lifland 認為,如果他對 GPT-4.5 的初步評估成立,那麼他需要拉長對 AI 發展的預期時間線。相比 4o,GPT-4.5 並沒有顯著提升,尤其是在程式設計方面,甚至不如 Sonnet。然而,它的成本卻比 4o 高出 15 倍,比 Sonnet 3.7 高出 10 到 25 倍,這讓他感到困惑。

Gary Marcus 表達則更為直接,他認為 GPT-4.5 基本上沒有實質性突破,而 GPT-5 仍然只是一個幻想。
擴大資料和計算量並不是一條物理法則,過去的推測基本都是真實的。相反,這幾年關於 GPT-5 的各種誇大其詞,並沒有真正實現。有人可能會把問題歸咎於使用者,但事實是,結果並未達到他們的期望。

宣告:本文為 InfoQ 整理,不代表平臺觀點,未經許可禁止轉載。
2 月 11 日至 2 月 27 日,AI 前線影片號將聯合霍太穩影片號帶來 DeepSeek 系列直播,解析 DeepSeek 爆火背後的技術突破、商業化路徑與行業影響。從 純強化學習復現 o1 能力到算力控制,從創新文化到 AI 競爭格局,每場直播都深度解析一個關鍵問題。
📅歡迎掃碼二維碼預約直播,一同探索 DeepSeek 如何引領 AI 領域的創新與未來!
