OpenAI推出GPT-4.1,撞期智譜Z.ai

GPT 家族再添新成員。GPT-4.1 效能全面超越 GPT-4o,編碼、指令跟蹤及長上下文能力顯著最佳化。
作者丨洪雨欣、梁丙鑑
編輯丨陳彩嫻
就在今天,OpenAI API 中推出了三個新模型:GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano。這些模型的效能全面超越 GPT-4o 和 GPT-4o mini,在編碼和指令跟蹤方面均有顯著提升。除此之外,它們還擁有更大的上下文視窗,支援多達 100 萬個上下文tokens。
GPT-4.1 在 SWE-bench Verified 上的得分為 54.6% ,比 GPT-4o提高了21.4% 比 GPT-4.5 提高了 26.6%,使其成為領先的編碼模型。
在衡量指令遵循能力的標準當中,GPT-4.1 得分為 38.3%,比 GPT-4o 提高了10.5%。
在 Video-MME 多模態長上下文理解的基準中,GPT-4.1 創造了新的先進成果——在長篇無字幕類別中得分為 72.0%,比 GPT-4o 提高了6.7%。
針對模型的最佳化,GPT-4.1 模型系列以更低的成本提供了卓越的效能。這些模型在延遲曲線的每個點上都實現了效能的提升。
同日,智譜開源了其32B/9B 系列 GLM 模型,在程式碼生成、指令遵循等方面與GPT4.1短兵相接。
該批模型涵蓋基座、推理、沉思模型,現已透過全新平臺 Z.ai 免費開放體驗,並同步上線智譜 MaaS 平臺。
此次開源,OpenAI和智譜均幹勁十足。GPT-4.1在程式碼任務、指令遵循、長上下文理解等多項領域均擊敗 GPT-4o。Z.ai 在指令微調和搜尋程式碼上的基準指標上已接近甚至超越 GPT-4o。
1
程式碼生成
GPT-4.1 在各種程式碼任務上都比 GPT-4o 表現得更好,包括代理解決編碼任務、前端編碼、減少無關編輯、遵循差異格式、確保一致的工具使用等等。
在衡量真實世界軟體工程技能的 SWE-bench Verified 測試中,GPT-4.1 完成了 54.6% 的任務,而 GPT-4o 的完成率為 33.2%。這反映了模型在探索程式碼庫、完成任務以及生成可執行並透過測試的程式碼方面的能力有所提升。
對於需要編輯大型檔案的 API 開發者來說,GPT-4.1 在跨多種格式的程式碼差異分析方面更加準確。在Aider 的多語言差異基準測試中,GPT-4.1 的得分是 GPT-4o 的兩倍多,甚至比 GPT-4.5 還高出 8%。OpenAI專門訓練了 GPT-4.1遵循差異格式的能力,開發人員無需重寫整個檔案,從而節省成本和延遲。
GPT-4.1 在前端程式碼方面也比 GPT-4o 有了顯著提升,能夠建立功能更強大、更美觀的 Web 應用。在我們的面對面對比中,付費人工評分員 80% 的評分結果顯示,GPT-4.1 的網站比 GPT-4o 的網站更受歡迎。
除了上述基準測試之外,GPT-4.1 在遵循格式方面表現更佳,準確性更高,並且減少了無關編輯的頻率。在OpenAI的內部評估中,程式碼中的無關編輯從 GPT-4o 的 9% 下降到了 GPT-4.1 的 2%。
2
指令遵循
OpenAI開發了一個內部教學跟蹤評估系統,將每個類別分為簡單、中等和困難提示。GPT-4.1 在困難提示方面的表現尤其優於 GPT-4o。
GPT-4.1 能夠更好地從過往對話中識別資訊,從而實現更自然的對話。在 MultiChallenge 的基準測試中,GPT-4.1 的表現比GPT-4o 提高 10.5%。
GPT-4.1 在 IFEval 上的得分也為 87.4%,而 GPT-4o 的得分為 81.0%。IFEval 使用帶有可驗證指令的提示(例如,指定內容長度或避免使用某些術語或格式)。
智譜的 GLM-Z1-32B-0414 在IFEVAL上也表現優異,以84.5%的分數和GPT o1-mini分庭抗禮。
3
長上下文理解
GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano 最多可以處理 100 萬個上下文tokens,而之前的 GPT-4o 型號最多可以處理 128,000 個。100 萬個tokens相當於整個 React 程式碼庫的 8 個以上副本,因此長上下文非常適合處理大型程式碼庫或大量長文件。
GPT-4.1 能夠準確地處理長達 100 萬個上下文中的資訊。此外,它能比 GPT-4o 更準確地識別相關文字,並忽略長短上下文中的干擾項。長上下文理解是法律、編碼、客戶支援以及許多其他領域應用的關鍵能力。
下圖是 GPT-4.1 檢索位於上下文視窗內各個位置的隱藏資訊(“針”)的能力。GPT-4.1 能夠始終如一地準確檢索所有位置和所有上下文長度的針,最大檢索tokens數可達 100 萬個。無論這些tokens在輸入中的位置如何,它都能有效地提取與當前任務相關的細節。
為了進一步展示資訊理解的能力,OpenAI開源了一個新的評估平臺:OpenAI-MRCR(多輪共指,上下文中發現並區分隱藏的多個針頭的能力)。
GPT-4.1 在上下文長度高達 128K 個 token 時的表現優於 GPT-4o,並且即使長度高達 100 萬個 token 時也能保持強勁的效能。
在 Graphwalks (一個用於評估多跳長上下文推理的資料集)的基準測試中,GPT-4.1 達到了 61.7% 的準確率,與 o1 的效能相當,並輕鬆擊敗了 GPT-4o。
值得注意的是,智譜此番在小模型效能上也有所突破。尺寸僅為9B的GLM-Z1-9B-0414雖然引數量更少,但在數學推理及通用任務上依然表現出色。在AIME的基準測試中,以76.4%的高分擊敗DeepSeek-R1-Distill-Qwen-7B。
4
影像理解
GPT-4.1 系列在影像理解方面非常強大,尤其是 GPT-4.1 mini 代表了重大的飛躍,在影像基準測試中經常擊敗 GPT-4o。
在Video -MME(長篇無字幕)的測試中,模型會根據 30-60 分鐘長的無字幕影片回答多項選擇題。GPT-4.1 的表現達到了最佳水平,得分為 72.0%,高於 GPT-4o 的 65.3%。

5
定價
GPT-4.1 的成本比 GPT-4o 低 26%,而 GPT-4.1 nano 是 OpenAI 迄今為止最便宜、速度最快的模型。除了標準per-token 的成本外,還提供了無需額外付費的長上下文請求。
定價方面,智譜 Z.ai 整體低於GPT4.1。本次上線的基座模型提供GLM-4-Air-250414 和 GLM-4-Flash-250414兩個版本,其中後者完全免費。推理模型分為三個版本,分別滿足不同場景需求:
  • GLM-Z1-AirX(極速版):定位國內最快推理模型,推理速度可達200 tokens/秒,比常規快 8 倍;
  • GLM-Z1-Air(高性價比版):價格僅為DeepSeek-R1 的 1/30,適合高頻呼叫場景;
  • GLM-Z1-Flash(免費版):支援免費使用,旨在進一步降低模型使用門檻。

更多內容,點選下方關注:

未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社群進行轉載!
公眾號轉載請先在「AI科技評論」後臺留言取得授權,轉載時需標註來源並插入本公眾號名片。

//
推薦閱讀

相關文章