GPT 家族再添新成員。GPT-4.1 效能全面超越 GPT-4o，編碼、指令跟蹤及長上下文能力顯著最佳化。

作者丨洪雨欣、梁丙鑑

編輯丨陳彩嫻

就在今天，OpenAI API 中推出了三個新模型：GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano。這些模型的效能全面超越 GPT-4o 和 GPT-4o mini，在編碼和指令跟蹤方面均有顯著提升。除此之外，它們還擁有更大的上下文視窗，支援多達 100 萬個上下文tokens。

GPT-4.1 在 SWE-bench Verified 上的得分為 54.6% ，比 GPT-4o提高了21.4% ，比 GPT-4.5 提高了 26.6%，使其成為領先的編碼模型。

在衡量指令遵循能力的標準當中，GPT-4.1 得分為 38.3%，比 GPT-4o 提高了10.5%。

在 Video-MME 多模態長上下文理解的基準中，GPT-4.1 創造了新的先進成果——在長篇無字幕類別中得分為 72.0%，比 GPT-4o 提高了6.7%。

針對模型的最佳化，GPT-4.1 模型系列以更低的成本提供了卓越的效能。這些模型在延遲曲線的每個點上都實現了效能的提升。

同日，智譜開源了其32B/9B 系列 GLM 模型，在程式碼生成、指令遵循等方面與GPT4.1短兵相接。

該批模型涵蓋基座、推理、沉思模型，現已透過全新平臺 Z.ai 免費開放體驗，並同步上線智譜 MaaS 平臺。

此次開源，OpenAI和智譜均幹勁十足。GPT-4.1在程式碼任務、指令遵循、長上下文理解等多項領域均擊敗 GPT-4o。Z.ai 在指令微調和搜尋程式碼上的基準指標上已接近甚至超越 GPT-4o。

程式碼生成

GPT-4.1 在各種程式碼任務上都比 GPT-4o 表現得更好，包括代理解決編碼任務、前端編碼、減少無關編輯、遵循差異格式、確保一致的工具使用等等。

在衡量真實世界軟體工程技能的 SWE-bench Verified 測試中，GPT-4.1 完成了 54.6% 的任務，而 GPT-4o 的完成率為 33.2%。這反映了模型在探索程式碼庫、完成任務以及生成可執行並透過測試的程式碼方面的能力有所提升。

對於需要編輯大型檔案的 API 開發者來說，GPT-4.1 在跨多種格式的程式碼差異分析方面更加準確。在Aider 的多語言差異基準測試中，GPT-4.1 的得分是 GPT-4o 的兩倍多，甚至比 GPT-4.5 還高出 8%。OpenAI專門訓練了 GPT-4.1遵循差異格式的能力，開發人員無需重寫整個檔案，從而節省成本和延遲。

GPT-4.1 在前端程式碼方面也比 GPT-4o 有了顯著提升，能夠建立功能更強大、更美觀的 Web 應用。在我們的面對面對比中，付費人工評分員 80% 的評分結果顯示，GPT-4.1 的網站比 GPT-4o 的網站更受歡迎。

除了上述基準測試之外，GPT-4.1 在遵循格式方面表現更佳，準確性更高，並且減少了無關編輯的頻率。在OpenAI的內部評估中，程式碼中的無關編輯從 GPT-4o 的 9% 下降到了 GPT-4.1 的 2%。

指令遵循

OpenAI開發了一個內部教學跟蹤評估系統，將每個類別分為簡單、中等和困難提示。GPT-4.1 在困難提示方面的表現尤其優於 GPT-4o。

GPT-4.1 能夠更好地從過往對話中識別資訊，從而實現更自然的對話。在 MultiChallenge 的基準測試中，GPT-4.1 的表現比GPT-4o 提高 10.5%。

GPT-4.1 在 IFEval 上的得分也為 87.4%，而 GPT-4o 的得分為 81.0%。IFEval 使用帶有可驗證指令的提示（例如，指定內容長度或避免使用某些術語或格式）。

智譜的 GLM-Z1-32B-0414 在IFEVAL上也表現優異，以84.5%的分數和GPT o1-mini分庭抗禮。

長上下文理解

GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano 最多可以處理 100 萬個上下文tokens，而之前的 GPT-4o 型號最多可以處理 128,000 個。100 萬個tokens相當於整個 React 程式碼庫的 8 個以上副本，因此長上下文非常適合處理大型程式碼庫或大量長文件。

GPT-4.1 能夠準確地處理長達 100 萬個上下文中的資訊。此外，它能比 GPT-4o 更準確地識別相關文字，並忽略長短上下文中的干擾項。長上下文理解是法律、編碼、客戶支援以及許多其他領域應用的關鍵能力。

下圖是 GPT-4.1 檢索位於上下文視窗內各個位置的隱藏資訊（“針”）的能力。GPT-4.1 能夠始終如一地準確檢索所有位置和所有上下文長度的針，最大檢索tokens數可達 100 萬個。無論這些tokens在輸入中的位置如何，它都能有效地提取與當前任務相關的細節。