GPT-4.1深夜登場,中科大校友領隊|【經緯低調分享】

2025年4月15日,OpenA釋出GPT-4.1系列模型,這一系列模型在程式設計、指令跟隨和長上下文處理能力上實現了全面飛躍,標誌著自然語言處理技術的又一次重大突破。
GPT-4.1系列包括三個版本:GPT-4.1、GPT-4.1 mini和GPT-4.1 nano。這些模型均支援最高100萬Token的超大上下文視窗,遠超前代模型的12.8萬Token,極大地提升了處理複雜任務的能力。其中,GPT-4.1 nano作為OpenAI首款nano模型,以最小、最快、最便宜的姿態強勢登場,其效能在多項基準測試中完勝GPT-4o mini,展現出極高的價效比。
GPT-4.1系列的推出也意味著GPT-4.5將在三個月後停用。OpenAI表示,GPT-4.5原本作為研究預覽版推出,目的是探索大規模、計算密集型的LLM。雖然即將下架,但其具備的創造力、寫作質量和幽默感等特點將被融入未來的API模型中。
GPT-4.1系列的開發由中科大校友Jiahui Yu領銜,他曾在Google DeepMind等頂尖機構實習,擁有豐富的研究經驗。此次釋出的GPT-4.1系列不僅在技術上取得了突破,也為開發者提供了更強大的工具。但這款新品的使用效果真的會像釋出會宣傳的那般嗎?它就如何推動人工智慧在更多領域的應用和發展?以下,Enjoy:
本文授權轉載自公眾號:新智元

就在剛剛,OpenAI專為開發者重磅推出了三款全新模型:GPT-4.1GPT-4.1 miniGPT-4.1 nano!
它們均擁有最高100萬Token的超大上下文視窗,在程式碼、指令跟隨等核心能力上全面超越GPT-4o及GPT-4o mini,並且知識截止日期也已更新至2024年6月。
值得注意的是,GPT‑4.1系列將僅透過API提供,並已向所有開發者開放。
GPT-4.1 nano是OpenAI首個nano模型,也是他們目前可用模型中最快、最便宜的一款。
別看它體積不大,效能一點不弱:MMLU得分80.1%,GPQA得分50.3%,Aider多語言編碼基準9.8%,完勝GPT-4o mini!
GPT-4.1 mini在多項基準測試超越GPT-4o,速度快一倍的同時成本驟降83%,效率拉滿!
作為其中旗艦模型的GPT‑4.1更是強的可怕:
  • 最強編碼:GPT‑4.1在SWE-bench Verified上的得分為54.6%,比GPT‑4o提高了21.4%,比GPT‑4.5提高了26.6%。
  • 指令跟隨:在Scale的MultiChallenge⁠上,GPT‑4.1的得分為38.3%,比GPT‑4o提高了10.5%。
  • 長上下文:在Video-MME上,GPT‑4.1取得了新的SOTA——在長影片、無字幕類別中得分72.0%,比GPT‑4o提高了6.7%。
自此,謎語人奧特曼口中的「quasar」也終於得到了確認——就是GPT-4.1!
而隨著能力更強、成本延遲更低的GPT-4.1的推出,一直以來都飽受爭議的GPT‑4.5 Preview也將在3個月後(7月14日)從API中下架。
對此OpenAI表示,GPT‑4.5原本就是作為研究預覽版推出的,目的是探索和實驗一個大規模、計算密集型的LLM。
雖然模型即將停用,但OpenAI會把開發者喜愛的創造力、寫作質量、幽默感等特點,繼續融入未來的API模型中。
01
現場Demo實測
首先,當然就是程式設計能力。
在這個demo中,研究者要求GPT-4.1做一個線上抽認卡網頁應用,提出了許多相當具體的要求。比如點選抽認卡時,要出現3D動畫。
對於這個任務,GPT-4o完成得是這樣的。
相比之下,GPT-4.1就完成得十分流暢了,無論是在顏色,還是在3D動畫上。
注意,從頭到尾,只需要一個prompt,就能得到一個完整的應用程式!
下面是一個OpenAI的Playground,在演示中,研究者要求GPT-4.1生成一個單一的Python檔案程式碼應用,在右側模擬使用者查詢,這個網站可以接收大型文字檔案、回答相關問題。
可以看到,模型產生了數百行程式碼。研究者將這些程式碼實際執行後,發現效果出人意料的好。
僅僅一個提示,它就建立了這個網站。
接下來,是大海撈針的展示。
研究者上傳了檔案——NASA自1995年8月以來的伺服器請求響應日誌檔案,在這個檔案中,左側是向NASA伺服器發出請求的客戶端名稱,這是一個包含大量日誌行的長檔案,左側大概有450000個token的內容。
在OpenAI以前的模型上,是不可能使用這個檔案的。
這裡,研究者偷偷添加了一行實際上不是HTTP請求響應的內容,這支堆疊中的小「針」,很難發覺。
最終,GPT-4.1成功了!
研究者經過確認,這一行的確在他們上傳的日誌檔案中。
OpenAI特意強調,在實踐中非常重要的一點,就是API開發者是如何提示模型的。
在這個任務中,GPT-4.1的任務是日誌分析員助手。研究者告訴它輸入的資料以及使用者的查詢該如何構建。
接下來還有一些規則,比如模型只用回答日誌資料內容相關的問題,問題應該始終在查詢標籤內格式化,如果其中一項不真實請回復錯誤訊息等等。
接下來,就是GPT-4.1展示的時候了。
研究者詢問:fnal.gov發出了多少請求?模型拒絕了,因為它沒有在查詢標籤內格式化。
而如果在查詢標籤內發出同樣的請求,它就可以找到日誌檔案中的兩個引用了。
這樣,開發者就可以明確讓模型做到「不做某事」,這是開發過程中一個極其有意義的關鍵細節——遵循負面指令
02
定價
價格方面,GPT‑4.1雖然比GPT‑4o便宜了26%,但輸入、輸出依然高達每百萬token 2美元和8美元。
GPT‑4.1 nano是OpenAI迄今為止價格最低、速度最快的模型,輸入、輸出分別為0.1美元和0.4美元。
對於重複使用相同上下文的查詢,這些新模型的提示詞緩存摺扣已從之前的50%提高至75%。
最後,長上下文請求已包含在標準的按Token計費內,無額外費用。
03
程式設計:OpenAI最強模型誕生
相對GPT-4o、o1、o3-mini等模型,GPT-4.1在程式設計上都提升了一大截。
在各種程式設計任務上明顯比GPT-4o強得多,比如用智慧體解決程式設計問題、前端開發、減少不必要的程式碼修改、嚴格跟隨不同的格式、保持工具使用的一致性等等。
在SWE-bench Verified這個反映真實軟體工程能力的測試中,GPT-4.1完成了54.6%的任務,而GPT-4o(2024-11-20)只有33.2%。
這說明GPT-4.1在瀏覽程式碼庫、完成任務以及生成既能執行又能透過測試的程式碼方面有了很大提升。
對於SWE-bench Verified,模型會接收一個程式碼倉庫和問題描述,並需要生成一個補丁來解決該問題。其效能高度依賴於所使用的提示詞和工具
對於希望編輯大型檔案的API開發者而言,GPT-4.1在處理各種格式的程式碼差異(code diffs)時,可靠性要高得多。
Aider多語言差異基準測試⁠,不僅衡量了模型跨多種程式語言的編碼能力,也衡量了其以完整檔案格式和不同格式生成程式碼變更的能力。
在這裡,GPT‑4.1的得分是GPT‑4o的2倍以上,甚至比GPT‑4.5高出8%。
如此一來,開發者便無需重寫整個檔案,而是讓模型輸出變更的行即可,從而大幅節省成本並降低延遲。
對於傾向於重寫整個檔案的開發者,GPT‑4.1的輸出Token上限也提高到了32,768個Token(GPT‑4o為16,384個)。其中,可以使用Predicted Outputs功能來降低完整檔案重寫的延遲。
在Aider的多語言基準測試中,模型透過編輯原始檔的方式解決來自Exercism⁠的編碼練習,並允許一次重試。「whole」格式要求模型重寫整個檔案,這可能速度較慢且成本較高。「diff」格式則要求模型編寫一系列搜尋/替換塊
此外,GPT‑4.1在前端編碼方面相較於GPT‑4o也有顯著改進,能夠創建出功能更完善、視覺上更美觀的Web應用。
在直接對比評估中,人類評委有80%的情況更傾向於選擇GPT‑4.1生成的網站,而非GPT‑4o。
04
指令跟隨:現已進入第一梯隊
在指令跟隨方面,OpenAI特地開發了一套內部的評估體系,用以追蹤模型在多個維度及以下幾個關鍵指令跟隨類別上的表現:
  • 格式跟隨(Format following):按要求的自定義格式(如XML、YAML、Markdown等)生成響應。
  • 否定性指令(Negative instructions):避免執行特定行為。(示例:「不要讓使用者聯絡支援人員」)
  • 有序指令(Ordered instructions):按給定順序執行一系列操作。(示例:「先詢問使用者姓名,再詢問其郵箱地址」)
  • 內容要求(Content requirements):確保輸出內容包含特定資訊。(示例:「撰寫營養計劃時,必須包含蛋白質克數」)
  • 排序(Ranking):按特定方式排列輸出內容。(示例:「按人口數量對結果進行排序」)
  • 識別知識邊界(Overconfidence):在無法獲取所請求資訊或請求超出指定範疇時,回答「我不知道」或類似表述。(示例:「如果你不知道答案,請提供支援團隊的聯絡郵箱」)
這些類別是基於開發者反饋確定的,反映了他們認為最為相關且重要的指令跟隨維度。其中,每個類別都將提示詞按難度分為了簡單、中等和困難三類。
在處理困難提示詞方面,GPT-4o和GPT-4o mini只有不到30%的正確率,而新系列中最小的nano都達到了32%。
與此同時,GPT-4.1則達到了49%,幾乎追平了o1和o3-mini,但和GPT-4.5還有一段距離。
內部指令跟隨能力評估是基於真實的開發者用例和反饋,涵蓋了不同複雜程度的任務,並結合了關於格式、詳細程度、長度等方面的指令要求
對許多開發者而言,多輪指令跟隨至關重要,這意味著模型需要在對話深入時保持連貫性,並記住使用者先前告知的資訊。
而GPT-4.1能夠更好地從對話歷史訊息中提取資訊,從而實現更自然的互動。
在Scale AI推出的MultiChallenge基準測試中,GPT‑4.1雖然不及o1和GPT-4.5,但已經可以追上o3-mini,並且比GPT‑4o提升了10.5%之多。
在MultiChallenge基準測試中,模型面臨的挑戰是在多輪對話裡,能夠正確使用來自先前訊息(對話上文)的四種類型的資訊
此外,GPT‑4.1在IFEval上的得分為87.4%,而GPT‑4o為81.0%。IFEval使用包含可驗證指令的提示詞(例如,指定內容長度或避免使用特定術語/格式)。
在IFEval中,模型必須生成符合各種指令的答案
更強的指令跟隨能力不僅能提升現有應用的可靠性,也能實現過去因模型可靠性不足而難以實現的新應用。
早期測試人員反饋,GPT‑4.1可能更傾向於跟隨字面指令,因此OpenAI建議在設計提示詞時力求明確和具體。
05
長上下文:大海撈針直接滿分
長上下文理解能力是法律、編碼、客戶支援及諸多其他領域應用的一項關鍵能力。
GPT‑4.1、GPT‑4.1 mini和GPT‑4.1 nano不僅可處理最多100萬Token的上下文,而且能夠可靠地處理其中的內容,並忽略干擾資訊。
100萬Token是什麼概念?類比來說,其包含的內容量可以達到整個React程式碼庫8倍以上!
比起GPT‑4o的12.8萬Token,可以說是提升十分巨大了。
下面,演示了GPT‑4.1在上下文視窗不同位置檢索隱藏的小段資訊(即「針」)的能力。
在長達100萬 Token的各種上下文長度和所有位置點上,GPT‑4.1都能持續準確地檢索到「針」。這意味著它能有效提取當前任務所需的相關細節,無論這些細節位於輸入的哪個部分。
不過,現實世界的任務很少像檢索單個、明顯的「針」那樣簡單直接。
在「大海撈針」(Needle in a Haystack)評估中,GPT‑4.1、GPT‑4.1 mini和GPT‑4.1 nano均能在長達100萬Token的上下文中的所有位置成功檢索到「針」。
OpenAI-MRCR
在實際應用時,使用者通常需要模型能夠檢索並理解多條資訊,並且理解這些資訊片段之間的相互關聯。
為此,OpenAI開源了一項測試模型在長上下文中查詢並區分多個隱藏「針」的新基準:OpenAI-MRCR(Multi-Round Coreference)。
該評估包含使用者與助手之間的多輪合成對話,在對話中使用者要求模型就某個主題進行創作,例如「寫一首關於貘的詩」或「寫一篇關於石頭的部落格文章」。
接著,在上下文中隨機插入2個、4個或8個內容相似但例項不同的請求。
模型必須準確檢索出與使用者指定的某一特定例項相對應的響應(例如,「請給我第三首關於貘的詩」)。
這項任務的挑戰在於,這些相似請求與上下文的其他部分非常接近——模型很容易被細微差異誤導,比如將關於貘的短篇故事誤認為詩歌,或將關於青蛙的詩歌誤認為關於貘的詩歌。
當上下文達到GPT‑4o極限的12.8萬Token時,GPT‑4.1的表現明顯更優;即使上下文長度擴充套件到100萬Token,它依然能保持強勁的效能。
在OpenAI-MRCR中,模型必須回答一個問題,該問題涉及在分散注意力的內容中區分2、4或8個使用者提示
Graphwalks
Graphwalks是一個用於評估多跳長上下文推理的資料集。
許多面向開發者的長上下文用例需要在上下文中進行多次邏輯跳躍,例如在編寫程式碼時在多個檔案之間切換,或在回答複雜的法律問題時進行文件的交叉引用。
模型(甚至人類)理論上可以透過單次遍歷或通讀上下文來解決OpenAI-MRCR問題,但Graphwalks的設計旨在要求跨上下文多個位置進行推理,並且無法透過順序處理來解決。
Graphwalks用一個由十六進位制雜湊值組成的有向圖填充上下文視窗,然後要求模型從圖中的一個隨機節點開始執行廣度優先搜尋(BFS)。接著,要求模型返回特定深度的所有節點。
GPT‑4.1在此基準測試中達到了61.7%的準確率,與o1的效能持平,並輕鬆擊敗了GPT‑4o。
在Graphwalks中,要求模型從一個大型圖中的隨機節點進行廣度優先搜尋
06
視覺:影像理解超越GPT-4o稱霸
GPT‑4.1系列在影像理解方面能力極強,特別是GPT‑4.1 mini實現了顯著飛躍,在影像基準測試中其表現常常優於GPT‑4o。
在MMMU基準測試中,模型需回答包含圖表、示意圖、地圖等內容的問題
在MathVista⁠基準測試中,模型需解決視覺數學任務
在CharXiv-Reasoning基準測試中,模型需回答關於科學論文中圖表的問題
長上下文處理能力對於多模態用例(例如處理長影片)也至關重要。
在Video-MME(長影片,無字幕)基準測試中,模型需要根據時長30-60分鐘且無字幕的影片來回答多項選擇題。
這裡,GPT‑4.1再次達到了SOTA——得分72.0%,高於GPT‑4o的65.3%。
在Video-MME中,模型根據30-60分鐘長且無字幕的影片回答多項選擇題
07
完整結果
下文完整列出了在學術、程式設計、指令跟隨、長上下文、視覺及函式呼叫評估中的結果。
學術知識
程式設計
指令跟隨
長上下文
視覺
函式呼叫
08
華人領隊
Jiahui Yu
Jiahui Yu目前負責感知(Perception)團隊,研究領域是深度學習和高效能計算。
GPT-4o釋出時,他就是關鍵成員之一。
此前,他曾在Google DeepMind共同負責Gemini多模態專案。
他在微軟亞研院、曠視科技、Adobe Research、Snap Research、Jump Trading、百度研究院、Nvidia Research和Google Brain都有過實習經歷。
他在中國科技大學少年班獲得計算機學士學位。在伊利諾伊大學香檳分校獲得博士學位。
參考資料:
https://openai.com/index/gpt-4-1/
https://x.com/OpenAI


相關文章