GPT-4.1淘汰了4.5!全系列百萬上下文,主打一個性價比

4.1與4.5孰大?OpenAI剛剛給出答案:釋出GPT-4.1,比GPT-4.5強的那種。
新模型系列更新,一共帶來三個版本:GPT-4.1,GPT-4.1 mini、GPT-4.1 nano——與通常中杯大杯超大杯的設定不同,這回翻譯過來,是中杯、小杯、超小杯。OpenAI表示,4.1系列是API專供,不過列位非開發者先別急哈,人家也補充了,在ChatGPT裡,4.1的能力將主要透過“融入最新版本的GPT-4o”體現。
能力方面,總結起來4.1系列紙面上最突出的優勢有兩點:
長上下文,3個型號均擁有100萬token上下文視窗;
價效比,用內部老哥的說法就是:現在你可以用4%的價格,暢享GPT-4o模型品質。

OpenAI還表示,GPT-4.1系列會在API裡取代GPT-4.5 Preview,後者將於今年(2025年)7月14日下架。

GPT-4.1:主打價效比

展開來看,OpenAI整體上是把GPT-4.1和GPT-4o拿來對比的。
以延遲為橫軸,以智慧為縱軸,可以看到,GPT-4.1比GPT-4o強了一丟丟,而4.1 mini則超出了4o mini一大截。
定量比較的結果是,編碼方面,GPT-4.1在衡量真實世界軟體工程技能的SWE-bench Verified上得分為54.6%,比GPT-4o的分數提高了21.4%,比GPT-4.5強了26.6%
指令遵循方面,在MultiChallenge基準中,GPT-4.1得分38.3%,而GPT-4o的得分是27.8%
長上下文方面,在多模態長下文理解基準Video-MME上,GPT-4.1重新整理SOTA,在長篇無字幕類別中得分72.0%,比GPT-4o高了6.7%。
值得注意的是,GPT-4.1 mini在多項基準測試中超過了GPT-4o。
比如在智慧評估基準MMLU上,GPT-4.1 mini的得分為87.5%,超過了GPT-4o的85.7%,同時延遲降低一半,成本降低83%
GPT-4.1 nano則被定位為OpenAI“目前速度最快、成本最低”的模型。並且在部分測試中有超出GPT-4o mini的表現。

編碼能力

OpenAI著重強調了GPT-4.1的編碼能力。除了在各種程式設計任務上都超過GPT-4o,OpenAI還演示了其在前端程式設計方面的實際優勢:
能夠建立功能更強大、更美觀的Web應用。
人類評分的結果顯示,在80%的對比測試中,GPT-4.1的網站都比GPT-4o的網站更受歡迎。
比如給出同一段提示詞:
Prompt: Make a flashcard web application. The user should be able to create flashcards, search through their existing flashcards, review flashcards, and see statistics on flashcards reviewed. Preload ten cards containing a Hindi word or phrase and its English translation. Review interface: In the review interface, clicking or pressing Space should flip the card with a smooth 3-D animation to reveal the translation. Pressing the arrow keys should navigate through cards. Search interface: The search bar should dynamically provide a list of results as the user types in a query. Statistics interface: The stats page should show a graph of the number of cards the user has reviewed, and the percentage they have gotten correct. Create cards interface: The create cards page should allow the user to specify the front and back of a flashcard and add to the user’s collection. Each of these interfaces should be accessible in the sidebar. Generate a single page React app (put all styles inline).
GPT-4o生成的網站長這樣:
而4.1的結果明顯更美觀:
手快的網友則已經搞出了大家更想看的——小球測試。
BTW,OpenAI提到,GPT-4.1會在API裡取代GPT-4.5,GPT-4.5 Preview將在3個月後(2025年7月14日)徹底關閉,但這位老哥表示:我還是更喜歡4.5啊啊啊。
不過,老哥也坦承:4.5雖好,但4.1確實便宜太多啦(30倍價差)。

百萬長上下文

再來看一眼長上下文方面,GPT-4.1的具體表現。
大海撈針實驗中,面對100萬token上下文檢索,3個型號均能100%過關。
OpenAI還開源了一個新的評估平臺OpenAI-MRCR,以測試模型檢索和理解多條資訊、並理解資訊之間相互關係的能力。也就是說更接近實際應用中,大家對長上下文的真實需求。
結果如下:

還發布了一個用於評估多跳上下文推理的資料集Graphwalks。所謂多跳,即在長上下文中進行多次邏輯跳躍,比如編寫程式碼時在多個檔案之間跳轉。在這個基準上,GPT-4.1與o1效能相當,輕鬆擊敗了GPT-4o。

價效比仍不如DeepSeek R1

價格方面,相對於自家貴得要命的模型,GPT-4.1系列無疑是便宜的。
尤其是對比要被替代的GPT-4.5 Preview,2刀/百萬tokens vs 75刀/百萬tokens,價格屬於大砍一刀只剩零頭了。
但精明的網友們發現,還是比不上DeepSeek R1:
圖源:x@bongrandp

One More Thing

以上,你覺得GPT-4.1如何?
反正這個命名方式確實是蠻值得吐槽的。
但沒準兒,OpenAI的意思是…4.10>4.5?
至少奧特曼本尊有被說服到(doge)。
他還自嘲了一波:我們能不能在今天夏天之前搞定我們的模型命名?在此之前每個人都可以再花幾個月時間來取消我們(我們活該)。
參考連結:
https://openai.com/index/gpt-4-1/
來源:量子位(QbitAI)
End
巴菲特股東大會考察團火熱報名中
🎉矽谷高創會(SVIEF)始終致力於為企業家、初創者、投資人賦能,重磅推出「巴菲特股東大會考察團」(點選藍字鏈接瞭解更多):
👉 巴菲特股東大會考察團2025巴菲特股東大會考察團:與股神同行,開啟財富新紀元!
聯絡我們>>
|點選關注我們 👇 記得星標|

相關文章