
時間先倒回一年前,2024年5月,OpenAI釋出多模態語言模型 GPT-4o,可處理文字、音訊和影像的任意組合輸入,並生成相應輸出。其多模態能力被認為是 OpenAI 發展道路的里程碑。
今天,OpenAI 釋出 GPT-4.1,它的進化版終於到來了。
當所有人都在猜 OpenRouter 平臺上的神秘模型 Optimus Alpha 是否是個開源大模型、o3、o4-mini哪個會先到來時,OpenAI 今天把 GPT-4.1 釋出了,這是個首先面向 API 開發使用者的大模型。

GPT-4.1,in the API,下一代進化版
總的來看,OpenAI 本次釋出的是一個系列:GPT-4.1、GPT-4.1 mini、GPT-4.1 nano,在指令遵循和編碼上,相對於 GPT-4o 得到了更大的改進,更大的上下文視窗(高達 1M 個token)。
同時值得注意的是,4.1 只對 API 開發者使用者開放。
但也並不是像大家預想的那樣是一個革命性的突破。

GPT-4.1 相比於 GPT-4o 有了更大的提升,Mini 和 Nano 則注重速度和更低的成本。

在 SWE-bench(軟體工程基準測試,程式碼理解、除錯和生成等複雜任務)上的驗證準確率(Verified Accuracy),GPT-4.1 系列中,GPT-4.1 的準確率(55%)遠高於 GPT-4.1 mini(24%)和 GPT-4o mini(9%),甚至高出了GPT-4o 20 個百分點。
模型現在探索程式碼庫、完成任務、生成能跑還能透過測試的程式碼,能力提升了很多。

GPT-4.1 在前端編碼上明顯比 GPT-4o 強,能做出功能更好、介面更漂亮的 Web 應用。官方給了一個建立卡片介面的示例:
Prompt: Make a flashcard web application. The user should be able to create flashcards, search through their existing flashcards, review flashcards, and see statistics on flashcards reviewed. Preload ten cards containing a Hindi word or phrase and its English translation. Review interface: In the review interface, clicking or pressing Space should flip the card with a smooth 3-D animation to reveal the translation. Pressing the arrow keys should navigate through cards. Search interface: The search bar should dynamically provide a list of results as the user types in a query. Statistics interface: The stats page should show a graph of the number of cards the user has reviewed, and the percentage they have gotten correct. Create cards interface: The create cards page should allow the user to specify the front and back of a flashcard and add to the user's collection. Each of these interfaces should be accessible in the sidebar. Generate a single page React app (put all styles inline).

在指令跟隨上,GPT-4.1 也有不俗的表現。

GPT-4.1 模型在處理長文字時的能力有了比較大的提升,通俗點來說,就是它能在很長的文字中精準找到關鍵資訊。
“在所有位置和所有上下文長度下都能準確檢索”
這意味著,GPT-4.1 不僅能找到資訊,還能理解資訊的上下文,判斷它對任務是否有用。

在 OpenAI 公開的長文字上下文理解基準測試「MRCR」中,GPT-4.1(以藍色標識)是幾乎唯一能夠在 token 數量增加時仍維持高精度的模型。
在 512k token 甚至是 1024k token 的超長文字場景下,GPT-4.1 依然能實現接近 50% 的精度,這表現確實不俗。

長上下文效能在多模態場景中也很關鍵,比如處理長影片。
在 Video-MME(長無字幕)測試中,模型需要根據 30-60 分鐘的無字幕影片回答多選題。
GPT-4.1 表現拿下 72.0% 的得分,超過 GPT-4o 的 65.3%,創下最先進的效能。

從定價角度看,GPT-4.1 nano 或為 OpenAI 迄今釋出的最具成本效益且速度最快的模型之一。根據定價資訊,其輸入價格為 0.10 美元/100 萬 token,快取輸入為 0.03 美元/100 萬 token,輸出價格為 0.40 美元/100 萬 token。
反觀 GPT-4o:輸入 2.5 – 3 美元/100 萬 token,輸出 10 美元/100 萬 token。

OpenAI 的 GPT-4.1 現已對大多數接入 API 的 AI 程式設計廠商可用,比如:Copilot、WindSurf、Cursor。
這一新的旗艦模型,已在 API 中提供給所有開發者級別(1、2、3、4、5)。
在產品釋出會上,OpenAI 的主持人也大方了一回,把“最便宜,最快速,最智慧”的 GPT 4.1 全面免費( 7 天),接下來也會迎來一大波打折季。
與之相對的是 GPT-4.5-Preview 將在三個月後被棄用,於 2025 年 7 月 14 日從 API 中移除。

OpenAI 何時能放一個真正的開源大模型?
不過,即便 GPT-4.1 各版本的價格全面比其前身要低一些的同時,其本質屬性仍非開源。
大家在DeepSeek百日劇變後,開始真正地期待 OpenAI 何時能放一個真正的開源大模型?
DeepSeek 的動作不僅讓大家看到了開源模型的潛力,也把整個行業的競爭推到了白熱化。過去,OpenAI 一直靠著閉源的 ChatGPT 系列在市場上呼風喚雨。
但現在風向變了——閉源就是比開源強的定論早已煙消雲散,開源的透明性、靈活性和社群驅動的快速迭代成了新寵。
使用者們,尤其是開發者跟企業,越來越想要一個透明、價效比高的模型,而不是隻能用 API 調來調去的“黑盒子”。
李飛飛合著的《2025年人工智慧指數報告》(Artificial Intelligence Index Report 2025)中,寫道:
開源模型已經“夠好”,閉源不再是唯一選擇,Chatbot Arena 榜單上,閉源模型的領先優勢僅剩 1.7%。
OpenAI 現在開源的壓力挺大的,原因大概有這麼幾個:
-
對手:DeepSeek R2 快釋出了,Sam Altman 也在訪談中承認,OpenAI 在開源上起步晚了點。
-
使用者:當開源模型、小模型的流行度飆增時,一些做AI硬體、有隱私需求的企業與使用者,已經開始表現出了他們強烈的青睞。當用戶開始用腳投票時,再開源可能就晚了。
-
社群影響力:DeepSeek和Qwen已經印證了開源模型能夠依靠社群一起搞,更新快。
-
市場:Anthropic、Cohere 這些公司在開源上並沒有閒著的打算。
總之,競爭、需求、社群、法規、市場這堆事兒都推著 OpenAI 往開源走。

現在全網都在盯著 OpenAI,看他們到底啥時候能把這個“真正的開源大模型”掏出來。
OpenAI 是會直接放大招,還是再搞一波營銷?
不管怎樣,當OpenAI的開源大模型問世,AI領域內的初創企業們將會再一次如沐甘霖。OpenAI 的入場,意味著開源已然成為 AI 大模型研發企業社會價值的“再評判標準”,無論是主動選擇還是被市場推動。
OpenAI 終於需要開始思考如何響應 DeepSeek、Qwen、Meta、Mistral 等等廠商所引爆的開源潮,我們也終將看到這股潮水流向何方。
