OpenAI詐騙?GPT-4.1正式上線ChatGPT,網友實測卻大呼失望


新智元報道  

編輯:編輯部 ZNX
【新智元導讀】GPT-4.1,在ChatGPT中可用了!現在,它不僅在API中開放,Plus、Pro和Team使用者都可以使用。網友們興奮地展開實測後,紛紛吐槽:OpenAI這是詐騙吧,說好的一百萬超長上下文呢?
就在剛剛,OpenAI官宣:GPT-4.1,今天起直接在ChatGPT中可用。
這個模型擅長編碼任務和遵循指令,是o3和o4-mini的絕佳替代品。
一個月前,GPT-4.1剛推出的時候,僅透過API向開發者開放。而現在,它在ChatGPT中就直接可用了。
其中,Plus、Pro和Team使用者可以透過模型選擇器中的「更多模型」下拉選單訪問GPT-4.1。企業版和教育版使用者將在未來幾周內獲得訪問許可權。
OpenAI表示,他們還將在ChatGPT中為所有使用者引入GPT-4.1 mini來取代GPT-4o mini。
由於超長的上下文能力,現在你可以將整段程式碼放到GPT-4.1中進行分析。
GPT-4.1和GPT-4.1 mini都已經通過了OpenAI的最新標準安全評估。
在以下兩項評估中,GPT-4.1均排名前列。
  • not_unsafe:根據OpenAI政策和模型規範,檢查模型是否未產生不安全的輸出。
  • not_overrefuse:檢查模型是否遵循良性請求。
幻覺評估以及指令遵循方面,GPT-4.1也均表現優秀;但在越獄評估方面表現不佳。
左右滑動檢視

GPT-4.1,比GPT-4.5還好?
這次放出GPT-4.1,也算響應群眾的呼聲。
早在4月底,就有使用者抱怨說:GPT-4.1簡直是自己最喜歡的OpenAI模型,可惜在ChatGPT中並不能使用。
他確定地說:使用體驗比GPT-4.5還要好!
不斷有開發者現身說法,表示:除了GPT-4.1的早期版本Quasar Alpha之外,它也是自己測試過的最好的編碼模型!
不斷有人表示,GPT-4.1,絕對是一個被低估的模型。
就在上個月,OpenAI專為開發者推出了GPT-4.1系列新模型:GPT-4.1、GPT-4.1 mini和GPT-4.1 nano。
它們均擁有最高100萬Token的超大上下文視窗,在程式碼、指令跟隨等核心能力上全面超越GPT-4o及GPT-4o mini,並且知識截止日期也已更新至2024年6月。

實測:龐大程式碼任務順利完成
既然很多ChatGPT使用者都能用上GPT-4.1了,現在全網已經湧出了不少實測。
比如沃頓商學院教授Ethan Mollick,就用一道考遍了各大模型的景點難題來考驗GPT-4.1。
「請建立一段我可以直接貼上到p5.js中的程式碼,它要以驚人的巧思震撼我,彷彿是未來某艘星艦控制面板的呈現。」
GPT-4.1的表現,可是相當優秀。
另一位開發者實測後發現,GPT-4.1實在令人驚喜!
當時,他正在處理一個程式碼量非常龐大的任務,系統自動選擇的模型根本無法處理,完全沒有生成任何內容。
結果讓GPT-4.1上場後,它不僅比預設模型更快,還準確地完成了任務。
甚至,它還給了一個額外的驚喜:竟然還把整個檔案中沒用到的程式碼都清理掉了。
透過實測發現,GPT-4.1在程式碼生成速度方面達到了新的高度。
比如讓GPT-4.1生成一個部落格首頁,在幾秒鐘之內就完成了輸出。
再比如,讓他用python寫一個地球飛往火星的動畫,幾乎就是在一瞬間,GPT-4.1就完成了任務的輸出。
結果看起來還行,這只是第一輪互動的結果,能夠感受到GPT-4.1的速度是得到根本性的提升。
再挑戰一下,讓給GPT-4.1用動畫來解釋一下量子糾纏。
初步來看,GPT-4.1還是「領會」到了什麼是量子糾纏
對於推理問題,GPT-4.1表現的也非常優秀。比如多步驟的年齡計算問題,GPT-4.1的求解邏輯非常嚴謹。
面對一些逆向思考、腦筋急轉彎之類的問題,GPT-4.1也能快速完成推理,當然面對這個問題得出的答案倒是非常有趣。

網友吐槽:沒有1M上下文版本,令人失望!
但試用GPT-4.1後,許多網友表示:太失望了!
雖然OpenAI釋出了GPT-4.1,卻沒有包含100萬上下文視窗的API版本。
本來大家最希望在ChatGPT中使用GPT-4.1,就是因為想要超長的上下文視窗。
現在,只能期望GPT-5能提供一個超長的上下文視窗了。
的確,不斷有人發現,ChatGPT(Pro)中的GPT-4.1,最大上下文長度似乎僅為128k token,跟API中的100萬token相差甚遠。
也就是說,OpenAI並沒有在GPT-4.1中提高限制。
總之,真的讓人很失望。看來還是得用Gemini。
也有網友發現了「華點」:自己嘗試執行他們在直播演示中用來展示 ChatGPT 4.1的提示詞,但網頁版無法執行成功,不過在API Playground中嘗試後卻執行成功了。
也有人說,自己剛剛氛圍程式設計了一個使用GPT-4.1的AI助手,因為這個模型僅透過API提供,今天,ChatGPT中就能用了。
不過,他還是會用自己的助手,因為使用者介面比ChatGPT更好。

其實,OpenAI此前已經放出GPT-4.1的prompt指南,總結了一系列內部測試中得出的重要prompt技巧。
想實測的小夥伴,可以參考這篇用起來了。
參考資料:
  https://x.com/gdb/status/1922727473164227001
  https://x.com/OpenAIDevs/status/1922709921772036164


相關文章