深夜突襲!OpenAI的AI程式設計師上線,人類僅需點按鈕

OpenAI最強程式設計智慧體Codex上線。
作者 |  李水青
編輯 |  心緣
智東西5月17日報道,昨夜,OpenAI推出一款基於雲的軟體工程Agent(智慧體)——Codex的預覽版。
Codex可並行處理多項任務,例如程式設計、解答程式碼庫相關問題、修復錯誤以及提交拉取請求以供稽核等,在雲上執行並預載入使用者程式碼庫。
Codex由codex-1模型提供支援。codex-1是OpenAI o3針對軟體工程最佳化後的版本。目前,Codex已面向ChatGPT Pro、Team和Enterprise使用者上線,即將面向Plus使用者上線。
OpenAI同步推出codex-1的精簡版本,基於o4-mini專為輕量級開源編碼Agent“Codex CLI”而打造,API定價為1.5美元/100萬 tokens輸入, 6美元/100萬tokens輸出,即時快取打七五折。
體驗地址:
https://chatgpt.com/codex
01.
自己寫程式碼提交更改
跑一次1-30分鐘
現在,使用者可以透過ChatGPT的側邊欄訪問Codex,透過輸入提示並點選“程式碼(Code)”按鈕下達程式設計任務,也可以點選“Ask(提問)”向Codex詢問有關程式碼庫的問題。每個任務都在預載入了使用者程式碼庫的獨立隔離環境中獨立處理。
Codex可以讀取和編輯檔案,以及執行包括測試工具、型別檢查器等在內的命令。任務完成通常需要1-30分鐘,具體取決於複雜程度,使用者可以即時監控Codex的進度。
Codex完成任務後,會在其環境中提交更改。透過引用終端日誌和測試輸出,Codex來提供其操作的可驗證證據,讓使用者可以追蹤任務完成過程中的每個步驟。
使用者可以檢視結果、請求進一步修訂、提交GitHub拉取請求,或直接將更改整合到本地環境中。在產品中,使用者可以配置Codex環境,使其儘可能與實際開發環境匹配。
Codex可以透過放置在使用者程式碼庫中的AGENTS.md檔案進行引導。這些文字檔案類似於README.md,使用者可以在其中告知Codex如何導航程式碼庫、執行哪些命令進行測試以及如何最好地遵循專案的標準實踐。與人類開發人員一樣,Codex在配置好開發環境、可靠的測試設定和清晰的文件後,效能最佳。
在編碼評估和內部基準測試中,即使沒有AGENTS.md檔案或自定義程式碼生成器,codex-1也表現出強勁的效能。
23個無法在OpenAI內部基礎架構上執行的SWE-Bench Verified樣本被排除在外。codex-1的測試設定最大上下文長度為192k tokens,推理難度為中等,這也是目前產品中可用的設定。
02.
報錯自動告知使用者,過程可檢測
在安全和透明度方面,使用者可以透過引用、終端日誌和測試結果來檢查Codex的工作。
當不確定或面臨測試失敗時,Codex會明確地告知這些問題,使使用者能夠就如何繼續進行做出正確決策。
訓練codex-1的主要目標,是讓它的輸出與人類的程式設計偏好和標準更接近。
如下圖所示,與OpenAI o3模型相比,codex-1始終能夠生成更清晰的補丁,可供立即進行人工稽核並整合到標準工作流程中。
為了平衡安全性和實用性,Codex經過了訓練,能夠識別並精準拒絕旨在開發惡意軟體的請求,同時清晰區分並支援合法任務;還增強了政策框架,並納入了嚴格的安全評估。
Codex完全在雲端安全隔離的容器中執行。
在任務執行期間,網際網路訪問被停用,Agent的互動僅限於透過GitHub程式碼庫明確提供的程式碼以及使用者透過安裝指令碼配置的預安裝項。Agent無法訪問外部網站、API或其他服務。
03.
Pro使用者可免費體驗
API收費1.5美元/100萬 tokens輸入
上個月,我們推出了Codex CLI,一款在終端中執行的輕量級開源編碼Agent。它將o3和o4-mini等模型功能引入到使用者的本地工作流程中。
今天,OpenAI還發布了codex-1的精簡版本,這是專為Codex CLI使用而設計的o4-mini版本。
這個新模型支援CLI中更快的工作流程,並針對低延遲程式碼問答和編輯進行了最佳化,同時保留了指令遵循和樣式方面的相同優勢。它現在是Codex CLI中的預設模型,並在API中以codex-mini-latest的形式提供。
使用ChatGPT登入Codex CLI的Plus和Pro使用者,今天晚些時候即可開始兌換價值5美元和50美元的免費API積分,有效期為30天。
對於使用codex-mini-latest構建的開發人員,該模型可在Responses API上使用,價格為1.5美元/100萬 tokens(輸入), 6美元/100萬 tokens(輸出),享受75%的即時緩存摺扣。
OpenAI的技術團隊已開始將Codex納入其日常工具包。
工程師們最常使用它來解除安裝那些重複且範圍明確的任務,例如重構、重新命名和編寫測試。它同樣適用於構建新功能、連線元件、修復錯誤以及起草文件。
在釋出之前,OpenAI還與一小群外部測試人員合作。
比如,思科正在探索Codex如何幫助其工程團隊更快地將想法付諸實踐,並向OpenAI團隊提供反饋;Temporal⁠使用Codex加速功能開發、除錯問題、編寫和執行測試以及重構大型程式碼庫等。
根據早期經驗,OpenAI建議同時將範圍明確的任務分配給多個Agent,並嘗試不同型別的任務和提示,以有效地探索模型的功能。
04.
結語:Codex仍處早期階段
未來或成主流
OpenAI坦言,Codex的開發仍處於早期階段。作為研究預覽版,它目前缺少一些功能,例如用於前端工作的影像輸入,以及在Agent工作時對其進行方向修正的功能。此外委託給遠端Agent比互動式編輯耗時更長,都需要時間改進。
這僅僅是一個開始,可以預測,Codex在ChatGPT中引入的非同步多Agent工作流將成為工程師編寫高質量程式碼的主流方式,即時配對和任務委託兩種互動模式將逐漸融合。
(本文系網易新聞•網易號特色內容激勵計劃簽約賬號【智東西】原創內容,未經賬號授權,禁止隨意轉載。)


相關文章