OpenAI釋出大模型現實世界軟體工程基準測試SWE-Lancer

作者 | Daniel Dominguez
譯者 | 明知山
策劃 | 丁曉昀
OpenAI 釋出 SWE-Lancer 基準測試,用於評估 AI 大語言模型在現實世界自由職業軟體工程任務中的表現。該基準測試的資料集包含來自 Upwork 的 1400 多個任務,總價值高達 100 萬美元。這些任務既包括獨立的編碼活動,也包括管理決策,複雜程度和報酬各有不同,充分模擬了現實世界中的自由職業場景。
SWE-Lancer 透過嚴格的評估方法來反映軟體工程的經濟價值和複雜性。它採用經過專業工程師驗證的先進的端到端測試方法來評估模型在實際環境中的表現。儘管 AI 大語言模型近期取得了顯著進展,但初步結果顯示,這些模型在應對基準測試中的多數任務時仍然面臨嚴峻挑戰。
基準測試涵蓋了多種任務,如應用程式邏輯開發、UI/UX 設計以及伺服器端邏輯實現,確保能夠對模型能力進行全面的評估。SWE-Lancer 還為研究人員提供了一個統一的 Docker 映象和公共評估拆分,用以促進 AI 模型評估過程中的協作和透明度。
該專案旨在推動對 AI 在軟體工程領域經濟影響的研究,特別是潛在的生產力提升和對勞動力市場的影響。透過將模型效能與貨幣價值聯絡起來,SWE-Lancer 展現了 AI 在軟體工程中的實際影響,並凸顯了持續最佳化 AI 技術的重要性。
在基準測試中表現最好的模型是 Claude 3.5 Sonnet,在獨立編碼任務中的成功率為 26.2%,這表明 AI 能力仍有很大的提升空間。許多模型在需要深度上下文理解或評估多個提案的任務方面表現不佳,這表明未來的模型可能需要更復雜的推理能力。
一些評論表示對 SWE-Lancer 的實際應用表示懷疑,認為可能只對特定群體有吸引力,另一些人則認為這是理解 AI 對軟體工程社會經濟影響的關鍵一步,與行業向 AI 驅動的生產力工具發展的整體趨勢相契合,正如 Gartner 2027 所預測的軟體工程智慧平臺的廣泛採用。
使用者 Alex Bon 表示:
終於有機會讓 AI 證明它也能在零工經濟中生存下來了!
獨立駭客 Jason Leow 則表示:
我喜歡這個發展方向。用全棧問題進行測試,將其與市場價值聯絡起來,這正是日常開發工作所面臨的東西。我一直覺得舊的基準測試有些不太對勁。
SWE-Lancer 為評估 AI 在自由職業軟體工程中的應用提供了一個重要的框架,揭示了 AI 在實際應用中的挑戰與機遇。基準測試的結果凸顯了進一步研究和開發的必要性,以便提升 AI 模型在現實世界軟體工程任務中的表現。
檢視英文原文:
https://www.infoq.com/news/2025/03/openai-swe-benchmark/

宣告:本文為 AI 前線整理,不代表平臺觀點,未經許可禁止轉載。

 會議推薦
AICon 2025 強勢來襲,5 月上海站、6 月北京站,雙城聯動,全覽 AI 技術前沿和行業落地。大會聚焦技術與應用深度融合,匯聚 AI Agent、多模態、場景應用、大模型架構創新、智慧資料基建、AI 產品設計和出海策略等話題。即刻掃碼購票,一同探索 AI 應用邊界!
今日薦文
微軟50 週年慶典,員工當眾怒斥歷任CEO!納德拉也要讓每個人都能成為開發者
用 CUDA,但遭團隊嫌棄?!英偉達早期架構師首次曝光:12 人團隊如何開啟“算力帝國”
比R1快8倍、價格僅3%,智譜新推理模型來襲,能讓免費智慧體自己賺錢!張鵬:Agent 也有Scaling Law
豆包大模型負責人飛書賬號遭停,或因內部糾紛引關注;眾擎機器人CEO炮轟朱嘯虎:快退出宇樹股份;宇樹確認已盈利至少5年 | AI週報
你也「在看」嗎?👇

相關文章