OpenAI很看好！首個SWE-1模型釋出，軟體開發或將提速99％

新智元報道

編輯：定慧

【新智元導讀】Windsurf釋出首個前沿模型SWE-1，AI程式設計領域風起雲湧，目標是將開發效率提升99%。SWE-1不僅能寫程式碼，更能理解並協助整個軟體工程流程。核心創新在於「流動感知」系統，即AI與使用者共享操作時間線，實現高效協作。

Windsurf首秀終於來了！

在Cursor火爆全網，OpenAI宣佈30億美元重金收購Windsurf後，Windsurf不甘寂寞，終於出手！

Windsurf釋出首個前沿模型SWE-1，目標是將軟體開發提速99%！

SWE-1不只是一個「會寫程式碼」的模型，而是一個理解、參與、並協助整個工程過程的協作夥伴。

目前這個系列包含三個模型：

SWE-1：具備與Claude 3.5 Sonnet類似的工具呼叫推理能力，但執行成本更低。在推廣期內，所有付費使用者可免費使用。
SWE-1-lite：一個更小但質量更高的模型，全面取代Cascade Base，對所有使用者（包括免費使用者）開放。
SWE-1-mini：更小、更快，專為Windsurf Tab中的低延遲被動體驗而設計，適用於所有使用者。

剛剛，SWE-1已經上線Windsurf，且處於免費使用階段。

AI程式設計發展「快閃」

近幾年，「會寫程式碼」的模型取得了巨大進步，已經能從簡單的自動補全發展到一次性構建出完整的小型應用。

但這種能力仍然存在明顯的上限：

其一，軟體開發不僅僅是寫程式碼。

開發者要做的事情遠不止編碼，還要操作終端、獲取知識、除錯產品、理解使用者反饋等。因此需要的是更全面的模型，能覆蓋整個開發流程。

其二，工程過程是跨階段的、持續變化的。

目前主流的基礎模型仍然是基於「程式碼能否編譯」和「是否透過單元測試」來訓練的。但現實中，這只是更大工程任務中的一小部分。

真正需要的是能處理「尚未完成的狀態」、理解模糊目標的模型。

否則，即使模型寫出了能執行的功能，後續維護與擴充套件性可能會非常差。

因此，僅僅提高「寫程式碼」的能力，無法真正提升整個工程效率。需要打造的是支援完整軟體工程流程的模型——簡稱SWE模型。

SWE-1的開發過程

SWE-1的開發靈感來自廣受歡迎的Windsurf編輯器，構建了全新的資料結構（共享時間線）和訓練方法，能夠理解未完成的狀態、長週期任務以及多種互動介面。

其初衷是在資源有限的情況下，透過這種方法做出一流效能的模型。

SWE-1是這個目標的第一個驗證成果。

在整體表現上，SWE-1接近最前沿的基礎模型，在多個維度上超過了所有非前沿模型和開源對手。可以透過離線評估與線上實測兩種方式進行驗證。

離線評估

評估將SWE-1與Anthropic系列（Cascade中使用最頻繁的模型之一）以及Deepseek、Qwen等主流開源模型對比，主要有兩個基準測試：

會話式SWE任務基準

從一個正在進行中的Cascade會話中擷取，任務尚未完成。評估模型如何響應使用者的下一步請求，打分標準綜合考慮幫助程度、效率、正確性以及目標檔案編輯的準確率。這項測試關注模型在「人機協作」環境中的表現。

端到端SWE任務基準

從會話一開始就評估模型是否能完全獨立解決問題，並透過一組單元測試。得分基於測試透過率和專家打分。這項測試衡量模型自主完成任務的能力。

評估結果表明，SWE-1在這些任務上接近頂級實驗室的前沿模型，遠超中等體量和開源的對手。雖然還不是絕對領先，但非常有潛力。

線上實測（生產實驗）

Windsurf有大量使用者，因此也透過盲測實驗評估真實使用中的表現。

Windsurf將使用者分組，分別使用不同模型，在不告知模型型別的前提下觀察行為和效果。

Windsurf主要看兩個指標：

每位使用者每天接受的程式碼行數

即Cascade編寫、使用者實際接受並保留的程式碼行數，反映模型的實際幫助程度、響應質量和使用者粘性。

Cascade程式碼貢獻率

對於被Cascade修改過的檔案，模型所做的程式碼改動所佔比例。這是一個反映模型「主動性」以及「使用者信任程度」的指標。

SWE-1專為Cascade場景設計和最佳化，因此在這些指標上表現幾乎是行業領先，效果優於所有非前沿模型。

其他模型分析

你可能在上面的圖表中注意到SWE-1-lite，這是SWE-1的中型版本，使用相同訓練方式，在非前沿模型中表現最佳，現已取代Cascade Base，向所有使用者開放。

Windsurf還開發了SWE-1-mini，體積更小，速度更快，適用於Windsurf Tab這種對延遲要求極高的被動預測場景。

需要說明的是，這只是一個起點。

Windsurf不僅希望趕上最前沿實驗室的水平，最終目標是全面超越它們。

Windsurf堅信自己已經具備了實現這個目標的引擎，並將持續加大投入。

流動感知系統（Flow-Aware System）

Windsurf提到SWE-1的靈感來源於Windsurf編輯器。

關鍵在於Windsurf獨特的設計理念：流動感知（Flow Awareness）。

什麼是流動感知？

Windsurf打造的Windsurf編輯器實現了使用者與AI的「共識時間線」：AI的每一步使用者都能看到並干預，反過來，AI也能理解並跟進使用者的行為。

這種「共享時間線」的感知能力，Windsurf稱之為Flow Awareness（流動感知），也因此Windsurf一直把這種人機協作的體驗稱為「AI flows」。

為什麼流動感知很重要？

因為短時間內，沒有模型能完全獨立完成所有開發任務。

流動感知允許模型和人類之間「自然交接」：AI做一部分，使用者校正，AI再繼續，形成順暢銜接。

藉助共享時間線，Windsurf可以持續追蹤當前模型的能力邊界，觀察哪些任務需要使用者介入、哪些能完全自動完成。

這是SWE-1能快速成長為當前水平的關鍵原因之一。

共享時間線在Windsurf中的演進

構建共享時間線是Windsurf許多功能背後的核心理念：

初代Cascade就支援「你在編輯器改完內容後輸入continue，AI就能繼續理解你改了什麼」——這是對編輯器的感知。
後來Windsurf加入了終端輸出感知——AI能理解你執行命令時出現的錯誤。
Wave 4中加入了「預覽」功能——AI開始理解你看到的前端元件和錯誤。
Wave 5和 Wave 6中，Tab增加了對終端命令、剪貼簿內容、IDE搜尋內容等的感知。

這不是一堆隨機新功能，而是Windsurf構建「最全面軟體工程時間線」的一部分。

即便使用的是通用模型，只要Windsurf記錄和利用好了這些上下文資訊，AI的表現就會大幅提升。

而現在Windsurf有了自研的SWE系列模型，這個正反饋迴圈將真正開始加速：模型能更好地理解時間線並參與其中更多部分。

接下來會發生什麼？

SWE-1只是開始。它是由一個小而專注的團隊打造的，利用Windsurf在產品和基礎設施方面的優勢，展示了Windsurf完全有能力打造接近最前沿的模型。

未來，Windsurf將持續改進SWE系列模型，在保證低成本的同時不斷提升效能，讓開發者能用Windsurf構建更大、更強的軟體專案。

隨著SWE-1的釋出和OpenAI對Windsurf的收購，AI程式設計工具正迎來一個新的時代。

從簡單的程式碼補全到全面的工程協作，AI正在深刻改變軟體開發的方式。

對於開發者來說，這是一個充滿機遇和挑戰的時代，如何利用這些新工具提升開發效率，將成為他們需要思考的重要問題。

參考資料：

https://windsurf.com/blog/windsurf-wave-9-swe-1

dignews.cc

OpenAI很看好！首個SWE-1模型釋出，軟體開發或將提速99％

新智元報道

相關文章

剛剛，OpenAI釋出GPT-4.1！吊打GPT-4.5，14萬/月的博士級AI曝光

OpenAI又推“全能模”GPT-4.1，B端市場福音

OpenAI為何豪擲30億美元收購Windsurf？

GPT-4.1深夜亮相|在閉源堡壘崩塌前夜？GPT-4o終於迎來了它的接班人

Claude掙錢強於o1！OpenAI開源百萬美元編碼基準，檢驗大模型鈔能力

剛剛曝光，OpenAI收購AI程式設計黑馬Windsurf

有了一天漲萬星的開源專案Codex，OpenAI為何仍砸30億美元重金收購Windsurf？

217億收購Windsurf，轉型“公益公司”，OpenAI更務實了

170個員工，賣了218億

OpenAI釋出大模型現實世界軟體工程基準測試SWE-Lancer