CodeAgent都用過了嗎,能打幾分?

OSCHINA
↑點選藍字 關注我們
OSCHINA 編輯部【OSC 有問必答】欄目,聚焦開發者提出的實際問題,邀請行業專家、技術大咖或資深開發者進行深度剖析和解答,人話版呈現開發者們最關心的問題。
歡迎各位開發者說出你最關心的技術難題,也歡迎資深開發er、行業專家、學者大咖們自薦!
交流可新增微信:JunoHsu1122
近兩年在大模型技術的催化下,各種 AI 程式設計工具相繼登場,用過的開發者可能會有一個感受 —— 它們像是一個 “超級補全工具”—— 你敲幾個字母,它幫你補全程式碼。這也是過去 AI 程式設計工具被使用最多的功能。
不過,今年的程式設計工具似乎又有了一個大的升級,不僅擅長續寫,還能自己規劃任務、除錯程式碼、甚至獨立完成一個簡單專案。這就是 Code Agent,程式碼智慧體。

從“補全”到“自主”:Code Agent 是什麼?

傳統 AI 程式設計就像一本高階詞典:你輸入關鍵詞,它給出建議,但每一步都需要人類主導。比如你想寫一個網頁登入功能,它會幫你補全程式碼片段,但整體架構設計、錯誤除錯還得你自己來。
Code Agent 則更像一個全棧工程師:你只需要告訴它 “開發一個人臉識別的登入系統”,它就會自己拆解任務 —— 呼叫攝像頭介面、整合人臉識別演算法、處理異常情況,甚至生成測試用例。整個過程完全自主,還能根據執行結果動態調整方案。核心區別在於,傳統 AI 程式設計是被動響應,依賴人類指令。Code Agent 則是主動規劃,像人類一樣分解任務、迭代最佳化,甚至懂得 “查漏補缺”。
實際演示更為直觀,比如同樣在 Comate 中,Chat 模式下,輸入 “幫我生成一個俄羅斯方塊遊戲”,輸出的是建立這個遊戲的步驟和一些核心程式碼展示。但是在 Zulu 智慧體的模式下,它可以自動建立檔案,完成編碼,並生成一個網頁版本的遊戲連結,如果想進行調整,也只需要在對話方塊內輸入 “加快方塊的下落速度” 等修改指令。最終,Zulu 模式可以直接給出一個終端執行的跳轉連結,一鍵進入剛剛建立好的遊戲介面。
左圖為 chat 模式,右圖為 zulu 模式
思考及執行步驟:
1、建立專案設計文件 PLAN.md—— 專案規劃,用來明確目標、功能模組和技術選型
2、建立 index.html 檔案 —— 網頁的入口,負責結構,搭建遊戲的基本骨架
3、建立 style.css 檔案 —— 處理樣式,讓遊戲看起來更美觀,佈局合理
4、建立 game.js 檔案 —— 戲的核心邏輯所在,處理遊戲規則、使用者輸入、圖形渲染等
5、補充 game.js 的核心功能 —— 具體說明每個功能的必要性
6、檢查專案檔案結構 —— 驗證專案完整性、驗證遊戲功能完整性
7、開發完成
8、一鍵跳轉,執行終端命令開啟遊戲
基於已經開發的專案,想給遊戲換個皮膚,zulu 會先檢視現有遊戲的實現內容,瞭解當前專案狀態,檢視修改:
1、檢視 HTML 檔案內容
2、檢視 CSS 檔案內容
3、更新 CSS 檔案內容
4、更新 HTML 檔案內容新增標題和說明
5、更新遊戲邏輯新增視覺效果
6、啟動遊戲進行驗證
5 月 7 日,通義靈碼宣佈全面支援 Qwen3,上線了程式設計智慧體。
同樣在智慧問答模式下,它只能生成程式碼,無法直接建立應用。切換智慧體模式,讓它幫我建立一個俄羅斯方塊遊戲,前面還很順利,跳轉到遊戲頁面,沒有方塊。報給通義之後,它進行了兩輪自動檢查修復,還是沒成,接下來需要手動修復問題。(博主到這裡就放棄了,歡迎各位開發 er 們投稿曬一曬你們使用各種 AI 程式設計工具的成功 or 失敗的案例,有獎互動)
投稿流程:
  1. 登陸 OSCHINA 賬號,發表部落格
  2. 將部落格連結貼到本篇文章評論區

Agentic 模式:Code Agent 的“超能力”從哪來?

“Agentic(智慧體化)” 是 Code Agent 的靈魂。2024 年 3 月,吳恩達在一個人工智慧峰會上提到,最讓他興奮的技術趨勢就是 Agentic AI。這種新的工作流程讓大模型不再是被動接受指令,然後直接給出一個結果,而是像人一樣有一個完整的 “思考” 的過程,可以透過研究、規劃、修改等方式,將複雜任務拆解為多個步驟,透過迴圈迭代逐步最佳化結果,與人類解決問題的思維模式更為接近。
Agentic AI 模式適用於複雜任務,有四大設計模式:
  • 反思(Reflection):讓 AI 在輸出結果後,自行思考結果中是否有錯誤或者需要改進的地方。比如在編寫程式碼時,透過引入審查員角色來改進程式碼質量。
  • 工具呼叫(Tool Use):大語言模型可以發起 API 請求,進行函式呼叫,執行具體任務。
  • 規劃(Planning):AI 為複雜任務設計執行計劃。
  • 多智慧體協作(Multi-Agent Collaboration):多個 AI 角色分工協作,共同完成任務。
Agentic AI 延伸至 Code 上,它的優勢體現在三個維度:一是自主思考,使用者透過自然語言輸出需求,Code Agent 可以直接理解理解需求,最終輸出完整程式碼;二是動態除錯,AI 自己可以當 “測試工程師”,如果程式碼報錯,Code Agent 通常不會卡住,而是像程式設計師一樣檢視錯誤資訊,自動修正程式碼;三是全域性視角,可以實現理解整個程式碼庫,傳統 AI 只能看到當前檔案,而 Code Agent 可以整合系統上下文,如版本控制記錄、API 文件、專案架構等,理解程式碼之間的關聯。
實際上,Agentic 模式下的 code agent 也可以看作是一個多 Agent 的編排系統,核心在於動態分工與智慧協同:通常主 Agent 進行任規劃與分配,然後排程程式碼生成、測試、部署等專家 Agent,形成 "規劃專家拆解任務→工具專家呼叫 API→執行專家執行程式碼" 的協作鏈。
此外,透過建立跨 Agent 的上下文知識庫,記錄程式碼修改意圖、版本差異等元資料,使前端程式碼生成 Agent 與測試 Agent 保持認知同步,避免傳統單 Agent 系統常見的上下文割裂問題。這種架構在 Codeium 的 Windsurf IDE 中已實現,其 Flows 引擎能同時協調 8 個專業 Agent 完成需求分析到部署的全生命週期管理。
因此,Agentic 模式是變成了一個完全自驅的模式,給定需求後它會想辦法實現使用者目標,大模型在其中也有主觀能動性。比如在個人開發者的開源專案 Auto-Coder 裡,會提供一些工具,比如閱讀、搜尋檔案、修改檔案的工具,把這些工具的使用說明告訴大模型,大模型會根據輸入的需求拆解目標,計劃每一步需要呼叫哪個工具。同時,大模型也會據工具呼叫結果更新系統狀態,相當於邊走邊看,持續決策直至滿足以下任一終止條件:
  • 模型判定需求已實現
  • 達到預設執行閾值
  • 模型請求人工干預
Agentic 模式下的程式設計助手被寄予厚望,Cognition 創始人 & CEO Scott Wu 在一檔播客中暢談了大熱的 AI 程式設計師 Devin 的構建過程,以及 AI 程式設計對整個軟體工程行業未來的趨勢性影響。他提到,“我們一直在採用智慧體化(Agentic)的方法,我認為最大的躍進在於非同步與同步的區別,很多程式碼助手使用語言模型對程式碼進行自動補全,這節省了工程師的一部分時間,整體上將工程效率提升了 10% 到 20%。但 Devin 能夠承擔整個編碼任務,它的提升是 10 倍,而不是 10%。使用者可以將任務交給 Devin,然後繼續處理自己的事情,他們可以同時執行其他 Devin,完成不同任務。”

市場新寵,“全員”上線 Agent 版本

Transformer 的自迴歸機制是根據前文 token 生成下一個 token,而程式碼恰恰是極具結構化的語言,可以說讓大模型來寫程式碼,天生專業對口。
近期,AI 程式設計資本市場的火爆也代表的業界對於其前景的看好。根據彭博社 5 月 6 日上午報道,OpenAI 已同意以約 30 億美元(約合人民幣 218 億)收購 AI 程式設計助手開發商 Windsurf。據《金融時報》援引知情人士訊息,Cursor 的開發公司 Anysphere 完成了一輪規模達 9 億美元,推動估值達到約 90 億美元,約合 650 億元人民幣,較年初暴漲逾 3 倍。
根據 Spherical Insights 的預測,至 2032 年,全球 AI 編碼工具市場規模將超過 295 億美元。種種訊息顯示,AI 程式設計正經歷技術與商業的雙重質變。
在這種背景下,海內外各大程式設計產品也在最近半年內,密集上線 Agent 版本,邁向 Agentic AI。
Cursor 在去年底上線了 Agent 版本,今年 4 月新版本中已經支援直接從對話生成規則 /Generate Cursor Rules。Cursor Rules 用於自定義 AI 在 Cursor 中的行為,可以視為對大型語言模型(LLM)的指令或系統提示,也就是面向 Cursor 的 “提示詞”。
支援從對話生成規則後,可以讓 AI 將你與 AI 之間來回的對話歸納成規則。這樣 Agent 便可以透過分析當前對話中的需求、程式碼片段及專案結構,自動生成符合語義的規則模板。便於下次使用時,提取歷史對話的上下文環境。例如,當用戶討論 “Vue 3 元件命名規範” 時,Agent 能提取關鍵詞並生成對應的 PascalCase 命名規則。
號稱一直採用 Agentic 方法的 Devin 在去年 12 月正式上線,以每月 500 美元的訂閱價格銷售。理論上它可以無需人類參與自行編寫程式碼,並完成通常分配給人類開發人員的整個專案。而且,使用者可以用多個 Devin Agent 並行完成不同的程式設計專案。
今年 1 月,字節跳動旗下 Trae 新增 AI 程式設計功能併發布海外版 Trae,支援 Agent 模式下的全流程開發,能感知 IDE 環境變化並即時調整程式碼,比如自動同步前後端介面。
今年 2 月, Copilot 上線了名為 "Project Padawan" 的自主 Agent。Padawan 將允許直接將問題分配給 Copilot,並進行全面測試,能夠完成多種開發任務,如程式碼生成與審查、程式碼庫重構或最佳化、自動化測試或流水線等流程、在架構設計錯誤排查及最佳實踐上提供指導等等。
3 月,百度旗下的文心快碼宣佈推出 Comate Zulu 版本並正式開放公測。Baidu Comate 研發工程師陳一言曾在 3 月源創會上表示,Zulu 的核心價值是能將陌生專案的結構、流程圖、資料流和關鍵功能模組清晰解析,並標註對應程式碼位置。例如想新增自動測試功能時,無需手動查詢檔案,只需提出需求,Zulu 會自動定位修改位置並逐步實現。Zulu 還有 MVP 版本,對於程式碼修改可能引發的連鎖影響,雖偶有需求理解偏差或報錯,但透過少量人工校準即可解決。
與傳統 AI 智慧體對比,傳統方案需在 Prompt 中預設完整流程,如資料分析步驟,若流程出錯需人工干預。而 Zulu 採用自主規劃策略,透過工具呼叫與環境互動:例如讓 IDE 讀取檔案內容,若結果與預期不符,則呼叫規劃工具制定新方案,再呼叫工具修改程式碼;若發現修改錯誤,可重新呼叫工具修正,這種動態迴圈機制實現了靈活的問題解決路徑。
5 月 7 日,通義靈碼宣佈全面支援 Qwen3,上線了程式設計智慧體,具備自主決策、環境感知、工具使用等能力,可以根據開發者的訴求,使用工程檢索、檔案編輯、終端等工具,端到端地完成編碼任務。同時支援開發者配置自己的 MCP 工具,更加貼合開發者工作流程,並整合魔搭 MCP 廣場,開發者也可以一鍵下載 MCP 服務。
當前 AI 程式設計賽道的競爭格局,儼然重現了去年 "百模大戰" 的硝煙瀰漫 —— 家家都練出了令人側目的肌肉,然而今日的現象級產品,很可能在下一輪技術迭代中因功能創新滯後而淡出視野。當技術迭代速度從以年計算壓縮至以周為單位,如何在使用者心智中建立技術代差優勢,構建真正的使用者粘性,正成為所有參賽者的生死命題。
從技術應用的實際效果看,短期內,Code Agent 更像 “程式設計加速器”,它能顯著提升常規功能模組的開發效率,但在處理複雜系統架構設計、關鍵業務邏輯驗證,以及大型歷史專案的程式碼重構時,仍需要人類工程師的深度參與並最終決策。這既是當前技術的客觀侷限,也是保證軟體工程可靠性的必要防線。
但是長期來看,程式設計必將從 “手工勞動” 邁向 “智慧生產”,顛覆開發正規化的顛覆。
正如 Cursor 母公司 Anthropic 執行長 Dario Amodei 在今年 3 月的一次公開發言中所說:“未來 3 到 6 個月,AI 將編寫 90% 的程式碼,而在 12 個月內,幾乎所有的程式碼都可能由 AI 編寫。” 這場始於程式碼補全的技術革命,終將重塑整個軟體產業的底層邏輯。
致謝:
本文的寫作是受到 Auto-Coder 開源專案和 3 月份源創會 zulu 亮相的啟發。
Auto-code 是開發者祝海林個人的一個開源專案,可以幫助開發者完成多種模式下的輔助程式設計,我們也跟作者聊了一下,可以看看開發者視角視角中的 Code Agent:對話 Auto-coder 作者,「Code Agent」和去年的 AI 程式設計比有什麼不一樣?
體驗 Auto-Coder:https://pypistats.org/packages/auto-coder
Zulu 是文心快碼 Baidu Comate 編碼輔助工具,中的智慧體,可以進行程式碼問答等互動,感興趣的讀者可以檢視源創會上關於 Zulu 的演講:《AI 編碼工具也有自己的智慧體了》

https://my.oschina.net/u/4489239/blog/18027688

體驗 Comate Zulu:https://comate.baidu.com/zh/competitorKeywords?track=SEM2025zulucp&bd_vid=10828110607619385952
END
熱門文章
分享在看點贊~Orz

相關文章