AICoding最全圖譜：Agent將如何顛覆軟體

作者：Cage

Coding 領域的投資在兩個核心變化的趨勢下，底層推理引擎的持續進步和市場空間的變化，因此格外值得我們關注。LLM 作為推理引擎，coding 是最好的應用場景：程式碼的邏輯比自然語言更清晰，執行的結果能由 AI 自動化驗證。因此我們看到從 Sonnet 3.5 到 o1 pro，每一次模型能力的提升都會反映在 coding 能力的提升上，這一領域的應用進步就尤其顯著。

能力的持續進步讓我們期待軟體生產過程中有專業開發者之外的更多使用者參與進來。本次研究對 AI coding 領域的方向和公司進行全覽，研究框架中除了面向 professional（專業，包括企業和獨立）開發者的產品，還有 citizen（小白，泛知識工作者）開發者方向的公司，他們的產品重心有所差異。

面向 professional developer，我們期待的是 coding 能比其他垂直方向更快地從 copilot 進化到 agent，並且兩者共存。現階段Cursor、Windsurf 等產品體驗非常優秀的 copilot 對獨立開發者的工作體驗和生產力已經帶來了巨大提升。而企業中有龐大的 codebase、複雜的 engineering context，以及嚴格的安全合規要求，這些短期之內很難快速解決。因此 agent 會在 testing、review、migration 等具體 use case 上落地，同時通用的 copilot IDE 仍能發揮價值成為 coding agent 的工作環境。

對於 citizen developer，我們期待軟體生產方式有顛覆性的變革，出現新一代產品形態 task engine。AI coding 能使更多知識工作者的長尾需求被實現，生成出 disposable app：隨用隨拋的下一代軟體，每一個 app 不需要滿足大量 DAU，而是針對不同使用者有自己個性化的體驗，其中的內容甚至可以即時生成。UI/UX 互動層面的創新是必要的，互動門檻更低的產品能允許更多使用者表達個性化需求，形成 coding agent 層面的新一代 OS。類比 PC 歷史，現在的產品還在命令列時代，我們期待 AI coding 方向的“GUI 時刻“。

💡 目錄 💡

01 Investment Thesis

02 State of AI coding landscape

03 Open Discussion

01.

Investment Thesis

Coding 領域的投資主要面臨著兩個大變化，底層推理引擎的持續進步和市場空間的變化：

1）Coding 能力是 LLM + RL 正規化下能力進化最快的方向，會是從 copilot 漸進到 agent 的第一個領域。

RL 正規化下，自動化驗證的環境、明確的reward model 是推理能力提升的重要前提。coding 就是最適合符合這個要求的場景，很可能是 LLM 從 copilot 走向 agent 的第一個場景。o1 pro 的釋出再次驗證了這一 thesis。

2）Task engine 會把市場從 5000 萬開發者拓展到 5 億知識工作者，從 professional citizen developers。

專業開發者只有 5000萬，世界上有 99%的人不會寫程式碼。但其實有很多人有個性化的任務需求，適合由軟體來進行規範化。之前軟體行業的試錯成本太高，而 AI 生成式的 task engine 能帶來這樣的很多軟體。

想像下一代的網際網路，使用者在瀏覽器網址框輸入的不再是網址，而是自然語言 prompt，需要的內容就會即時生成渲染出來；下一代的作業系統每次開啟，都會根據使用者近期行為和時間環境得到最適合的內容。這裡可能孕育著 AI 時代 Google 的機會，成為賽博世界的新入口。

以上是我們看好 AI coding 領域投資機會的根本原因，接下來介紹對 AI coding landscape 中興起幾類產品的分類座標系：

• Y 軸定義標準：產品多大程度地需要 human in the loop，上方產品更能端到端完成任務，下方更專注於 empower developer；

• X 軸定義標準：產品的目標使用者的開發能力有多強。左側產品偏向於服務專業開發者，右側偏向於服務沒有程式設計基礎的使用者。

3）Copilot for pro & Agent for citizen 是現在模型能力與產品需求相匹配的領域。

• 左下象限，Copilot for pro dev：

最近口碑優秀的產品 Cursor、Codeium Windsurf 等基本都在這個象限。他們能在 early adopter 開發者圈子獲得了優秀的口碑，對使用者需求的深入理解和 Claude Sonnet 3.5 出色的意圖理解能力在這裡缺一不可。

他們要保持的增長的關鍵問題是，優秀的產品體驗能得到 indie developer 的欣賞，但這對於 enterprise GTM 只是必要條件，而不是充分條件。從產品到企業信任，還有 privacy/compliance 等很多複雜需求。同時最近覺醒開始加速迭代的 Github Copilot 對他們的市場空間也會壓縮。

• 右上象限，Agent for citizen dev：

給普通人的 coding agent 產品形態還沒有固定：幾個 coding 領域的前端deployment 和 web IDE 獨角獸推出了自己的產品，Vercel V0， bolt.new 能智慧地生成前端 web app，Replit agent 可以跟使用者多輪互動生成基礎的軟體；而早期的創業公司則有更創新的產品形態，websim 在模擬即時生成的 chrome，wordware 用類似 notion 的互動使使用者在其產品中創作軟體。

但這個象限的機會可能才剛剛開始，因為目前的產品還拘泥於之前的思路。可以類比施樂實驗室創新 GUI 之前的命令列時代，對大眾使用者的使用門檻很高，停留在 early adopter 圈子。

• 左上象限，Agent for pro dev：

要實現這一願景，現在的模型能力還要繼續提升。歐美有>5家融資規模上億美金的公司在這個領域攻堅，因為 code token 的消耗量級很大，要解決的工程問題也很多。其中最關鍵的問題是企業 codebase context 的問題：

一方面，如何從巨大的 codebase 中做精準的 retrieval 是個難題，在科技大廠中也常常有老工程師離職之後之前的程式碼專案難以理解的問題，AI 理論上能有更長的 context window 但目前理解並搜尋的精確度還不夠；另一方面，enterprise codebase 中包括了大量公司內部的業務邏輯，需要專有資料微調、甚至 on-prem deployment。MS Stanley/Coca Cola 這樣的大型企業 developer 數量是不比 Google、Meta 少的，而他們對 compliance 和 privacy 的要求高於技術本身。

• 右下上限，copilot for citizen dev：

這一個領域已經有比較成熟的解決方案，因此後文的公司 mapping 中不會出現這一象限。之前幾代 low-code/RPA 有不少成功的產品，也有 UIPath 等上市公司和 Retool 等獨角獸公司。但他們都停留在 copilot 階段，其抽象方式只能輔助一部分使用者固定的工作流。

反而 excel 成為了最好的 no-code 產品，幫助大部分知識工作者實現了很多科學計算和統計任務。這是一個有趣的歷史啟示，這一代 AI Coding 產品面對的 "Excel" 是 ChatGPT 這個 5 億 MAU 的產品，如何繞過他們的 user base 和最強模型是創業團隊們要思考和保持迭代的問題。

02.

State of AI coding landscape

根據以上 thesis，我們對整個 AI 程式設計圖景下的創業公司進行了 mapping：

• Copilot for pro：根據開發工作流可以分為 Coding、Testing、Code review 和 Code search。其中核心價值還是集中在入口級的 coding 部分。

• Agent for pro：這個領域有兩類公司，Coding agent 和 coding model 公司。他們之間最大的差異是是否從頭開發模型。前者是基於頂尖 LLM 之上去建立工作流和 agent，而 coding model 類公司則自己從頭開始訓練 coding-specific 模型。其中並不看好後一類，因為在 LLM 公司的主航道上。

• Agent for citizen：這個領域的公司目前還沒有明顯的收斂，我們可以分為三類。第一類是 task engine，為使用者完成任務實現 Prototype 的 Task engine 類公司；第二類是前端網頁生成；第三類是 low-code 類使用“樂高”式元件搭建應用的產品。最終大家的目標可能都是 task engine，只是現在大家選擇了不同的路線 bet on。

Copilot for pro

• Coding 代表公司：Anysphere(Cursor), Codeium, Augment

Product

專注在程式設計體驗的產品可以分為兩類：IDE 和 VSCode extension。兩者有各自的優勢：自己做 IDE 能有完整的產品自由度和使用者資料積累，做 VSCode Extension 則更加敏捷、使用者遷移成本比較低。

Cursor 團隊在這裡的選擇很聰明，透過 fork VSCode 獲得了兩個選擇各自的優勢。Codeium 也在透過 Windsurf 也都在往 IDE 的方向切入，因為 IDE 還是更好的入口級產品，能自己積累資料、有更多 feature 修改的空間，這對於產品構建自己的壁壘至關重要。

Cursor 在使用者體驗上花了很多精力，做到“快”和 next action prediction。這樣使用者的開發過程就是不斷按 Tab，進入很快得到反饋的正迴圈中（快=fun，進入心流）。上個月他們收購 Supermaven，就是把產品體驗中的“快”做到極致；這意味著短期內的重點還在人與 AI 的同步協作，o1 這樣的非同步互動暫時還不在產品主線上。

而 Codeium 團隊從 VSCode extension 開始到 IDE，體現出了和 cursor 團隊思路的區別。Cursor 更強調程式設計體驗和對使用者下一步意圖的識別，Codeium 的新產品 Windsurf 更強調高自動化。他們的 Chat 功能比 Cursor 做得更加完善，很多使用者不用 hands-on code 也能完成基礎的開發。

同時，他們的產品還體現出了更強的對企業級需求更強的理解，支援 on-prem 專有模型和各種compliance協議。這裡就要提到他們在 GTM 策略上的巨大差異。

Market

根據 Sacra 最新報告 Cursor 產品 ARR 已經達到 $65M，也就是大約30萬付費使用者。由於 Cursor 的產品沒有對企業級codebase的重視，他們的核心使用者還是矽谷 indie hacker。那他們未來的關鍵 bet 是 indie hacker 是否能在所有開發者比例中變高：如果 AI 產品的開發正規化下獨立開發者數量達到500萬，也就等於今天所有開發者的 10%，cursor 的市場空間才能達到十億美金。

而企業側 BD 和開發者市場的增長方式不一樣，Codeium 在企業 GTM 簽訂單上的能力很強。因為企業資料 compliance 需求不是最順暢的產品體驗，而是在安全、合規等企業在意的方向有。在 Latent Space 的一篇專訪中 Anshul 提出了 enterprise infra native 的概念，強調了要做財富500強使用者，需要突破矽谷開發者圈子的mindset：

• 安全：需要支援多種部署選項，比如 self-host 或混合部署；容器化部署（Docker、Kubernetes）是關鍵，需確保客戶環境的資料隔離。

• 合規：企業對 LLM 使用的訓練資料有高度敏感性，需證明未使用受版權保護或未經許可的資料；資料清理和資料來源追蹤，確保合規性。

• 個性化：資料質量直接決定個性化效果，需要對資料的時效性和相關性進行評估。，幫助企業透過 fine-tuning/RAG 寫出更高質量的程式碼。資料預處理和基於角色的訪問控制（RBAC）是關鍵，避免因資訊整合導致資料洩露。

• ROI 分析：生成式 AI 的 ROI 難以量化，透過提供分團隊的使用資料，幫助客戶最佳化使用效果、證明價值。

• 規模：企業環境複雜且規模龐大（如數萬程式碼庫、數萬開發者），需解決大規模索引和延遲管理的問題。系統設計需在高使用者量、高資料量的情況下保持高效穩定。

企業側的機會可能是更明確的低垂果實，只是他們面對的競爭是 Github Copilot 極強的分發渠道。面對競爭時，用 research 去解決 Github 可能做不好的地方是至關重要的。

Research

這些 coding 公司不能只看成應用層產品公司，而是 research 和產品一體的公司。Cursor 官網稱自己為 applied resarch lab，Codeium 官網部落格中寫了大量對微調/RAG 技術方案的思考，Augment 也在 Retrieval、RL 等方向上做了大量探索。

Augment 和 Codeium 更在乎的是企業級技術方案，尤其是 Github Copilot 目前解決不好的問題。例如 Augment 在解決的事在數萬個企業codebase 中怎麼精準地做好 retrieval 和互動理解。和企業文件 RAG 遇到的難題類似，codebase retrieval 需要重新訓練專用的 embedding model，對話、補全、跨檔案生成需要的embedding 都不一樣。Codeium 還思考很多在企業 on-prem/VPC 上部署專用 coding 模型的問題，來達到安全性和智慧程度的平衡。

而對於 Cursor，強 reasoning 能力下的非同步協同是研究的核心方向，對應到內部專案 shadow workspace。shadow workspace 是 Cursor 為後臺 coding agent 設計的開發空間，這個空間需要能看到 agent 修改引發的 lint 提示資訊，並且和 IDE 背後的LSP協議進行充分互動，但不去修改使用者原本的檔案。AI 和使用者會一起根據 shadow workspace 下的 Lint 反饋來決定是否進行下一步的迭代。這個過程和 o1 inference time compute 類似。

Shadow Workspace 早期架構圖

• Testing 代表公司：QA Wolf, Momentic, Gru AI

Coding testing 是所有開發者必經的工作流，來保證程式碼的準確性。其中有兩個常見常見：其一是 unit test，在錯綜複雜的系統中，程式碼被更新之後需要 unit test 來驗證其可用性，減少其引發意外崩潰的機率；其二是前端或應用開發中，需要對 UI 每一個功能進行互動測試。

測試任務和 codegen 的適配度也很高，因為：其寫的過程是高重複性高，且有規律可循的；而且這是人類工程師不太願意工作的任務，大部分團隊的 unit test 的覆蓋率比較低，能側面說明這一點。

同時 Cursor 團隊在訪談中提到過 debug 對 LLM 底座頗有難度，LLM 的訓練方式不是去發現錯誤，要讓 LLM 理解一個看起來不大錯誤的後續重大影響是比較難的。因此這裡能有獨立創業公司的機會。

這個領域的代表公司中：QA Wolf 是 LLM 出現之前就有的公司，以 Rule-based 的方法就能實現很多 test case；Momentic 是最近 YC 和 AI Grant 中湧現的專案，更偏向人和 AI 協作對視覺產品 UI 進行測試；Gru AI 則是為 Unit Test 場景設計專用的 agent 來端到端企業中的測試需求。

Momentic feature from homepage

•Code Review & Refactor 代表公司：CodeRabbit

Code Review & Refactor 是開發者工作中比較重要的質量保障工作，無論是企業還是獨立開發者都需要花時間 review 組織內外部的 PR request。根據 Techcrunch，50% 的 enterprise developer 每週要花5個小時進行 code review相關工作。

這裡的代表公司 CodeRabbit 不到一年的時間內就實現了 $100M+ ARR，是GitHub 和 GitLab 上安裝次數最多的 AI app，已經review PR 300萬條以上，說明 LLM-native 產品在這個領域已經能提供不錯的服務。

同時還有更大型的 CI/CD 任務可以被歸類為 code refactoring，對程式碼專案進行最佳化和重構，來解決組織中之前遺留的技術債，甚至可能對技術架構需要進行重構和遷移，那就是 Code Migration。這樣的需求也是非常繁重、人類工程師不太願意完成的。因此，這成了我們接下來介紹的 Coding agent 公司最早得到 PMF 的場景。

Agent for pro

• Coding agent 代表公司：Cognition (Devin), Factory

Coding agent 公司的平均融資規模是最大的，因為這些公司的目標是實現 end-to-end 替代人類開發者，實現這個過程的工程量大、消耗 code tokens 數量大。這個領域的現狀可能有兩個要解決的問題：

1) 技術上模型底層推理能力不夠。在企業大 codebase 中去完整的處理問題需要很強的推理能力，去理解使用者和codebase 兩端的 context，然後將任務拆解為多個解決步驟。這樣的 long-context + long-horizon reasoning 能力才能真正解決企業側複雜的工程問題。

2) 產品上，UI/UX 層需要與人類協作方式的創新。既然模型的能力還沒達到完全可用，如何去 involve human in the loop 到協作中就是一個比較難的問題：模型遇到難的問題時是選擇 inference-time compute 做搜尋還是交給使用者去介入給更多的指導和context？如果這個問題解決得不好，呈現出的效果可能是，AI 自己工作了 12 個小時之後發現束手無策，交給使用者也很難在AI 的基礎上進行修正。

由於以上問題，我們推測現在實際能有 PMF 的場景會是 code migration，code refactoring 和 PR commit 等任務。這些任務對於開發者來說往往是 toil 也就是不願意做的事情，開發者專注在這些任務上以後可以把精力集中在別的更有創造力的領域。因此目前 coding agent 現階段做得更多是從 1 到 100 的事情，還沒有到從 0到 1 的任務上。我們看好 coding agent 在未來 2 年內會逐漸承擔更多的責任，不過那需要底層模型的能力和上層 agent 框架的共同進步。

定價問題也很值得思考：傳統 dev tool 的定價一般是按使用者數量 seat-based 付費，對於coding agent 而言 consumption-based 付費可能是更合理的定價，優秀的、完成大量任務的 coding agent 價格可能值得和 junior developer 在同一個數量級。

• Coding Model 代表公司：Poolside、Magic

Coding 領域對模型能力的要求是不完全一致的，比如 code tokenizer 對程式碼中的變數、符號、函式名都要做專門的切分，以及主流 LLM 的訓練是以文字生成為主要目標函式，程式碼能力看起來是其智慧的副產品。因此 Coding model 領域開始出現一些獨立公司：

• Magic 強調特別長的 context window，能把企業中複雜的 codebase 完整讀進來解決問題，儘量避免 retrieval；

• Poolside 強調 RL from machine feedback，能把 Git history 中複雜的工程鏈條完整解決。

不過這一領域的公司在 OpenAI、Anthropic 的主航道上，考慮到 Coding 能力是模型推理能力最好的proxy，這兩家公司的模型一定會在 LLM + RL 的正規化下在 coding 能力上持續進步。

Autopilot for citizen

• Task engine 代表產品：Replit、Websim、Wordware

Task engine 對應的是 search engine，使用者得到的不再是基於搜尋關鍵詞的網頁，而是基於使用者需求生成的軟體。我們定義為 task engine 是希望弱化軟體和 code 這些詞帶來的高門檻意味，coding 能力帶來的 killer app 應該是大眾使用者都有意願和能力去使用的。

Anthropic Artifact 和 OpenAI Canvas 在一定層面上也是希望能實現這個目標，但其產品形態並不是很易用，加上使用者對主產品的預期還是 chatbot。因此現在的 task engine 還在命令列時代，需要一個 GUI 級別的產品創新來讓更多使用者能理解使用。

目前這類產品的形態其實還有很大分歧：

• Replit agent: cloud IDE for coding agent。產品使用 chat 多輪對話互動，每一次執行 action 都是漸進式的，遇到問題會向用戶提問來補足context、釐清需求，對話過程類似開發者和產品經理對需求的過程。這種產品設計思路用 alignment 解決了模型多步執行時的可靠性問題，但也要求使用者對自己的需求想得比較清楚。

• Wordware: Notion for LLM app。產品完成度高，使用體驗比較像創作內容，透過 Twitter 嘲諷 bot 找到了很好的viral 增長第一槍。用 Twitter 作為增長起點的方式讓人想起了去年的 Perplexity。成為增長最快的 ProductHunt 產品之後，流量開始快速下降，高度依賴頭部流量產品是 Wordware 現在的挑戰。

• Websim: 用類似 Google Chrome 的簡陋 UI，打造了一個使用者能同時創作和消費 web app 的產品。這個產品的想象空間很大，使用者可以在上面基於使用者的 template 繼續生成和修改，有點像 Canva 的模板化思路。而且使用者在 Websim 上打造的網站每一個超連結可以繼續點選並深入生成新的網站。不過他們的產品設計細節還欠打磨，有點類似 C.ai 有一個很好的框架但在產品上不夠極致。

• 前端生成代表公司：Vercel (V0)、Stackblitz (Bolt.new)

這一領域的公司之前就在前端框架和部署領域有比較深的積累。例如 Vercel 是 Next.js 框架的發明者，主要業務是前端網站的部署，ARR 也已經達到 1 億美金以上，我們之前有過詳細的研究。他們的 Vercel V0 產品一直在進步，無論是審美風格還是對話修改上的體驗都比剛釋出時優秀很多。另一個很火的產品是 bolt.new，也能透過一句話把產品需求變成不錯的 web app 產品。其進步速度更快，同樣的prompt 每一兩週都能看到其生成質量的進步。

這類產品的效果已經接近可用了，不過實際持續使用的時候會遇到一些問題。web app 生成出來的 demo 十分優秀，但由於其技術棧比較雜，生成的產品真正開始有規模之後很難維護和管理。因此前端生成的未來 use case 很可能是 desposable application，這個網頁的生成就是為了服務某個臨時、長尾的需求，並不用為更大的群體、更長的時間去維護。

前端是開發中相對好上手的領域，因此之前每一代 Low-code/No-code 都會講前端民主化的故事，誕生了 WordPress、Wix、Spacesquare 甚至 Shopify 這樣的公司。整個市場很大，但需求比較零碎，市場頭部集中度不高。AI 前端生成現在看起來很有前景，但他們是否能抓住大量增量需求，甚至代替過去的存量需求呢？這直接決定了其市場規模的上限。

03.

Open Discussion

1）Coding 能力的民主化？不，是軟體工程的民主化。

技術會帶來一個領域的民主化，這是很多領域都發生過的故事，例如 Canva 成為了設計師民主化的一站式模版和設計平臺。而開發領域是否會有這樣的民主化故事呢？

我們認為 Coding 能力不會發生民主化，但軟體工程會。這意味著軟體的製造成本會隨著 AI coding 帶來大幅下降，但使用者不一定需要理解 code 程式設計是如何操作並執行的，只需要明白 high level 的執行邏輯即刻。也就是說，使用者們不需要是開發者，但需要是自己需求的產品經理

2）UI/UX：同步與非同步，GUI 時刻的到來。

未來的開發體驗可能由同步和非同步組成：同步的部分，開發者一邊寫程式碼，AI 一邊在後臺同步做 code testing/review/optimization；非同步的部分，o1正規化下的 inference-time compute 能把 coding 任務拆解為多個子任務，推理出最合適的解決方案並自己驗證。

而未來更廣義的 AI coding 也是如此，很多軟體都是即時根據 context 來即時生成，而真正複雜的任務則不需要互動，AI 能非同步的完成並透過郵件等方式向用戶同步。

現在的產品互動使用門檻還偏高，類似 GUI 到來前的命令列時刻。等待新互動到來時，AI 應用的空間會被開啟，coding 領域可能是最先驗證和感知到的。