
作者丨梁丙鑑
編輯丨馬曉寧
自2022年12月 ChatGPT 作為現象級產品問世以來,“AI 改變世界” 的技術敘事已持續30個月,但實際落地的產品寥寥。這種技術創新和實際應用之間的差距,也讓越來越多人開始冷靜思考AI的發展究竟走到了哪一步。
“ AI Coding 是這一波 AI 創業浪潮中,現在為數不多能看到 PMF 的行業。”今年以來,AI 科技評論在與業內人士的交流中,聽到多位創業者和投資人反覆提起這句話,AI 程式設計是當前 AI 應用領域落地商業化的領頭羊,已經成為業界共識。
火熱程度在矽谷和國內都相繼得到印證。除了領頭羊 Cursor 之外,Poolside 和 Magic 兩家公司在沒有釋出任何產品的情況下,估值飆升至 30 億美金,Windsurf 已經被 OpenAI 收購,Lovable 創下歐洲增長最快的公司記錄。
國內最為活躍的創業圈子也在這裡。月之暗面產品經理明超平,創辦的新公司新言意碼還在水面之下,就已經拿到了 8000 萬美金的估值。位元組 5-1 高管陳志傑離職,也是直奔 Coding 而來。
2025 被稱為 AI 應用大爆發的一年,浪潮來臨之時,AI 科技評論將邀請最優秀的創業者一對一交流,以《AI 產品十人談》的系列文章,發表他們對於 AI 能力邊界的獨到見解,展示他們對於 AI 產品創新的深度認知,共同討論大模型的潛流將會走向何方,而我們又能在這場罕見的技術變革中抓住哪些機會。
有鑑於 AI Coding受到的廣泛關注,我們也選擇了這個主題作為系列開山之作。Babel 創始人張海龍,曾在卡耐基梅隆大學取得計算機碩士學位,並且連續多次創業,並將自己的上一家公司 CODING 成功賣給騰訊。在 GPT-4 出來之前,他就選定了這個創業方向,至今已有兩年時間。
在此次對話中,張海龍回答了最受行業關注的那些話題:
-
AI Coding 的現狀與主要方向;
-
模型能力的進步對 AI Coding 的影響;
-
海內外不同的 AI Coding 創業環境;
……
以下是AI科技評論與張海龍的對話全文,為方便閱讀,進行了不改變原意的文字調整。
AI科技評論:最近 AI Coding 賽道炙手可熱,Cursor 估值已經突破 100 億美元,Lovable 的 ARR 也在飆升,幾乎所有投資人都在關注這個賽道。你作為這個賽道的局中人,怎麼看現在這個行業的火熱?
張海龍:實話實說,我覺得它的發展是超出了我去年的想象。Cursor 整個發展曲線如此之陡峭,超出了所有人的預期。
所以很多投資人願意積極地去看這個領域,因為 AI Coding 似乎是最容易找到 PMF 的一個賽道。但是這個行業的火熱有些被媒體過於誇大了。實際上除了 Cursor 外,在這個賽道里面真正找到 PMF 的產品並不多。其他的 AI 產品你會發現它要麼關注在一個很小的點上,要麼就是續費特別差,沒有什麼留存。哪怕是目前非常火熱的 Lovable ,他可能也並不 solid 。
AI科技評論:你提到 Lovable 這個產品可能並不 solid,能不能展開講講?
張海龍:前兩天有篇文章我覺得講得特別好,就是海外的一個投資人說現在要識別創業者的數字遊戲,你如何判斷這到底是個 ARR,到底是個 recurring revenue 呢,還是一個 experimental revenue。
Lovable 是一個非常典型的例子,他的 aha moment 非常驚豔,來的很快,來的很早。我周圍很多朋友都試用了 Lovable 給出了正面的評價。但是過了一個月之後你再問他們,都沒有持續地在用這個東西。那到底是誰在什麼時候用 Lovable 解決了什麼問題?
所以我們可以看到, Lovable 的流量在一些監控平臺已經顯示不再增長。就像 Midjourney 過了風口之後還有多少人仍然在付費?很殘酷的事實是很多人對產品沒有持續性的需求。AI Coding,2C 領域的火熱可能來得快去的也快,並且從終局角度來說,Devin 和 Cursor 如果能做複雜工程,肯定也能做 Lovable 的事情。但有人嘗試肯定是好的。
AI科技評論:據你觀察,Cursor 是怎麼找到 PMF 的?
張海龍:我不認為 Cursor 是主動去尋找了 PMF。他們就是膽子大,看到了機會,上來就是莽,去做 Copilot、做 IDE。在 23 年初沒有人看好這個方向,因為歷史已經反覆證明做一個 IDE 不是好生意,沒人意識到 AI 帶來的巨大變數會根本性的改革這個行業。而且那個時候 Github Copilot 已經被大規模採用,是市場上絕對的 number one。Cursor 在這樣的賽道創業,大部分人都不理解。
所以我覺得他們不是在嘗試,而是認定他們就要做這件事情,然後這件事剛好就在一個正確的方向上。他們很聰明,但他們的運氣也特別重要,在巨大的非共識下找到了機會,並且沒有熬很久,很快模型的能力就匹配上了他們的需求,進入了 Product – Model 和 Product – Market 的雙重 PMF。
但我覺得這裡面我想講另外一個點就是,為什麼這麼多人都錯過了 Cursor?包括我們。我們在 2023 年的時候,上半年那個時候認真地看過 Cursor,當時我們把這個方向給否了。哪怕把你放在那個時候再去看,你還是會錯過,因為你的從業經歷告訴你 IDE 不是一個好賽道。歷史上幹這件事情幾乎沒有人幹成的。IDE 這個賽道本來也很小,在 AI 出現之前,使用者對這類產品的付費意願和付費能力都有限,導致市場規模很小。但是 AI 的出現顯著擴大了整個市場的規模。很多人,包括我們自己,曾低估了這種體驗提升的價值——在 2023 年,如果沒有親自體驗過 Cursor,真的很難想象它帶來的變化。
所以 Cursor 的成功,甚至不是 PMF 的成功,他是創造了一個新的市場。
AI科技評論:你覺得 Cursor 的成功帶給創業者什麼啟示?
張海龍:Cursor 做得很好的一點是 UI。
包括我們在內的很多 AI Coding 創業公司都踩了一個巨大的坑,就是我們要把人類從工作流中拿掉,這個時候 UI 是不重要的,人類的 input 也很難介入。但事實是 Agent 很難全自動地完成一件複雜的事情,Cursor 透過 UI 構建了一個合理的使用者和 AI 互動的平臺,讓使用者很容易地接受那些 AI 無法獨立完成的情況。
這給整個行業帶來了一個啟示:“智力”都是由大模型提供的,應用層在上面構建工程和行業知識。這是所謂的“套殼” OpenAI,而 UI 是行業知識的具體體現,UI 的價值遠比想象中大。ChatGPT 這種“chat ui”在具體的垂直場景的資訊交換效率是遠遠不夠的,目前行業普遍的反思,就是應該做一個人類能夠介入的 UI,讓人類跟 Agent 有資訊交換的平臺。
今天你會看到很多新的創業公司,包括一些矽谷公司,會說我是某個領域的 Cursor,這就像 14、15 年有人說我是一個 Uber for whatever,大家就很容易理解。
AI科技評論:最近微軟似乎對 Cursor 做了一些限制,會對 Cursor 造成實質性影響嗎?
張海龍:這也是最近整個創投圈在討論的一個問題。我覺得微軟動作慢了。Cursor 已經是一個百億美金公司了,你再做這種 license 上的限制,它到底能有多大的影響呢?從開發者的角度來看 Cursor 好用我就用 Cursor。微軟這是在逼 Cursor 自己扶持自己的生態。
微軟有沒有可能進一步收緊協議,徹底改變 VS Code 的開源協議,禁止二次開發?我覺得這種可能性很小。這樣做會帶來巨大的聲譽損失,對微軟來說完全沒有必要。
AI科技評論:Devin 在去年這個時候爆火,但一年過去了,似乎沒有 deliver 對應的期待,是不是這個方向有問題?
張海龍:Devin 在去年這個時候是火遍全球的一個概念。我覺得它特別好的傳遞了什麼是 Agent,Agent 應該能做什麼。但是目前它並沒有很好的 deliver 這個 vision。我不認為 Devin 是失敗的,我只是說它還沒有成功。
為什麼這麼說呢?Devin 想做的事情,野心有點過大了,時間週期會非常長。類似的還有,Magic 和 Poolside。這兩家公司融了很多錢,到今天也看不到產品的。他們號稱是要從零開始訓練底層模型去幹這件事情。
做一個端到端的 AI Developer 這條路確實非常的艱難,但 Devin 融了足夠多的錢,可以慢慢做。而且最近 AI 的發展讓我覺得 Devin 成功的可能性在變大。
從我的視角看,Cursor 和 Devin 終有一戰。這個賽道才剛開始,還有很大的發展空間,當前的產品形態啥的可能都不太重要,大家最終要 build 的能力,解決的問題都是類似的。
AI科技評論:聊到 Devin,我們就可以聊一聊您現在在做的 Agent 產品了,一年前我們交流的時候你們的產品叫 Babel,現在叫 Gru,這只是一個名字的變化嗎?還是說有一些方向上的調整?
張海龍:Both。首先我們公司的名字還叫 Babel Cloud,只是推出了一個叫 gru.ai 的產品。我很喜歡 Gru 這個名字,而且 gru.ai 確實是個好域名。
但確實我們經歷了一次轉型。我們最早在做 Babel 的時候其實做了大量的軟體工程的抽象。有點類似於 replit 做的事情,我們把一些軟體工程概念給它抽象出來,然後讓這個整個開發會變得更加的直觀。但是隨著 AI 能力的進步,我們意識到這個抽象是多餘的。 AI 已經更好的理解工程概念了,額外的抽象可能反而是個負擔。所以我們從一個更定製化的軟體工程轉到了一個更通用化的軟體工程方向上。

AI科技評論:你覺得軟體工程團隊會接受 Devin 或者 gru.ai 嗎 ?
張海龍:當然會。gru.ai 會像一個真正的開發者一樣在你的團隊裡工作。
假如有個人類工程師,和一個 AI 工程師。我給他們倆同時 assign 一個 issue。最後他們提交過來一個 pull request。整個過程,你能分辨出來哪個是人嗎?就像現在有很多遠端工作者,他們從來不見面。那你知道他真的是個人嗎?
我堅信這件事情會發生,甚至可能在明年就會發生。事實上你看 gru.ai 在單元測試這件事情上面,已經事實上替代了很多的人類工程師的工作了。
我並不覺得我們在顛覆軟體工程,我們只是用 AI 的方式去把軟體工程中很多的人力解放出來,讓人關注更高階的,更有創造力的價值的這些工作。
AI科技評論:按照你去年對程式碼生成水平 L1 到 L5 的劃分,你認為現在的程式碼生成發展到什麼階段了?
張海龍:我認為過去這個 L1 到 L5 的劃分可能並不合理。當然這個劃分方式有助於大家理解,但 L1 到 L5,不能脫離他所處的環境去討論。就像自動駕駛,你可以在很小的園區裡面搞自動駕駛,這早就實現了,但沒意義嘛。
我們現在更關注的是一個更普遍的,更寬泛的企業級場景下的軟體工程問題。那這個場景下如果你能做到 L4 或者 L5,那你的價值會非常大。我認為現在這一點目前做不到,可能 L3 都很勉強。
AI科技評論:你們和理想中的 Ultimate AI Developer 的差距在哪裡?
張海龍:就像我說的,現在連 L3 都做不到,所以這個 Ultimate AI Developer 還有點遠。
這裡面有很多問題,就比如說模型的智力問題,Agent 的工程水平問題,穩定性問題,上下文長度問題。這些問題起碼一年之內還沒能看到解決的希望。現有的增加上下文長度的技術也並不成熟,比如 RAG,可能最終會被認為是一個過渡性技術。
長期來看,我對這件事始終充滿信心。過去兩年,模型的發展解鎖了許多全新的應用場景,而且這一進步還在持續加速。最近,OpenAI 也在文章中提到,他們花了大量時間解決模型的基礎工程問題。在沒有完善基礎設施的情況下,模型的訓練和評估速度都會受到很大限制。正因為 OpenAI 持續投入基建,我們才能看到今年他們頻繁的產品和模型釋出,這正是基礎設施升級帶來的成果。
隨著整個行業基建的成熟,這個行業的發展會越來越快。所以雖然當前離目標仍然很遠,但行業進入了加速階段。
AI科技評論:聊到模型廠商,就不得不提到現在模型廠和大廠都在切入程式碼生成這個賽道,你覺得創業公司的競爭力在哪裡?
張海龍:其實我並不太關注大廠的競爭。無論你做什麼,大廠幾乎都會涉足。沒有必要過度擔心大廠的動作。網際網路時代也常有人問:“你做這個,如果騰訊也做了怎麼辦?”但創業的初心很重要,最根本的是你是否真的喜歡這件事。如果你想做,就應該去做。
大公司涉獵的領域太多,資源和人才都是有限的,領導的關注點也有限。分配到某個具體專案上的資源,未必比創業公司更多。而且,資源不僅僅是人和錢,更重要的是人才的質量:大廠分配到這個專案上的人,是否真的熱愛這件事?他們的動機是什麼?大廠的運作機制本身就容易導致資源錯配。只要你做的事情不在大廠的主賽道上,其實不用太擔心他們的競爭。
當然,也有例外。如果你做的是底層大模型,這確實需要重視大廠的競爭,因為很多大廠會把大模型作為主賽道,投入大量資源。還有一種情況是,當你的業務已經實現了 PMF,行業內已經有了明確的做法,這時對人才的要求會降低,大廠也更容易調配資源來進入這個領域。比如你現在要做一個類似 Cursor 的產品,那就需要正面迎戰像位元組這樣的公司。這個時候,你就必須在現有產品形態上做出完全不一樣的創新,就像 Cursor 挑戰 Github Copilot 那樣。
AI科技評論:現在有一種觀點是模型即應用,大模型沒辦法滿足 Agent 創業者對於 AGI 的追求,所以他們要做自己的小模型,你們直接基於 GPT-4o 搭建產品,而非自訓練小模型,是出於什麼考慮?
張海龍:因為大模型的進步會吃掉你在細節上的一些努力。
我們有做一些 post-train 也就是 fine-tune,因為確實可以提高一定的準確率。但是你會發現在 OpenAI 這麼快速的更新之下,GPT-4.1來了,他不做 fine-tune 的效果比你做 fine-tune 的效果還要好。
Pre-train 一樣的,現在看可能成本更低或者速度更快,但是這個領先可以持續多久呢?大模型一定會越來越便宜越來越快的。
但有一種情況做 pre-train 是有價值的,那就是你的資料是獨特到大模型無法擁有的。比如 Cursor 的 tab 的資料,基於這些資料做的小模型才有價值。
AI科技評論:您剛剛提到模型智力在今年有明顯的提升,具體帶來了哪些能力的實質性進步?
張海龍: GPT-4 在 23 年 3 月份出來的時候,又慢又貴。Cursor 這樣的體驗是不可能基於 GPT-4 做出來的。Cursor 的變數來於 Claude 3.5,又快又好。但是快和好都是相對的。3.5 到今天來看可能也不是又快又好了。
模型過去這兩年裡面雖然是擠牙膏式的進展,每一次看都好像沒有太大變化。但是你累積下來看,你會發現今天的 GPT-4.1 和兩年前的 GPT-4,雖然版本號只變了 0.1,但實際上無論是速度、穩定性、指令遵循、上下文長度都有巨大的變化。這些變好使得你原來不可能做的場景變得有可能。包括我們在內,我們做的很多 Agent 的場景,以前需要做很多工程的方式去彌補模型的不足,但今天看來都是沒有意義的雕花。
所以對於今天的創業者來說,應該區分自己所面對的問題,哪些是要等待模型發展的,哪些是不會被模型發展吃掉的真正的產品力。最終 Agent 的能力來自模型和工程的疊加效果,這是一個綜合能力。
AI科技評論:現在海內外還有哪些產品和你們存在直接競爭?
張海龍:那可太多了。有個投資人說開玩笑說在舊金山一個 zip code 就能找出來 20 家 AI coding 公司。但每個切入點都不太一樣。做 code review,document,test,端到端生成的,什麼都有。所以我覺得這個賽道的競爭其實是非常激烈的,只是大家的切入點會不太一樣。但是大家的 ultimate goal 都是類似的,最後都想要成為 AI developer。
但是國內事實上,看到的競爭不多。這裡面原因很複雜,比如大家不願意投 2B 的專案,比如覺得看不清楚,想看海外有品類跑出來。
AI科技評論:你剛才提到了很多品類,可能對於不太瞭解這個行業的人來講會比較暈,能不能幫我們簡單歸類總結一下?
張海龍:在給 AI 程式設計工具分類時,首先要看目標使用者是誰。如果是非專業使用者,產品就要像 Lovable 那樣,輸入以文字或檔案為主,輸出也更偏向視覺化,不能太多底層技術細節。而面向專業使用者時,又可以細分為 IDE、Copilot 或 Agent 等不同形態。Agent 還可以分為通用型和垂直領域型。
但我覺得這些分類方式其實有些表面。無論是 Agent、Copilot、IDE 還是外掛,本質上都是不同的產品形態或互動方式,核心還是在於能否真正解決使用者的問題。比如 Cursor 適合專業使用者,因為它暴露了更多底層概念,支援深度互動;Lovable 則適合小白使用者,介面更簡單。其實底層能力是類似的,只是“外殼”不同。
真正的 AI Developer,既能解決複雜企業級場景,也能滿足非專業開發者的需求。所以我認為,像 Cursor 或 Devin 這樣的產品, 最終完全可以覆蓋 Lovable 那類使用者,因為 Lovable 的互動介面其實並不複雜。我們現在堅持做企業級 Coding Agent,就是基於這樣的判斷。產品形態只是表象,核心還是底層能力和能否滿足不同使用者的實際需求。

AI Coding產品象限圖,圖源受訪者
AI科技評論:未來的 Coding Agent 會百花齊放還是少數幾家瓜分市場?
張海龍:目前還不是很明朗。Coding Agent 需要很多個 Cursor 嗎?還是需要很多個Devin?好像不需要。但也有可能企業內部就是需要個性化的 Coding Agent。這個問題等到今年年底我可能就清楚了,因為當我們的Agent進入嚴肅的企業場景開始工作的時候,我們就會看到是不是存在大量的不能被抽象的個性化。這個時候我們才能回答,企業會不會有大量定製自己 Agent 的需求這個問題。
我覺得這也是 Infra 公司要思考的問題。如果你要做 Agent Infra,那你實際上在賭未來 Agent 會百花齊放,會有很多公司要做自己個性化的、複雜的 Agent,這樣 Agent Infra 才有價值。如果最後每個領域只有幾個大的 Agent,那就沒有人買 Infra。
AI科技評論:我們剛剛也有聊到 AI Coding 這個賽道矽谷有非常多的公司對吧,其實也說明它的投資是非常繁榮的,但是我們同時看到在國內的融資情況似乎遠遠比不上矽谷,你覺得這是因為什麼?
張海龍:幾個原因吧。第一是這個賽道是美元基金會比較願意投的方向,風險大,收益高。但美元本身受到整個地緣政治各方面的原因受到影響比較大。
第二個原因是,創業環境上也有很大差異。大家有一個誤解就是矽谷的專案都很牛逼,其實不是,平均水平甚至更差,因為天使輪,種子輪太容易拿了。矽谷的基金非常非常多,一個 zip code 有 20 個 AI Coding 創業公司,同理,一個 zip code 可能有 20 家 VC。大家都在投初創公司,初創公司又有各種效率和服務的需求,相互就容易找到天使客戶,所以這個生態特別好。
第三,國內還有一個確實有行業環境的問題。國內過去成功的專案大部分都是 2C 的。但 AI Coding 這個東西,真正的市場,是 2B 的。中國以前被 2B 傷到的投資人可太多了,聽到 2B 就扭頭就跑。這也造成了中國的 AI Coding 創業者上來就考慮 2C 的市場,因為這樣才能融到錢。
但大家都悲觀的時候,可能是發育的好機會。企業的需求是客觀存在的,只是需要一個適當的產品和服務模式去滿足他。
AI科技評論:Gru.ai 現在規模如何,你對公司的未來規劃是什麼?
張海龍:我們和 Devin 的最終目標是一樣的,就是讓你可以交給 Agent 一個任務,他完成了之後你驗收就好了,和一個員工沒什麼兩樣。但我們選擇的是一條逐步商業化的路,AI 做軟體工程需要很多能力,比如檔案編輯,程式碼分析,環境設定,需求理解,需求驗收等等能力,我們構建出了程式碼分析、環境設定等等能力之後,就可以去做一個單元測試場景的產品,這個產品可以有足夠高的準確率支援商業化。我們再去構建需求理解,需求驗收的能力,那我們就可以做 e2e 之類的場景。這麼逐步的商業化一方面對融資要求沒有這麼高,另外一方面我們可以在垂直場景裡打磨能力,有的放矢的進行提升。
創業分兩種,一種是 Devin,這樣拿大錢,只幹終極形態。但大部分創業者不行,只能先做個機器狗,或者做一個沒有腿的機器人,每一步都要證明自己的商業價值。這是第二種創業。
我覺得這些證明不是白費的,都是給你想做的那個終極形態賦能。所以我們的發展路徑其實非常簡單,就是紮紮實實把每一個細分都做到頭部。我相信這些細分帶來的綜合能力,都會回饋到我要做的 General Agent 上。
我們保持在十來個人的規模,之前的主要工作是在構建能力。但今年開始我們逐步把一些能力做成商業產品提供給客戶,比如有的客戶的單元測試程式碼已經基本是由 Gru 提交的了。驗證的效果還不錯,客戶也願意付費,但我覺得我們仍然還未到 PMF 的地步,期望今年可以把門檻和成本都降下來,達到 PMF 。
AI科技評論:你在 Agent 領域創業快兩年了,有哪些想法改變了?
張海龍:最大的變化來自於,我在 23 年下半年,覺得 AI 替代程式設計師會很快發生。因為大家現在看到的那些 fancy 的效果,我們在當時就做了出來。但事實證明這個東西在複雜工程上的準確性提升比我想象的慢很多。之前對於 LLM 不同工作場景的分析是不夠的,對於 AI 智力和上下文增長的判斷也是過於樂觀的。
從今天的視角來看這個問題,我們看到了他從 10 分變成了 20 分,也看得後續提高的方向,但確實離終極形態還很遠,還有很大的空間。
這是創業很有意思的地方,你在任何時候都能找到邏輯自洽的分析,但你不知道自己漏掉了什麼,回頭再看的時候,你總能找到自己當年沒有考慮到的地方。從這個角度看,創業是打德州,不是下象棋,你永遠都在資訊不全的情況下做判斷。作為創業者,能做的就是盡人事,聽天命。



更多內容,點選下方關注:

未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社群進行轉載!
公眾號轉載請先在「AI科技評論」後臺留言取得授權,轉載時需標註來源並插入本公眾號名片。
未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社群進行轉載!
公眾號轉載請先在「AI科技評論」後臺留言取得授權,轉載時需標註來源並插入本公眾號名片。
