深度|鏖戰AIAgents:矽谷修路,中國造車

AI Agent行業的全球圖景,中國和矽谷正在走上兩條路線。
矽谷正在逐步拆掉影響Agent發展的牆,從0-1的建立規則。從Anthropic推出了MCP開放協議,統一了大模型連線應用的方式,到谷歌釋出名為Agent2Agent(A2A)的全新開放協議,建立了Agent與Agent之間的對話語言。越來越多的網際網路公司開始加入MCP陣營,包括Anthropic的老對手OpenAI,矽谷超過2000+企業,國內阿里百鍊平臺、魔搭開發社群開始構建基於MCP的平臺,騰訊雲、百度雲等雲平臺也在陸續加入。
看起來節奏清晰井井有條。
而國內的AI Agent領域,則顯得更加躁動。一邊Manus以“全自動Agent”的故事引爆著資本熱潮,另一邊則是曾經的行業獨角獸瀾碼科技遭遇發展危機,被曝出停薪資、停社保已經超過三個月,並於近期對數十名員工解除勞動合同。
“Manus爆火後,投資人把相關文章甩給我們質問‘人家這麼牛,你們為什麼不行?’” 某Agent公司創始人在收到如此詢問時,她甚至找不到合適的語言向資方解釋,什麼是模組“縫合怪”。但與此同時,這種混亂又在給他們帶來實打實的新增訂單需求。客戶不再問AI Agent是什麼,而是直接提需求下訂單。
它們都指向一個重要的訊號:Agent行業正從“概念驗證期”邁入“生態定型期”,技術標準與商業模式的“分水嶺”已然浮現。在這兩種不同的氛圍背後,是兩種不同的路線,矽谷沉迷於對AI Agent制定規則,而中國公司已經在搶跑了。
1
中國為什麼沒有MCP?
首先我們必須明確的是:Agent不僅僅是一種應用形態,將其簡單對比“超級應用”實際上是對其本質的誤解。Agent代表了一條全新的產業鏈,它連線並整合了多個技術環節,需要調動幾乎整個網際網路生態的軟體資源。
我們簡單製作了目前Agent產業生態的圖譜(當然它是動態變化的)以供大家理解。當前,構建真正通用的智慧體需要兩個核心要素:一是強大的“大腦”:能夠接收任務並進行精細拆解,對每個步驟的微操作都能完美執行,這要求大模型具備強大的多模態能力;而是可靠的“手腳”,則能夠穩定執行在各種環境中,確保跨平臺、跨裝置的一致性表現。

針對To C和To B兩種場景,對Agent的能力要求截然不同:To C的通用型Agent不必追求極高準確性,但需要更強的通用性和靈活性,依賴強大的“大腦”進行決策;而To B場景下的“數字員工”則要求極高的準確性,對靈活性要求相對較低,更依賴高效穩定的“手腳”執行能力。
因此,行業內幾乎形成共識:通用型Agent深度依賴基礎模型能力,本質上是模型廠商能力的延伸,會隨模型升級而進化,創業公司在此領域能施展的空間極為有限。
從這一視角看,Anthropic作為基礎模型廠商率先推出MCP,並非因其擁有最強話語權,而是因其最需要與網際網路現有軟體生態建立連線,實現底層能力的整合與打通。
矽谷與中國在Agent領域的發展差異,正是兩地軟體生態長期積累形成的根本區別的直接反映。矽谷軟體生態以高度標準化和互聯互通為核心特徵。製造業Agent數字員工打造者語核科技創始人翟星吉精準指出:“美國市場中,每個細分場景往往會有獨立的SaaS公司提供垂直服務,這使得互通互聯成為Agent發展的必要條件”。在SaaS普及率超過80%的環境下,Salesforce、Slack等頭部產品成為企業標配,自然催生了對標準化介面的強烈需求。
在MCP等統一協議框架下,現有SaaS服務自然成為生態組成部分,既服務終端使用者,又能被其他Agent呼叫。企業級數字員工AI Agent平臺來也科技CTO胡一川形象地比喻:“MCP對行業的影響類似於USB-C標準化對電子裝置的影響,它大幅降低了開發成本。以前100個開發者連線100個工具需要10000項工作,現在透過MCP,雙方只需準備好對應介面,即可實現全面連線,工作量呈指數級下降。”
相比之下,中國軟體生態發展不均衡,而這種軟體生態的根本差異,最終導致了中國缺乏類似MCP的統一協議標準。這不只是Agent技術路徑的不同,更顯現了數字基礎設施發展階段的不同。
一旦MCP與A2A構建起智慧體世界的“水電煤”基礎設施,後來者要麼接入這套體系成為生態參與者,要麼被排除在主流互動網路之外。
那麼制定標準的人將掌握了最重要的話語權,如同我們所見的安卓系統,或是Cuda,當下國內Agent公司都正面臨著是加入還是獨立發展的重要節點。
從當前的情況來看,似乎中國網際網路的基礎模型公司,並沒有另起爐灶的打算。 4月15日,魔搭推出全新MCP廣場,上架千餘款熱門的MCP服務。魔搭MCP產品經理告訴矽星人:“我們正在成為MCP的生態共建者,包括建立一些MCP應用的BenchMark,以及給一些應用提供啟動流量等等。”
本該是兵家必爭之地的標準制定者,為什麼基模廠商輕易讓給了Anthropic?
據矽星人的瞭解,一部分原因是因為統一協議本身可能只是AI發展的階段性產物,從技術的角度來說,一旦建立了Agent的通用行動模型(參考機器人模型),就可以繞過API或者協議介面,直接完成操作,爭也只是一時;另一方面,網際網路大廠們快速加入MCP陣營後,能夠將此前的優勢積累釋放,比如魔搭接入了收割支付寶提供的支付MCP介面,一旦Agent採用了通用的支付介面,支付生態可以在AI時代複利,這或許是一個比掌握協議本身更大的市場。
1
矽谷修路,中國造車
矽谷透過推動統一協議標準,對Agent生態而言就像是在“修路”,建立基礎設施和互聯互通的標準。而中國企業則專注於“造車”,打造能在特定場景下高效執行的實用解決方案。加入MCP、A2A或其他協議,對中國企業而言只是時間和選擇問題。無論哪種路徑,最終要讓Agent生態完整運轉,都需要一輛輛“車”真正跑起來。
在中國市場,C端Agent仍處於非常早期階段,以智譜AutoGLM為代表的通用智慧體正在積極打磨產品形態、技術路線和商業模式,而絕大多數創業公司則將目光聚焦在2B領域。
“我們認為未來2-3年是智慧體商業化落地的關鍵視窗期。端到端的純大模型方案(如Manus等)不太可能在這個時間視窗內達到理想的商業落地水平,因為它們在可控性、穩定性和成本方面仍存在重大挑戰。”企業級通用智慧體企業實在智慧創始人孫林君判斷道。
To B的快速發展首先來源於市場需求的爆發性增長。“自從今年2月DeepSeek釋出之後,我們明顯感受到企業級Agent市場迎來了一波'爆單潮',”翟星吉回憶道,“僅在最近三個月,我們在推進的新專案就超過了20個,今年的預期營收也超過了千萬。這在以前是很難想象的速度。”
胡一川也表達了類似觀察:“我們在製造業和金融領域的Agent專案詢單量比去年同期暴增了數倍。企業客戶對AI Agent的熱情程度遠超我們預期,尤其是那些有明確流程最佳化需求的傳統行業客戶。”
其次是to B領域相對清晰的商業模式,比如將銷售轉化率從5%提升到6%,雖然只增加了1個百分點,但對企業來說實際增長了20%,對大型企業而言這是相當可觀的收益。
實際上,to B Agent實際上替代了傳統的定製化系統,以更高效的方式解決企業痛點。這些“數字員工”正在形成全新的商業模式,不同於傳統SaaS的固定功能,它們能夠根據企業需求持續進化,實現真正的軟體“活體化”。
“其實,MCP這類協議對2C市場的影響遠大於2B領域。在企業場景中,系統大多采用封閉架構,且以本地私有化部署為主,很少需要連線公共網際網路應用。”翟星吉補充到,這一特點使得中國企業在缺乏協議層支撐的情況下,被迫自主研發從資料處理到執行操作的全鏈條技術棧。

語核Langtum企業級Agent應用落地平臺
如語核科技,其技術核心之一在於自研的工業文件解析引擎,專門處理企業分散的非結構化資料(將PDF格式的工藝引數錶轉化為結構化資料),以便大模型能夠更好地理解行業專業知識。在矽谷,這本應是獨立細分賽道的技術環節,但在中國市場環境下,語核不得不將其作為Agent解決方案的一部分直接交付。
“比如在製造業的採購環節,我們的Agent能夠自動校對採購單、查詢供應商、比對報價並完成下單流程,將原本需要2-3天的工作壓縮至30分鐘內完成,同時還能保持95%的準確性。”翟星吉講道。
來也科技則是透過將RPA(流程自動化)與AI結合,構建出一個一體化平臺,來保證更高準確率和更強靈活性。“我們的方案不是簡單地將大模型和RPA拼接,而是構建了一個能夠自我調整的智慧系統,”胡一川解釋道,“在傳統RPA的基礎上,我們增加了決策節點,允許系統在執行過程中根據即時情況進行判斷和路徑調整。”

來也科技數字員工平臺架構圖
例如,在某大型汽車主機廠的質檢環節,來也科技的Agent能夠自動識別並處理各類質檢文件,當遇到異常情況時,系統會自動呼叫歷史案例庫進行比對分析,確定最佳處理方案。“這一應用將質檢文件處理時間從原來的8小時縮短至1小時,準確率提升至99.2%,每年為客戶節省人力成本超過200萬元。”胡一川補充道,“更重要的是,隨著使用時間延長,系統能夠不斷學習新的異常模式,持續提升處理能力。”
中國企業在構建Agent時往往採取這種“由點及面”的策略:先在特定場景中解決核心痛點,然後逐步擴充套件功能範圍。實在智慧創始人孫林君描述了他們的方法:“我們首先為製造業客戶打造質檢文件處理的專用Agent,證明價值後,再逐步擴充套件到生產計劃、物料管理等相關環節,最終形成覆蓋整個生產管理鏈條的智慧體系統。”
當積累了大量針對複雜場景的實戰經驗,具體場景中的Agent往往具有更強的環境適應能力和問題解決能力。
1
Agent的另一種解法
矽谷的軟體生態已經高度成熟,MCP等協議正在將這一生態重新連線,形成Agent主導的新格局。但這一趨勢不可避免地將逐漸弱化傳統軟體企業的地位,使軟體最終成為Agent的元件。
在美國,各軟體間的標準化介面已經成為基礎設施,Agent開發可以專注於呼叫這些介面。而在中國,Agent企業必須直面軟體碎片化的現實,透過創新性的技術路徑解決執行層問題。從某種意義上說,這反而催生了更加普適的技術方向。
“我們看到一個根本性問題:傳統的Agent執行層要麼依賴API呼叫,要麼依賴畫素級的視覺模擬,兩者都存在明顯侷限,”實在智慧創始人孫林君解釋道,“前者在中國企業軟體生態中成本很高且速度慢 ,後者則面臨穩定性和泛化能力不足的挑戰。”

那麼,RPA方案和視覺感知方案有沒有可能融合在一起?實在智慧創新性的嘗試了“融合拾取技術”。
“我們訓練了一個名為塔斯(TARS)的垂直大模型,專注於電腦操作領域。這個模型提升了任務理解、狀態識別和操作決策能力,本質上是一種‘text-to-action’或更精確地說是‘text+image-to-action’模型。例如,當看到一個有搜尋框和按鈕的介面時,模型能理解「搜尋實在智慧」這樣的指令,確定需要在搜尋框中輸入文字並點選特定按鈕,然後生成相應程式碼執行操作。”
“我們訓練的視覺模型可在100-200毫秒內識別介面中的各類元素(輸入框、按鈕、下拉選單、表格、對話方塊、密碼區域等),然後將這些視覺識別結果與傳統方式識別的底層元素整合。目前在網頁元素識別和操作方面比GPT-4o高出約10個百分點,在任務拆解方面高出4-5個百分點,這項技術也獲得國家優秀獎專利。”孫林君補充道。

一般遇到未見過的軟體,都需要派工程師到客戶現場進行適配。但現實中未見過的軟體可能是無窮無盡的,這種人工適配模式難以擴充套件。融合拾取突破了傳統Computer Vision方案對螢幕解析度和介面佈局的依賴,提高了Agent在真實複雜環境中的適應能力。
除了技術創新外,在生態構建上也出現了新的機會。Agent公司究竟應該以什麼身份對企業進行服務?是傳統軟體?定製化系統?還是AI技術提供商?商業模式是軟體付費模式、按token付費、還是以“數字員工”的形式按人頭付費?
“我們認識到一個現實:在2B領域,尤其是傳統行業,行業know-how的積累至關重要,但從0到1自己完成這一過程週期太長,很難滿足當下市場的迫切需求,”AI Agent 智慧體雲生態服務平臺匯智智慧創始人孫志明表示,“因此我們選擇了另一條路——成為行業知識與AI技術的整合者,將已經數字化的行業知識與Agent能力結合,打造1+1大於2的解決方案。”
這種模式的核心在於識別並整合已被數字化的行業知識。在製造業、醫療、金融等領域,過去十年的資訊化建設已經沉澱了大量專業知識,孫志明解釋到,“例如,ERP系統中的工藝流程、醫療系統中的診斷規則、金融系統中的風控模型,這些都是經過多年驗證的行業智慧。我們不需要重新發明輪子,而是將這些知識提取、結構化,然後與大模型能力結合。我們與行業資訊化服務商、垂直領域諮詢公司、以及專業資料提供商建立了深度合作關係,共同打造完整的智慧解決方案。”
對於像瀾碼這樣的創業公司,從0到1自主積累行業知識確實週期過長,對創企的考驗也更加大,核心原因在於沒有找準自己的定位,是技術提供者、知識整合者還是解決方案交付者,然後圍繞這一定位構建合作生態。
相比之下,新的商業模式或許更加適合中國市場現狀。在中國大型企業的數字化程度參差不齊,但幾乎所有企業都有不同程度的資訊化基礎,在Agent驅動下,或許能重新定義軟體服務的形態和交付方式。
畢竟,技術發展從來不是單一直線,在這個過程中,中國企業和矽谷巨頭都在用各自的方式,共同推動Agent走向成熟。

點個愛心,再走


相關文章