
創業邦將陸續刊載光速光合的投資專欄「光合說」,分享光速光合投資背後的故事。
故事的起因可能是一通陌生的電話,一次登門拜訪,或是對一篇學術論文的關注……光速光合與創業者的交集就此展開。沒有酒桌上的觥籌交錯,也沒有天花亂墜的承諾,只有長時間的相伴,分擔痛苦、分享成功,實踐長期主義的價值。
“思考、專注、探索、創新”,這是光速光合的投資信仰。憑藉著對行業的極致追求,心懷時代賦予的責任,積極尋找下一個可能的機會。期待“中國創新的全球合夥人”能攜手更多行業創新的探路者們一路向光,合力而為。
光速光合合夥人蔡偉至今還對第一次去具身智慧公司“自變數機器人”測試DEMO的場景記憶猶新。
僅僅只是一個簡單的指令:把杯子放到碟子上。聽懂指令的機器人“發現”杯子被倒置了,它用僅有夾爪的機械臂把杯子先放正,然後準確地找到杯子把手的位置,最終拿起把手成功地放到碟子上,整個動作一氣呵成。
“在看到機器人靈活性和智慧程度湧現的那一刻其實自己雞皮疙瘩都起來了,一下子就能真實感受到未來巨大的可能性和潛力。”蔡偉語帶興奮地回憶起當時的情景。
成立不滿一年,自變數機器人就推出了目前最大引數規模的端到端通用具身智慧操作大模型WALL-A。在WALL-A模型的賦能下,自變數機器人僅用二指夾爪,就能完成拉拉鍊、疊衣服、澆花等複雜操作,數分鐘級別的任務成功率達到了95%以上。
2024年,光速光合領投了自變數機器人的Pre-A++輪融資。不久前自變數機器人宣佈完成了數億元Pre-A+++輪融資,以及由美團戰投領投、美團龍珠跟投的數億元A輪融資。自成立起不到一年半時間內,公司已完成7輪融資,累計融資金額超10億元。
蔡偉表示:“我們投資自變數機器人,是看重其在具身智慧領域的領先技術佈局和差異化競爭力。公司自主研發的端到端具身通用大模型在泛化性和智慧程度上在國內處於領先身位。我們相信,隨著具身智慧成為下一代機器人革命的核心,自變數機器人有望憑藉技術通用性、團隊執行力和產業資源整合能力,成為全球賽道的重要參與者。”
通往具身智慧大模型的路徑有無數條,自變數機器人創始人兼CEO王潛相信,“端到端的一體化模型架構”最終能通向羅馬。

破題莫拉維克悖論:
為什麼機器人學不會“疊衣服”?
通用人形機器人仍是世界難題,過去學術界和工業界多次向通用機器人發起衝擊,但最後都發現難度超乎預期。
上世紀80年代,人工智慧領域提出了莫拉維克悖論,認為人類所獨有的高階智慧能力只需要非常少的計算能力,但是無意識的技能和直覺卻需要極大的運算能力。例如,機器人能解微積分卻打不開瓶蓋,甚至直到2018年才實現自主抓握。
為了讓機器人完成這些直覺的基礎動作,機器人行業試過多種方法。包括預程式設計,為每一個任務寫程式碼。以及分層架構的模型,也就是將模型分為基礎層、資料層、模型層、平臺層、應用層等多個層次,不同層次之間相互協作,共同支援大模型的訓練、推理和應用。
王潛也是“通用具身智慧”的挑戰者之一,他在機器人和大模型領域都有很深的積累。
王潛2007年考入清華大學電子工程系,後獲得生物醫學工程系碩士學位。碩士期間,他發表論文,率先成為在神經網路中提出注意力(Attention)機制的研究學者之一,並與Google在該領域的首篇文章發表在同一會議。這些研究成果也成為後來Transformer架構中的關鍵。
碩士畢業後,王潛前往南加州大學讀博,在全球頂級的機器人實驗室,專注機器人學習、人機互動等相關領域的研究。
他很早就意識到,人形機器人要解決通用問題,最核心的是要解決AI問題。在研究中,王潛發現分層架構大模型很難適應複雜環境的動態變化。“分層架構天花板很低,越到後面越發現,如果越接近大小腦統一,模型能力的天花板越高。”
2016年,王潛開始研究端到端,時至今日,這種架構突破以往分層架構的限制,語言、影片以及感測器訊號等輸入後,直接輸出機器人的速度、位姿、力矩等,減少了分層處理帶來的噪聲影響,有效提升泛化能力和系統靈活性。
後來,大(語言)模型的成果,為機器人的發展帶來了全新視角,王潛決定自己創業。他先在美國看了一圈,美國的硬體人才基本都集中在灣區,在Apple、Meta、Tesla等大廠。“這些公司的待遇優厚,只要不裁員,人才主動出來的情況很少。”王潛把這種現象比喻為“金手銬”。在他看來,美國硬體人才大都被“金手銬”拷進了大公司,這也是美國硬體製造生態遠不如中國的重要原因之一。
此外,中國在供應鏈上的優勢可能領先了美國一個數量級。例如資料收集工作,中國的成本基本上是美國的1/10。效率疊加成本,中國的綜合生態一定是全世界最好的。
他當即意識到,想要做成一家有競爭力的機器人企業,中國幾乎是唯一的選擇。“美國的優勢在於軟體層面,但機器人是一個軟硬結合的產物,沒有成熟的供應鏈環境是不可能做出來的。”於是,2023年王潛選擇回國,在機器人供應鏈生態完整的深圳,建立了自變數機器人。

造出全球最大“機器人腦”
機器人的端到端突圍
端到端具身智慧大模型是一條孤獨的路。彼時,走這一路線的AI企業只有寥寥幾家,專注機器人領域的更是少之又少。
幾年前,王潛提出端到端思路的時候,一位有名的機器人教授曾當面否定了他的設想:“端到端很有意思,但可能永遠只是個玩具,不會落地。”
在國內,鮮少有具身智慧初創公司選擇這一方案。而且,自變數還將所有的任務都在同一個模型中訓練和實現操作。這種統一的機器人學習正規化突破以往單一專有任務訓練的模式,顯著提高跨任務學習效率。
為此,王潛組建了一支在軟體演算法層面兼具“機器人+大模型”經驗的團隊,團隊成員主要來自來自世界知名人工智慧/機器人實驗室及海內外頂級高校,研發人員佔比超90%。
自變數機器人聯合創始人兼CTO王昊,是大模型領域的專家。王昊是北京大學計算物理博士,在粵港澳大灣區數字經濟研究院(IDEA研究院)期間擔任封神榜大模型團隊演算法負責人,釋出了國內首個多模態開源大模型“太乙”,首批百億級大語言模型“燃燈”以及千億級大語言模型“姜子牙”。
兩人一致認為,機器人會是大模型能在物理世界真正落地的領域。王潛回國創業後,王昊也很快加入了團隊。“正確的戰略選擇和團隊優勢,不誇張地說,為我們節省了大概半年的時間。”王潛說道。
蔡偉也給予了這對“黃金拍檔”充分的肯定。
“王潛對機器人技術的判斷很有前瞻性,在行業初步共識還未達成時,就意識到大模型的重要性,他的技術底子和觸覺非常好,這是他多年行業學習和積累的結果。王昊很早就開始接觸大模型,參與了中國首個億級大模型和萬億級大模型的開發,知道大模型的上限和下限在哪裡。這個組合對於未來在什麼樣的技術條件下能做什麼樣的產品有很清晰的判斷。”他表示。
2024年4月,成立4個月的自變數機器人,釋出了國內首個端到端具身智慧底座大模型。經過數次迭代後,自變數機器人在同年10月釋出了WALL-A模型。

自變數機器人透過雙臂協作把線束卡進卡槽
基於大規模通用知識預訓練與多工學習機制,當前「WALL-A」模型在部分未見過的新任務場景中已展現出零樣本泛化能力——廣泛場景的零樣本泛化是實現通用機器人的關鍵標誌之一。
光速光合合夥人朱嘉直言第一次去公司看DEMO時就被WALL-A模型的能力驚到了。
他透露了兩個有意思的細節。在沒有預先告知公司的情況下,朱嘉在公司附近的超市買了十幾個樣式各異的玻璃瓶、馬克杯甚至還有燒水壺,現場突擊測試機器人的抓取能力。“有些形狀的杯子它從來沒見過,雖然抓得很踉蹌,但最終還是成功了。”朱嘉笑言整個過程就像三歲小朋友在學習。
好不容易“闖關”成功,朱嘉又出了個下一個難題,把一件T恤揉成了一團球,讓機器人現場抓取。他直言,揉完後乍一眼根本看不出是一件T恤,在這種情況下,大腦需要慢慢地一點點抽絲剝繭地去分析、分辨,最後慢慢找出衣服的結構,再將其疊好。“雖然一共花了10分鐘,但前面8分鐘都在探索,我覺得這個探索的過程非常有意義,說明它是在透過思考和嘗試去解決一個問題,而不是在重複解決一個之前已被訓練過的動作能力。”
“越接近人類直覺反應的動作難度越大,但透過他們的DEMO展示,我們看到機器人的二指夾爪可以抓取任意形狀的瓶子、玻璃杯,可以順暢地拉起拉鍊、疊好揉成一團的衣服,展現出極強的產品泛化能力。”朱嘉肯定道。
經過不足一年半的研發迭代,自變數機器人的模型已經和海外頭部具身智慧公司Physical Intelligence(PI)等,站在了同一水平線上,甚至在部分方面實現超越,比如在一些高級別的泛化性操作、操作複雜度等層面。

AI定義硬體
軟硬一體同步迭代
蔡偉認為,“在具身智慧這個大賽道里最終能脫穎而出,除了考驗企業的大模型能力之外,是否有更好的演算法,能收集大規模、低成本的真實資料非常重要。大模型的泛化能力是由資料採集能力來決定的,資料積累到一定程度,對泛化能力和智慧程度的提升會產生很大價值。”
據悉,自變數機器人構建了以模型驅動的資料閉環體系。公司自主研發了數十個資料處理模型和多代資料採集裝置,用於實現資料質量的自動化控制與資料採集效率的全面提升。
同時,自變數機器人也在同步自研機器人本體,形成“軟硬一體”的閉環能力。公司自主研發並持續最佳化適配多模態大模型控制的機器人本體,更好地滿足開放環境中的精細操作和穩定執行需求。目前,自變數的機器人本體已在多步驟複雜任務場景中落地應用。

自變數機器人近日在第六屆深圳國際人工智慧展覽會現場展示自主製作刨冰
“我們最終的目標是直接面向終端消費者,讓每個家庭都擁有自己的機器人保姆。”王潛說,不過,他估計人形機器人要在C端實現規模化突破性地落地,至少還要5-7年。
“我們今年將在多個功能性場景中做商業化落地,讓機器人在開放性、隨機性場景裡自主完成各種複雜的操作。這看似一小步,實則是整個技術正規化牽引產品正規化轉變的一大步。”王潛表示。
現階段,包括WALL-A大模型在內的水平接近於語言模型GPT-2向GPT-3過渡同期的階段。王潛判斷,類GPT-3水平的具身智慧大模型將在未來一到兩年逐步出現。

從宇樹科技到自變數機器人
深入行業研究,找對賽道,並在賽道中找到最領先的企業,從成功布局機器人四肢硬體的最強公司宇樹科技,到投資了機器人的最強大腦自變數機器人,光速光合在機器人賽道的投資正慢慢浮出水面。
“我們看到當下無論是在國內還是海外,優秀的大學、科研院所、科技公司都在研究具身智慧機器人行業,當他們需要硬體載體時,都無一例外地選擇用宇樹的機器狗及人形機器人,他們的產品競爭力不僅在中國市場,在全球都是非常領先的。”朱嘉回憶去年對宇樹科技的投資時提到,“此外,我們還看到之前宇樹的產品更多是以四足機器人的形態出現,但從去年開始,它的人形機器人產品,從第一代到第二代,快速迭代推向市場,公司的第二增長曲線開拓取得了優異的成績,說明他們有很好地複製並快速做出成功產品的能力。”
對於自變數機器人的投資也是如此。
事實上,蔡偉一直在追蹤具身智慧行業的發展。他直言,透過前期語言大模型的積累,也在研究大模型在其他終端的應用,包括大模型對機器人可能會產生的影響。直到去年10月,Physical Intelligence釋出了其首個通用機器人基礎模型π0,用於開發各種機器人應用,它的泛化和智慧程度到了初步可企及的狀態時,他判斷這可能是一個未來的主流技術路線。於是,開始有針對性地mapping行業內的優秀創業者及創業公司。
最終能找到自變數機器人,蔡偉笑言這是一個偶然的契機,一次理髮的經歷讓他“撞到”了這個專案。他回憶當時在理髮的間隙看到一篇介紹自變數機器人做端對端大模型的文章,發現這正是自己非常看好的一個路線。就這樣,還沒理完髮,蔡偉已透過作者聯絡上了王潛。
在蔡偉看來,具身智慧未來的發展必定是以一個系統的形式存在,既有軟體,也有硬體,且有很高的進入門檻。“未來可能是有多家企業在不同的細分場景積累不同的認知,行業會是一個百花齊放的局面。”他說。
“我們看好具身智慧在一個通用的大腦下會不斷衍生出更多具體的應用,不論是To B還是To C,催生更多瞄準某些垂直領域應用的機器人產品。它可以藉助現有機器人的大腦,結合行業的需求定製針對特定行業的產品。”朱嘉表示,“產業一旦做大的話在其產業鏈上,不僅上游的核心零部件,還有與產業相配套的一些產品、技術都會有長足的發展機會和投資價值。”
技術的持續突破,正撬動一個千億美元級市場。高盛預測,到2035年人形機器人市場規模將達1540億美元,而自變數軟硬同步迭代的通用具身機器人,將搶灘養老護理、家庭服務等增量市場,奪得先機。
“這是一條廣闊的賽道,我們走在最合適的路上,並且一定能走到路的盡頭。”王潛說。這條路徑的盡頭,或許正是人形機器人走進千家萬戶的時代。
往期精彩內容:
