這些留學回國的名校生,為什麼想讓機器人做松鼠鱖魚?

*本文為「三聯生活週刊」原創內容
作為在國內第一波具身智慧熱潮中創立的公司,星海圖四個創始人,少見地全是“90後”,都有海外學習或工作經驗。2023年,他們合力開啟學生時期就想做的機器人事業,並把這當作可以“做一輩子的事”。儘管當下,通用人形機器人的技術路線還未聚合,距離終點有多久還很不明朗。但我們想記錄下,在對技術的信仰下,人類通往機器人之夢的一個側面。
記者|李曉潔
圖|黃宇

人均“90後”

3月中旬的一天傍晚,接近7點,北京市海淀區東昇大廈6樓,星海圖人工智慧科技有限公司(簡稱“星海圖”)裡的燈還全亮著。公司最左側搭建了一個廚房場景,兩個灰黑色的人形機器人靜靜站在飲水機和櫥櫃前。右側辦公區,三四個員工坐在電腦前打字,還有幾個人站在一塊白板後的窗邊閒聊。他們看起來都很年輕,讓人分不清是剛畢業工作,還是在校實習生。
星海圖蘇州總部的工作人員正在組裝機器人本體
“看起來大家都下班了,只有幾個人在加班。”帶著這樣的想法,我走進會議室見到了我的第一位採訪物件,星海圖聯合創始人許華哲。兩個小時後,臨近晚上9點,我從會議室出來,燈依然全亮著,但幾乎每臺電腦前都坐著人,盯著滿是程式碼的螢幕,空氣似乎都變稠了一些。左側一個數據採集室裡,年輕的員工把手放在類似遊戲手柄的裝置上,遙控操縱著前方一米外的機器人手臂,帶著夾爪的機械臂跟著他的動作向前伸出一道弧線,然後落下,瞄準目標方塊後抓取、放到另一個指定位置,如此不斷重複——原來機器人和人類都在加班,傍晚只是中場休息。
這種加班場景,在創業公司十分常見。聯合創始人許華哲也經常在辦公室待到晚上11點多。許華哲今年32歲,微胖,嘴角總帶著笑意。他正被北京春天的圓柏花粉過敏折磨,大部分時間戴著口罩。他告訴我,公司員工、包括四位創始人在內,基本都是“90後”,這是一家以年輕人為主的創業公司。但早在10年前,幾位創始人就有了機器人、人工智慧相關的海外學習、工作經驗。
以CEO高繼揚為例,他2015年在清華大學電子工程系本科畢業後,用了三年半時間,獲得美國南加州大學計算機視覺博士學位,之後在Waymo和國內Momenta兩家行業領先的自動駕駛公司工作。另外兩位聯合創始人趙行、李天威分別是高繼揚在兩家智駕公司時的同事。其中趙行離職Waymo後,進入清華大學交叉資訊研究院擔任助理教授,之後與加州大學伯克利分校博士畢業、回清華任教的許華哲成為同事。四人因為工作,在不同階段結識,有相似的創業目標,又有各自擅長的技術方向,因此在2023年初,高繼揚提出創業後,幾人陸續加入,當年9月註冊了星海圖。
如今,這家成立一年半的公司,釋出了自研的三款機械臂,兩款仿人形機器人R1、R1pro,融資總額接近10億人民幣,成為當下這波具身智慧(Embodied Intelligence)創業熱潮中,融資排名靠前的一員。日常,許華哲和趙行除了在清華教課、做科研和實驗,其餘時間就在北京海淀區的辦公室,負責機器人的演算法、軟體類研究。CEO高繼揚和李天威在蘇州總部,負責機器人供應鏈、本體交付的硬體工作。
星海圖蘇州總部內,幾個資料採集員戴著VR眼鏡,遙控操作機器人。機器人可以透過這樣的資料模仿學習、完成某個具體任務
許華哲記得,就在三年前,他剛回國任教不久,具身智慧還不是一個被廣泛接受的詞。他寫論文用中文提到“具身智慧”概念時,還有人認為這是硬造詞。如同1956年,“人工智慧(Artificial Intelligence,AI)”這個概念第一次被約翰·麥卡錫提出時的質疑一樣——“當時沒人真正喜歡這個名字,畢竟我們的目標是‘真正的’智慧,而非‘人工的’智慧,但是我必須給它起個名字,所以我稱之為‘人工智慧’。”麥卡錫在傳記中回憶。
而當下,具身智慧越來越熱,尤其是今年全國兩會期間,具身智慧首次被寫入《政府工作報告》,與量子科技、生物製造、6G等產業一同列入未來重要的產業方向。近兩年,與星海圖相似的初創具身智慧公司大量出現,被稱為第一波具身智慧創業熱潮。根據科技智庫“甲子光年”的統計報告,截至2024年底,國內有超100傢俱身智慧相關企業,融資總額超過百億元。
“我覺得現在提起具身智慧,大家都興高采烈。”許華哲說,他看到幾乎所有以前做AI的,包括演算法模型和自動駕駛車廠的人都想要加入進來,人才密度特別高。2025年剛過去三個月,又有一撥公司成立,“比想象中要擁擠”。這讓他想起自動駕駛出現後的2016年、2017年,當時他剛去加州大學伯克利分校讀博不久,自動駕駛是學界、業界一個熱門方向。也在那幾年前後,他和星海圖其他幾位聯合創始人,慢慢明確各自的創業想法。

創業夢

如果你讀過美國作家艾薩克·阿西莫夫的科幻小說,一定有印象,他的小說裡,機器人會以動物、汽車或人形等各種形態的高智慧體出現,跟人類的關係密切而微妙。許華哲第一次對智慧機器人產生興趣,就是高中時接觸阿西莫夫的小說。“我覺得如果能做一個書裡那樣的智慧機器人出來會非常有趣,但當時我根本不認為自己有生之年能看到這樣的智慧機器人,我以為要等100年。”
第二次接近智慧機器人,是他2015年在清華大學電子工程系讀大三,有機會去多倫多大學交換一學期。當時他的導師剛從麻省理工學院(Massachusetts Institute of Technology,MIT)畢業,年輕的女老師帶他做專案,比如拍一張照片,讓計算機去數照片中的大樓有多少扇窗;比如用計算機做“汽車品位的排序”,透過人工智慧演算法,給不同特點使用者推薦不同顏色和外形的汽車。這些專案讓許華哲意識到計算機神經網路的強大,它有能力做出判斷、選擇。那是不是說明,機器也可以透過訓練,做出智慧的決策?
星海圖CEO高繼揚(左)和聯合創始人李天威(右),二人在蘇州總部負責機器人供應鏈、本體交付的硬體工作
那次交換的經歷,開闊了許華哲的視野,影響了他之後的選擇。他從那些技術反饋中,感受到一種興奮和模糊的未來。“原來程式碼不僅能寫什麼圖書館管理系統,不只是無聊排序,竟然還能在圖片、影片上有這麼生動的呈現。”許華哲說,那是他除了刷題得高分外,第一次在技術應用上感到如此直接的快樂。他決定去國外讀博,研究人工智慧。
2016年,許華哲到了加州大學伯克利分校。加州大學伯克利分校是研究人工智慧、機器人學習的重地,當年剛好成立了人工智慧研究實驗室(Berkeley Artificial Intelligence Research,BAIR)。許華哲的導師特雷弗·達雷爾(Trevor Darrell)就是BAIR的發起人之一,主要研究方向是計算機視覺語言。博士一年級時,特雷弗鼓勵許華哲開闢新的方向,研究自動駕駛。幾個月後,許華哲作為第一作者,寫了一篇如何從視覺角度,透過深度學習實現自動駕駛的論文,被錄取為2017年計算機視覺領域的最高級別會議之一IEEE國際計算機視覺與模式識別會議(IEEE Conference on Computer Vision and Pattern Recognition,CVPR)的Oral論文(最高級別論文)
2016年是自動駕駛熱度最旺的時期,國際上各大車企都在做自動駕駛技術研發。包括網約車平臺,Uber與老牌的戴姆勒汽車集團共同開發無人駕駛汽車;國內的滴滴出行也開始組建自動駕駛公司。在學術界,各個高校實驗室也積極投入研究,認為自動駕駛是當年人工智慧起來後,最重大的可落地智慧應用。不少人把自動駕駛,當作四個輪子的路面機器人,因為它可以藉助視覺、感測器等技術理解路面環境智慧移動,有很大的產業空間——如同今天的具身智慧熱潮。
同一時期,星海圖另外幾位聯合創始人,正充滿信心地投入自動駕駛研究。
比許華哲大兩歲的趙行告訴我,他2014年開始在MIT讀博,做計算機視覺和多模態研究,同時接觸了機器人和自動駕駛方向。2015年,趙行聯合導師開發了校內第一門自動駕駛課程,之後課程被推廣到其他十餘所高校。“我覺得自動駕駛是非常好的行業,雖然它後來發展起起伏伏,但從社會價值來看,無論是政府、學界還是產業界都認可這件事。一項技術驅動的產品,有商業價值,並且長期有社會價值,這就是我想做的事情。”因此,2019年博士畢業前,儘管有Facebook、OpenAI等機構邀請趙行,他還是決定投入產業,加入知名的自動駕駛公司Waymo做研究科學家,他在那裡認識了高繼揚。
星海圖北京公司的兩名工作人員在除錯機器人R1的夾爪
至於創業這件事,幾位創始人都是在學生時期萌生的想法。高繼揚接受媒體採訪時曾說過,他在清華讀本科時,就“一直琢磨屬於我們這代人的機會到底是什麼”。當時(2011~2015年)是國內移動網際網路最風生水起的時候,“看著網際網路巨頭覺得很牛,但也明顯感覺到網際網路不是我這一代人的機會,直到大四接觸到AI深度學習,我很感興趣,覺得這能徹底改變世界,因為它跟網際網路不一樣,網際網路改變了生產關係,而AI讓生產力再次得到提高”。
“想要改變世界、實現個人價值”,類似的話,我也在許華哲和趙行口中聽過。這群來自中國頂尖高校的學生,似乎更自然地擁有這樣的熱情和衝動。尤其在2015年前後,國家出臺政策,鼓勵大眾創業、萬眾創新,鼓勵運用網際網路和開源技術,構建創新創業平臺,也引導機構投資科技型中小企業。清北校園裡,常有學生在大大小小、不同的領域創業。
稍有區別的是,星海圖這幾位聯合創始人更在意技術驅動的長期創業,而不是以產品是否有噱頭為先。趙行曾在讀博士的頭兩年,以首席科學家的身份與同學聯合創立一家人臉情緒識別的公司。用計算機視覺技術,判斷、蒐集人在觀看廣告時的反應,據此資料對廣告內容做評分,再把這個資料反饋賣給廣告公司。大約一年後,趙行離開了公司。“我覺得技術太薄了,我還是對硬科技有嚮往,希望能做長期規劃、技術支撐的事業。”之後,四人陸續回國,想在國內最大化實現個人價值。

做技術驅動下的“鏈主”

最先感到創業時機來了的是高繼揚。1992年出生的他看起來沉穩老練,說話語速很快,左側頭髮常年有一縷自然白。高繼揚很早就在為創業做準備,他用極快的速度,三年半讀完博士,畢業後在Waymo和Momenta的兩段工作都有明確的目標——Waymo鍛鍊技術能力,後者學習量產交付和管理團隊的能力。隨後他也確實完成了目標,有自己的技術成果和管理百人團隊的經驗。
2022年底,高繼揚覺得做AI機器人的時機來了。這除了與他自身能力提升有關,也有大環境的因素。那一年,國際上先是有Figure AI這樣致力於通用人形機器人的公司成立,迅速獲得關注和融資,特斯拉也在9月釋出第一代人形機器人Optimus。而年底ChatGPT的爆火,讓世界看到大語言模型的成功,似乎只要資料量增大,模型的智慧程度就跟著增大,有無窮上限。而在國內,關鍵零部件供應鏈不斷成熟,價格優勢等,正在縮小中美差距。高繼揚決定,在Momenta做完最後一個產品交付後離職創業。
幾個月後的2023年,徹底解除疫情封控後不久,趙行和許華哲也有了迫切想要創業、時不我待的心情。許華哲記得,他在加州大學伯克利分校的導師經常說,“不要等待一艘已經離開的船”。意思是無論做研究還是創業,不要做別人已經做到頂點的事。而2023年,具身智慧的船可能剛開始搭建。許華哲回看2016年前後國內成立的自動駕駛公司,雖然也經過寒冬、淘汰了一批企業,但最終活到現在且活得不錯的幾家,還是最開局就進來的人。“他們做得早,積累了各種資料、客戶壁壘,寒冬一過可以迅速復活,具身智慧也是一樣,再等幾年,機會就少了。”所以當2023年中,高繼揚陸續找到互相認識的幾人討論創業後,幾乎沒什麼猶豫,四個“90後”創業團隊就成形了。
“從成立開始,我們就有共識,要以技術驅動為核心,做一家‘鏈主’企業。”許華哲向我解釋,“鏈主”意味著全產業鏈的主人,星海圖希望最終能自研本體的各個零部件、製造本體,同時研發出演算法模型,訓練機器人在物理世界做各項任務,有直接把整機產品交付給客戶的能力,不被產業鏈上任何環節鉗制。“就像汽車行業裡的比亞迪、特斯拉,而不僅是供應商。”
但剛開始創業,距離“鏈主”還有很長一段路,要先從哪兒開始?星海圖經歷了兩三個月的探索期。
作為CEO的高繼揚是四人中最有產業管理經驗的角色。他務實,非常在意商品的成本、收益,以及可落地性。他在不同場合對外提到過“失效成本”的概念。他常用Robotaxi(自動駕駛出租車,類似於國內的“蘿蔔快跑”)舉例,假設它失效一次,發生碰撞,大概要賠償幾萬到幾十萬美元不等,而ChatGPT失效一次,成本僅僅是浪費了使用者20秒時間,失效成本很低,收益才能為正。
而星海圖剛註冊時,具身智慧創業熱潮還未顯現,加上疫情後經濟大環境欠佳,高繼揚和夥伴們不確定市場是否看好具身智慧,所以選擇偏保守,決定先發揮自動駕駛背景優勢,在小區、園區內做一個有手臂的物流機器人,幫助使用者送餐、送貨上門,獲取收益,同時有資料反饋。做通這個場景之後,再擴大業務。
但很快,他們發現具身智慧“是一個比想象中更大的事業”。首先是融資市場反饋很好。2024年1月,星海圖完成天使輪第二輪投資,獲得IDG資本、BV百度風投等機構投資的幾千萬美元。另外,他們發現美國新成立了一家叫作Physical Intelligence的、致力於機器人大腦研究的公司。創始人中,加州大學伯克利分校教授謝爾蓋·萊文(Sergey Levine)、前谷歌AI研究員切爾西·芬恩(Chelsea Finn)都是他們當年在海外讀書時非常熟悉的師長級別人物,這給了他們更多開拓的信心。
星海圖迅速轉變。2024年初,他們決定不侷限於一個業務,同步研發機器人本體、演算法模型和擴大商業場景。同年3月,北京辦公室投入使用。“終局來看,我們想做出一個通用具身大模型VLA(Vision Language Action),類似於現在的ChatGPT,你輸入一個文字或圖片指令,機器人能直接做出反饋,不過是動作上的反饋。”趙行說。

資料閉環

“放可樂。”
“放雪碧。”
“拿最近的碗。”
“清掃垃圾。”
在一個廚房桌面前,工作人員直接跟機器人說話、下指令,機器人一邊語音回覆“好的”,一邊完成任務,在聽到“停止工作”的聲音後,垂下雙臂靜立。
這是星海圖今年3月下旬釋出的一則一鏡到底影片,影片中灰黑色的機器人R1,是去年初公司決定轉向後,花了半年左右做出來的完整本體,除了晶片外,90%以上全自主研發。R1不同於雙足人形機器人,下肢選用了輪式360度底盤。“我們現階段客戶所在的工廠、園區,絕大部分都是硬化路面,輪式可以走得更穩更快。而且目前對機器人上半身操作能力需求更大,這樣的輪式便宜、落地快,是現階段最理想的商品形態。”許華哲說。
如果仔細看這則影片,會發現左上角備註“端到端VLA模型驅動”。這是星海圖的技術目標,希望研發出一個類似於大語言模型,但能讓機器人在物理世界執行任務的具身智慧大模型。換句話說,只要有了這個模型,未來智慧體可以是任意形態——人形、輪式、四足……
星海圖聯合創始人趙行(左)和許華哲(右)在北京公司,身後是他們搭建的廚房場景,廚房裡有各種任務需要機器人學習
那麼,什麼是端到端的方法?許華哲以機器人伸手抓水瓶為例解釋,傳統的分層方法,可能是把這個行為分為四步:機器人先檢測水瓶在哪兒,再判斷位置,然後伸手到附近,最後抓取。每一步都需要寫一個規則,這很容易造成規則的堆疊,從而每一步都產生小的誤差。而端到端的方法,不去寫過多規則操縱機器人,而是讓它透過大量資料學習,最終直接執行抓瓶子的任務。雖然作為觀眾,我們看到這個動作都是一樣的,但端到端的上限更高,機器人可以自動校正誤差,有點類似ChatGPT與人聊天時,可以不斷校準自己的回答。
聽起來,端到端是一種萬能方法,但要實現這個結果,需要大量的資料和模型訓練。同樣以ChatGPT為例,訓練出如今大語言模型的網際網路文字資料在千億級,圖片和影片資料在百億級,而機器人這樣一個幾乎需要物理世界所有資料的平臺,目前僅有幾百萬個數據片段。所以,目前行業內公認的難題之一就是資料採集。趙行告訴我,現在大概有四種方式獲取資料,分別是真人遙控操作、VR操作、模擬器模擬學習、影片學習,其中資料最精準、成本也最高的是真人遙操,也是星海圖目前主要的資料採集方式。
“這裡容易有個誤解,並不是說大家都‘燒錢’找真人遙操採集資料,就一定能做到行業領先。如何採集高質量的、機器人能學會的資料?如何降低採集資料的成本?採集資料後如何訓練模型?這些問題都很重要。”趙行說,目前機器人依然在練習認識這個世界,它所依賴的除了資料,還有人的干預和解釋,這就進一步需要優秀的訓練模型——越好的模型,越能使用較少的資料,完成低錯誤率的任務。
2024年11月,許華哲帶領團隊釋出了具身基礎VLA模型Efm-1,這個模型僅需大約50條真人演示資料就能學習資料中的動作,成功率達85%。同時還能簡單地泛化,比如不僅能學習資料演示中的抓玻璃杯,還可以在完全沒訓練過的情況下,抓取跟玻璃杯大小、形狀相似的其他杯子。
趙行團隊也在同一時期發現一種擴充資料的方式。原本,訓練機器人的方式之一是在模擬器中建構出一個虛擬環境,然後在真實場景中部署。但這種方案往往因為虛擬和真實世界中的誤差,導致機器人學習效率很低。而趙行團隊藉助最新的可微分渲染演算法,用相機拍攝一條真實世界中的影片進行三維重建、渲染,再在模擬器中對這些真實資料做增廣,訓練機器人。能有效縮小虛擬和真實世界的鴻溝,還能把一條真實資料擴充成上千條,這成為星海圖訓練演算法模型的資料補充方式。
有了基礎的VLA模型和資料增廣方式後,星海圖更在意透過資料閉環來迭代模型。趙行告訴我,目前世界上最成功的資料閉環方式是特斯拉的。“他們把車賣給使用者前,就在車內裝上了自己的晶片和一套演算法,幾百萬個車主開車的時候,演算法就在後臺對比人與人之間的駕駛差異,便於之後最佳化自動駕駛演算法,特斯拉是第一家這樣做的,所以後來誰也趕不上它的速度。”而具身智慧領域,目前還沒有一套這樣公認的資料閉環方式。星海圖能做的,就是在把機器人交付給車企、物流園這樣的客戶後,依然擁有資料自主權,在後臺獲取機器人執行工業任務的所有資料,實現小型閉環。“有了資料反饋,我們再改進演算法,這就是資料驅動。”

一輩子的目標

許華哲經常用機器人做飯的例子,描述他心中理想的具身智慧大模型能達到的程度。
“我最想讓機器人做的是一道松鼠鱖魚,為什麼?首先因為我很喜歡吃松鼠鱖魚,其次因為這足夠難。想象一下,魚是活的,能動、又滑又黏,還有顆粒狀的鱗片,外硬內軟。處理完活魚,還要會改刀、油炸、炒糖色、澆汁、擺盤等等,如果一個機器人能做完這些,一定程度上能證明它的智慧程度非常高。”許華哲說,他一度把這當成“一輩子的目標”。最近一年多資本、人才的不斷湧入,讓他稍微樂觀了一點,覺得也許十幾二十年就能吃到機器人做的魚。
但另一方面,目前關於通用具身智慧大模型這個被稱為機器人大腦的研究,在行業內還只是開始,星海圖的Efm-1模型還需要不斷進化。不久前,同在2023年成立的上海智元新創技術有限公司(簡稱“智元”)也釋出了自研的具身模型。“大家的目標沒有太多差別。”趙行告訴我,行業內不少公司也跟星海圖一樣在做大模型,同時研發機器人本體。只是現在還處於早期階段,沒有一個統一的標準評判誰的模型更好。連網際網路大廠也少有下場做機器人的,更多隻是投資。“大廠更適合做迭代速度快的軟體,而具身智慧目前整體技術路線還沒有收斂,在通往終點的路上,很難講我們現在走了多遠。”趙行說。
這樣一個長期的賽道,初創年輕公司要怎麼活下去?會不會又像自動駕駛行業一樣,融資跟不上的時候倒下一片?
長期關注具身智慧領域的藍馳創投投資人告訴我,他們看重兩類創業團隊:一類是既懂演算法資料,也有硬體能力,同時能商業落地的“六邊形戰士”,具有長期優勢和競爭門檻;另一類是有一技之長,在某些方面有明顯差異化優勢、特色的公司。“比如銀河通用公司的演算法能力非常強,也很受資本市場青睞。”高瓴創投的創始合夥人李良更關注具身智慧領域的大模型技術,先後投資了智元、星海圖、靈初智慧等多家公司。他更看好“技術極客與行業老兵”的組合,認為這樣才能深刻了解產業鏈,同時做出顛覆性的技術創新。他舉了智元的例子,認為智元不僅有技術極客團隊,另外,“智元的董事長兼CEO鄧泰華,曾是華為副總裁,計算產品線的總裁,有豐富的管理經驗、商業化資源積累以及產業整合經驗,加速智元從實驗室創新走向規模化應用。而且公司位於長三角的上海,供應商都集中在兩三百平方公里內,在產業鏈協同上非常高效”。
R1 lite是隻有機械臂和下半身的機器人,有程式設計能力,售價19.9萬元。是當下很有價效比、適合科研的產品
但一個共識是,路途遙遠,現在誰都無法說自己能安全到岸。雖然星海圖也擁有“六邊形戰士”團隊,自主研發的具身基礎模型也在迭代,10億人民幣左右的融資總額算得上行業前列。但在不斷有新公司湧入的背景下,幾位聯合創始人都能感受到融資上的競爭。高繼揚說,公司目前能做的是“沿途下蛋”,儘早盈利,要一直留在第一梯隊。
但當下,最基礎且必不可少的工作之一還是資料採集。三月底,星海圖蘇州和北京加起來有80名左右員工,其中大約20名在做資料採集工作,在行業內不算大規模。我見過這些年輕的資料採集員,他們大多本科剛畢業,有些還在試用期,看起來青澀、聽話。我想到兩年多前,我去黃土高原採訪一群做資料標註的“寶媽”。她們當時正在為大語言模型、人工智慧服務。那份工作無需太多技能,“寶媽”們基本是小學、中學學歷,只要學會使用電腦,然後整日坐在桌前,從數不完的文字、圖片和影片資料中,標註出“什麼是梨子、蘋果?”“什麼是憤怒情緒?”之類的問題。
這群年輕、成天加班的大學生做的工作,當然比資料標註難一個層級。但當他們拿掉VR眼鏡,眼眶上露出兩道紅印,以及傍晚6點半,接到電話,下樓去拿他們的“拼好飯”外賣時,又讓人感到一種相似。
點贊”“在看”,讓更多人看到
 排版:初初 / 稽核:雅婷

招聘|撰稿人
詳細崗位要求點選跳轉:《三聯生活週刊》招撰稿人
本文為原創內容,版權歸「三聯生活週刊」所有。歡迎文末分享、點贊、在看三連!未經許可,嚴禁複製、轉載、篡改或再發布
大家都在看

點贊”“在看”,讓更多人看


相關文章