“Number 5 stupid name… want to be Kevin or Dave!”
—— Johnny 5

《機器人五號》(Short Circuit)講述了一個機器人被雷擊後獲得自我意識,開始探索世界的故事。影片中的Johnny 5 充滿了情感和好奇心,甚至能夠模仿人類的行為和思考,這種突破性的設想觸動了兒時的來傑。
作為星塵智慧的創始人,他現在終於有機會去創造“真正的智慧”,“將所有的資訊在某個高維空間對齊”,讓機器人不再僅僅是執行命令的工具,而成為能夠理解環境、感知情感、自主學習的生命體。
來傑的故事始於2009年,早期來傑的工作集中在傳統控制領域和機器人本體設計,那個時候,他還未曾想象到AI與機器人將成為他未來的舞臺。
09年開始,他涉獵到強化學習,逐漸在強化學習的研究中找到了新的方向,並開始探索這些前沿AI演算法應用於機器人運動控制的場景。
2014年,百度宣佈全面All in AI,來傑敏銳地捕捉到了這一波變革的訊號。他加入百度,主導了機器人團隊的建設。當時的百度在自然語言處理(NLP)領域取得了一定的進展。來傑在團隊中不僅承擔著機器人相關的研究任務,也在思考一個更大的問題:
“AI與機器人結合的未來會走向何方?”
他意識到,儘管當時AI的發展飛速,但機器人技術的進步卻相對滯後。
2018年,經過深思熟慮,來傑做出了一個重要的決定——辭去百度的工作,加入騰訊,成為騰訊機器人實驗室最早期的成員。在張正友教授的帶領下,來傑和Robotics X團隊成員,圍繞AI與機器人開始了更加深入的探索。
張正友教授曾經預言,機器人與AI的融合將迎來一場革命,這一切將遠遠超出我們現在的認知,這也成為來傑後來的創業原動力。
2022年,對於來傑來說,是一個複雜的年份,也是他職業生涯的一個重大轉折點。他和戴媛決定出來創業,成立了星塵智慧。
星塵智慧的目標是明確的——AI與機器人的融合,是“50年一遇”的機會,類似於當年PC行業硬體與軟體結合所帶來的革命性突破。
兩年多的時間裡,來傑和團隊以“Design for AI”的設計理念,打造更加貼近人類形態、具備精細力控能力以及高效觸覺反饋系統的機器人。
這一切努的力都是為了讓機器人能夠更好地融入我們的生活,機器人與人類將構建起一種前所未有的新型關係。

來傑與星塵智慧
夜幕降臨,當星光灑落在南沙和中山那片遠離城市喧囂的土地上時,來傑常常會帶著他的天文望遠鏡仰望星空。那裡有無數個未解之謎等待被揭開,也有著關於頭頂這片浩渺宇宙最純粹的夢想。
“某一天,當機器人完成繞月一週的任務時,所有人都會抬頭看向天際,去感受宇宙的浩渺與神秘。這個時刻會激發人們對於未知的幻想和期待,這就是人類最大的一種情感與渴望。
ReSpark 本期邀請了星塵智慧的創始人來傑和天使投資人德迅資本的Ted 作為本期訪談的嘉賓,播客內容非常精彩,歡迎收聽

以下為訪談全文,經ReSpark梳理,Enjoy it!
訪談要點
AI+機器人是“五十年一遇"的時代機會
從PC的發展軌跡看機器人當前的發展路徑
AI+機器人是智慧革命的起點
如何構建機器人的世界模型
Design for AI, 為AI而設計
星塵智慧的設計哲學:Design for AI
路徑探討:驅動方案&觸覺&模型&資料
機器人如何反哺AI
機器人與人將構建一種新的關係
從5年和10年看機器人的應用暢想
機器人如何融入我們的生活
機器人將成為新的內容生產平臺
頭頂的星空與內心的道德律
機器人熱愛的源頭
創業的心得和感觸
星塵智慧的星辰願景
AI+機器人
是“五十年一遇"的時代機會

ReSpark:22年9月星塵智慧創立時,GPT3.5還沒有出來,也還沒有具身智慧的概念,可以說時間點是非常早的,當時在這個時間點創業,是提前看到了什麼樣的機會?
來傑:我之前花了大量時間去研究了PC機行業的發展歷程,特別是1975年到1986年這十年的關鍵階段。
PC機行業的崛起是硬體和軟體深度結合的結果。早期,普通人對電腦的認知是“它非常複雜,幾乎不可能被普通人使用”。但隨著硬體和軟體的協同發展,PC行業完成了兩個至關重要的步驟:
第一,普通程式設計師無需電器知識,也能程式設計。因為早期程式設計師必須懂相關知識才能寫程式。第二,有人來進行軟體開發,使得PC的基座通用性變大,後來的使用者也逐漸增多。
我分析了那十年裡幾乎每半年發生的重大歷史事件,得出了一個重要的結論:
現在正是一個“50年一遇”的機會,這個機會點就是機器人和AI的融合,類似於當年PC行業硬體與軟體結合所帶來的革命性突破。
我們認為機器人和AI的結合不僅僅侷限於科研領域,而是從科研人員開始,逐步發展到普通程式設計師能夠開發機器人,最終普及到大眾,這個增量市場才是最大的市場。
這種發展模式類似於個人電腦的發展,但與手機的網際網路革命有所不同,移動網際網路是資訊革命的第二次增長曲線,但不是資訊革命的源頭,而AI+機器人則是智慧革命的起點,機器人的崛起是智慧革命的源頭。
ReSpark:如何進一步理解智慧革命的源頭?
來傑:技術上來說,我之前做過NLP,到現在有種強烈的感覺,所有的資訊在高維空間是可以對齊的。我們可以用語言,無論寫得多麼複雜,去解釋很多事情,甚至可以解釋圖片,比如Tranformer它在各個領域的應用可以看見它極大使很多資訊在某一個空間產生了對齊。
我認為,這種“對齊”的結果很快就會到來,方法已經有了,缺的只是資料。所以在那個時間點,我意識到自己好像抓住了什麼是“真正的智慧”。
真正的智慧,就是將所有的資訊在某個高維空間對齊。
這給我了很大的衝擊,我意識到可以用不同的編碼方式,將所有的資訊都能最終歸結到一個非常抽象的空間,對齊後的資訊變得連通,這就是我當時篤定出來要創業的原因。
而現在我認為目前還有兩個關鍵的“果子”未摘:一個是世界模型與具身智慧的技術結合;另一個是世界模型與具身智慧在結合後,帶來的能力指數發展。
ReSpark:剛剛你提到了一個類比, 從PC 時代的歷程來看機器人當前發展的路徑,那類比當年的PC,機器人當前有哪些相似之處?
來傑:非常有意思,現在的機器+AI跟當時PC相比吻合度遠超過我的想象。回到PC時代,大型計算機已經出現,但只有少數程式設計師在大型機上開發一些特別龐大的演算法。直到蘋果電腦的出現,當時沃茨(喬布斯的聯創)帶著蘋果的個人電腦原型機,去找惠普的老闆,但惠普的老闆直接說:可能全世界沒有超過五個人會使用個人電腦。
但是接下來,它走了一條什麼路呢?它開始把這些產品推廣到校園和發燒友中。當這些發燒友開始使用並傳播時,就產生了一個聯動效應,發燒友們開始開發出一些豐富的更加適合大眾使用的工具和應用,之後個人電腦開始普及。
在科研市場,這種改變更為深刻。隨著PC逐漸進入科研領域,誕生了第一批PC程式設計師。他們不再依賴大型計算機,而是用PC進行開發,並發現蘋果電腦才是他們真正想要的工具。並且可以將他們開發的軟體直接發給客戶,在客戶的個人電腦中使用。這個過程就像原子爆炸後的連鎖反應,帶來了指數級的變化。
回到我們今天所處的機器人時代,技術仍處於起步階段,許多領域尚未完全融合。
但我們已經看到結合點已經到來了。
比如,我們與PI的合作,以及其他領域的探索,都表明機器人技術正在進入一個關鍵階段。現在科研人員則在演算法和程式方面不斷突破,普通大眾開始對機器人產生興趣,我們正在將AI架構與機器人架構進一步拓展。當這些演算法開始進行區域性實驗時,普通大眾的接觸方式可能更傾向於“獲益式”的體驗,比如讓機器人做一杯咖啡。雖然看似簡單,但這會讓人們逐漸習慣於機器人已經成為他們生活的一部分。
當AI足夠強大,世界模型出現的時候,機器人則成為世界模型的最佳終端。
這個發展過程與PC和手機的歷史非常相似。當我理清歷史上的這些發展軌跡時,我感到非常震驚,每一步都像是按部就班地走過來的。未來可能會出現的生態,也像當年PC和手機的發展一樣,可能不僅僅是程式設計師,而是普通大眾也能參與其中,創造出機器人可以學習的新技能。
ReSpark:機器人的世界模型有什麼不同?
來傑:完整的世界模型可能是對人用的,例如你把一個雪球放在火堆上,它沒有融化,這對於人類的世界模型來說是不可接受的。然而,對於機器人來說這根本不重要。所以,機器人的世界模型更關心的是它最終完成的任務,而不在意周圍所有細節的變化。
Ted :明白了,你說的世界模型是為機器人定製的,它不會關心那些細節,它只專注於任務的最終結果,就像你提到的,機器人關注的聚焦點就是它任務的核心,而不關注其他無關的因素。
ReSpark: 在你的理解中,構建機器人的世界模型應該有哪些核心維度?
來傑:世界模型其實主要起兩個功能:第一個是預測,第二個是補全資訊。對於預測來說的話,機器人現在是自身預測MPC,加一些 learning 的方式,它預測得很好,但目前還預測不到的是機器人行為造成其他東西的一些變化。補全資訊對於機器人可以透過三類資訊來構建:
• 第一類是空間資訊,類似李飛飛做的那類工作,涉及空間理解資訊。我們之前在做咖啡機訓練時出現了一個小Bug,問題是當你放入咖啡膠囊之前和之後的畫面幾乎完全相同。這時機器人會誤解,它可能在半天后才意識到膠囊已經放進去。這就說明它缺少空間資訊的感知。對於人類來說,空間資訊是自然的,目前機器人僅依賴當前的感知系統,無法有效理解這一點。所以我們在嘗試補全這些資訊,構建感知與短期記憶的結合。
• 第二類是約束資訊,這個就比較簡單,舉個例子,人開瓶蓋,會自然知道它開啟只有某一個特定的動作,這個動作需要沿著瓶蓋的軸進行旋轉。這些先驗理解會幫助人類理解物體的邊界和限制。對機器人而言,這種先驗理解的約束資訊是缺失的,我們正在努力讓機器人理解這些約束,並引導它做出相應的動作。
• 第三類是物理資訊,包括軟硬、液態與固態、重量等。這些物理特性是機器人必須掌握的,它們對於理解和操作物體至關重要。雖然我們現在並沒有把它們做成單獨的世界模型,但它們在實踐中作為完成特定任務的關鍵資訊。比如,機器人需要知道物體的軟硬程度、是否液態或固態、以及它的重量,以此來指導機器人的動作。
我所描述的,就是構建機器人世界模型的基本框架。當機器人有了這些基本的世界模型後,它能開始執行一些基礎任務,這些任務所積累的資訊,最終會成為更大的世界模型的組成部分。隨著這些資訊的積累和互動,機器人的世界模型會不斷完善。
根據我的預期,可能在半年內,我們會看到一些類似的成果;大約兩年後,機器人會發現哪些常識是必備的;五年左右,它應該已經具備處理大多數場景所需的所有能力。
ReSpark:按這個路徑發展下去,機器人與AI的結合會使機器人可能成為繼電腦,手機之後的下一代通用計算平臺?
來傑:我覺得完全是,並且它的顛覆性很有可能更強。我一直認為,馮諾依曼的架構本質上就是程式與資料分離的架構。但現在,實際上AI挑戰的就是這種架構。你很難說當前模型中哪一部分是邏輯,哪一部分是資料,它們已經是高度融合的。也就是說,AI的發展是對整個計算架構的挑戰。
Design for AI —為AI 而設計


Astribot S1 展示覆雜規劃和精細操作能力
ReSpark:在22年成立星塵智慧的時候,你就率先提出了要做適用於AI的機器人,這個思考源自哪裡?
來傑:從我最初的想法來看,AI的發展是關鍵的源頭,而最重要的增量變數是AI和機器人的結合。這幾年,LLM、VLM,再到現在的多模態發展,雖然這些技術非常強大,但大模型還沒有達到我們想要的智慧水平。然而網際網路的資料幾乎已經用完,無法再為AI提供更多新的資訊。這些資訊應該從哪裡來?答案是機器人。
機器人正是現在這個時間點最應發揮作用的時候。機器人可以完成兩個重要任務。
第一個是與世界進行物理性的互動,像小孩一樣不斷地進行嘗試。第二個是引入更多的物理資訊,這些資訊是從網際網路的資料中無法獲得的。
只有在這些資料的補充下,AI的模型才能得到跨越式的發展,進而構建出一個真正理解世界的模型。
所以我認為,整個發展的源頭是AI的進步,但這一時刻的質變是AI與機器人結合所帶來的。
最終,它會形成我們所稱之為“世界模型”的成果。從這個角度來看,很難說是誰先誰後。但我覺得並不是所有人都有這種認知來推動這件事。所以我們在第一天的時候我就告訴團隊,我們要做一個"為AI而設計的機器人”。
ReSpark:怎麼理解為AI而設計?跟過往的機器人構建理念有什麼不同?
來傑:之前在百度對機器人進行AI訓練的時候,我們吃了很多苦,當時我們用強化學習訓練模型,很多時候模型剛開始執行沒多久,機器人就會撞到桌子上。結果可能要等兩三週的維修才能得到繼續訓練。很多人因此選擇在模擬裡做研究,認為機器人和AI天生是難以結合的。
我認為機器人試錯的成本應該儘量減少,現在就像是給一個兩歲孩子的腦子配上兩米高的身軀和強壯的肌肉,開始讓他鍛鍊智力,這本身就是不合適的。
機器人應該像溫柔的小孩一樣,透過自己的方式探索世界,積累經驗,不造成更大的破壞,逐步提高自己的智慧。
因此在星塵,對於機器人的設計,無論是我們選擇的傳動方式、力控技術,還是上半身構型,都是為了讓機器人行為更像人,適配AI需求。在機器人的訓練上我們瞭解其中的痛點,再加上我們又懂機器人的設計,正好可以發揮來設計最適合AI的機器人。
ReSpark :為AI而設計,在星塵智慧的AI機器人S1上具體是怎麼體現的?它應該具備哪些特徵?
來傑:我們採用了一種少見的繩驅傳動的方案。很多年前,我們做了一個用機器人開門的專案,當時我提出的第一個質疑是:為什麼盲人能開門,而機器人卻做不好?我並不是否認視覺的重要性,而是覺得我們的機器人缺少了某些底層的東西,這一層底層的東西就是“力”的感知和控制,我把它稱作“智慧的力量”,我們必須要為機器人補充這一層“力”的資訊,並且讓模型學會這層資料。
另外,在構型上也做了一些前沿的研究,我們的目標是讓機器人透過 AI 訓練來驅動,最開始的訓練資料集是人的資料集。例如,我們嘗試透過人類骨骼資料訓練機器人,但傳統協作臂只能保留末端資訊,丟失了大部分關節資料。中間會有一個比例差異,機器人與人的動作差異越大,資訊丟失越多,差異越小,效果越好。而如果將這些資料對映到類似人類形態的機器人上,資訊損失會大大減少,因此要讓機器人的行為動作更接近於人。
這與硬體結構相關,純粹做AI研究的人可能沒考慮到這一點,而之前做機器人設計的人也沒想到過這事。我認為,單純從機器人或AI角度思考問題都是片面的,我們設計機器人,不僅僅是把它作為一個工具去完成任務,而是想清楚資料邏輯,機器人和AI的深度結合,才是核心。
從一開始,我們就明確了AI 和機器人結合的方向,並致力於打破傳統界限。這種思維方式,正是未來最寶貴的資源。
ReSpark: 大家都會好奇,你們為什麼選擇了繩驅的方案?如果站在“design for AI”的角度來看,繩驅有什麼特別的優勢嗎?
來傑:我們考慮了多種傳動方式,為了更加仿人和安全,在關鍵身體部位採用了繩驅,因為我需要最好的力的傳遞。
其實在 2021 年之前,我主要從事運動學(locomotion)相關的工作,比如輪足、雙足和四足機器人等專案。但真正的轉折點發生在 2018 年,當時 Mini Cheetah 開源了他們的“秘密”——將行星齒輪整合到外轉子電機中。這個看似簡單的創新極大提升了力的跟隨能力。
此前,我們主要依賴 ZMP(零力矩點)控制,而從那時起逐漸轉向 MPC(模型預測控制)結合強化學習的方式。這種轉變的核心在於力控能力的提升,從而推動了整個軟體和演算法的最佳化。
當時我們也測試了各種減速比和傳動方式,試圖找到能夠實現最佳力傳遞的方案,同時避免如摩擦等不利影響。雖然最初這些工作主要服務於運動學(locomotion),但後來在機械臂領域也產生了類似需求。
經過大量探索,我們最終選擇繩驅的方案,減速比可以透過最佳化進一步放大,在傳動效率和力控表現上達到了一個平衡點。
ReSpark:繩驅傳動在長時間使用中可能出現的問題,比如需要重新除錯等,目前有沒有得到很好的解決?
來傑:這個問題已經解決了。最開始確實發現了一些問題,主要繩驅本身的特性問題。但在這個過程中,我們透過最佳化材料選擇和改進演算法補償,已經大幅提升了繩驅技術的穩定性和可靠性。目前,在我們的壽命測試中,繩驅的表現已經非常接近其他傳動方案。
但關鍵這裡面對演算法的要求非常高。我們有很多演算法需要開發,包括我們常說的“全部自研”,像驅動器也是自研的。背後有個原因,很多核心演算法需要直接嵌入驅動器中,以實現高頻率控制,從而補償繩驅傳動可能出現的非線性問題。
因此,很多以前積累的經驗環環相扣,最終將所有這些元素連線在一起,形成了一種完整的解決方案。我們也會不斷迭代最佳化。
ReSpark: 在硬體上,你們下一步的迭代方向是怎麼樣的?
來傑:首先在硬體方面,現在整個機器人領域還缺少兩樣東西:第一是非常優秀的“手”,我們還在繼續做;第二是非常優秀的“觸覺”。
戴媛曾經在《Science》和《Nature》子刊上發表了十多篇相關的文章研究觸覺。非常客觀地來說,人的四種觸覺細胞在這個過程中都起著重要作用。
現在包括我們自己做的觸覺感測器,只能實現其中一種觸覺細胞的表現,並不能完全做到四種觸覺細胞的結合。當然並不是說一定要實現四種觸覺的融合,而是我們現在要透過資料和模型來完成這個閉環。
我們希望透過閉環來驗證觸覺系統到底該如何設計,不只是關注物理資訊,比如壓力是否被感知,而是如何真正實現從感知到控制、規劃的整個閉環,這才是關鍵。
硬體方面,我們未來的兩大重點將是“手”和“觸覺”。關於手的開發,我們已經做了很多年,包括在騰訊的時候也做過很多相關工作。如果對比說機器人身體的天花板已經達到很高,需要發展AI能力將它發揮得淋漓盡致,但是對於“手”而言,硬體和AI的結合還非常初級,遠未達到融合的狀態。因此,這部分的研發將是我們未來的一個重點方向。
ReSpark:觸覺部分也是自己做的嗎?用的什麼觸覺方案?
來傑:我們有一個陣列頻率非常高的觸覺方案,是模仿人類皮膚設計的電子皮膚,它的頻率能達到1k赫茲。舉個例子,我們之前用基於模型的方法,設計了一個從打滑到調整姿態,直到穩定抓住物體的過程。在1k赫茲頻率下,這個過程大約需要30毫秒就能完成。但如果頻率低,這個過程可能會失敗。所以這是我們基礎的一部分。
目前我們在這方面非常開放,也與一些高校進行合作,申請了相關國家專案。我們認為,觸覺的關鍵點是閉環控制,只有透過閉環,才能進行有效的最佳化。閉環的難度在規劃層,也就是模型層。我們需要將資料輸入到模型中,模型如何利用這些資料得出我們想要的結果,是我們需要解決的關鍵問題。
ReSpark: 在具身模型訓練上的方案選擇?怎麼看端到端和分層模型兩種不同的思路?
來傑:在AI方面,從一開始大家討論是否採用端到端模型,還是分層模型時,我個人認為,這並不是一個特別強烈的技術對立,而是技術互補。因此,我們目前採用的是分層和端到端模型相結合的方法:
我們希望利用分層模型,並藉助大模型來解決那些之前沒有做過、沒有資料支撐的問題。在解決的過程中收集資料,藉助這些資料來訓練一個區域性場景的端到端模型,透過這種方式進行細化。
ReSpark:多模態大模型對具身智慧的發展起到什麼樣作用?
來傑:非常關鍵。因為如果按照我最底層的理解,世界的維度是高於空間的。如果維度不夠,你就無法發現事物之間的關係。
大模型解決的就是將所有資料堆到一個高維空間,讓它在各個維度和角度去找到這些關係。
現在在做的多模態大模型本質上就是在做這件事,抽象的空間已經有了,網際網路的資料也有了,現實空間的資料需要對齊,並獲取補充資訊、預測未來,再用這些資訊來指導機器人的行為,這正是多模態大模型的核心作用。
ReSpark:資料是具身模型訓練的核心,關於資料採集方面,你們在用什麼型別的資料?資料訓練上有什麼獨到之處嗎?
來傑:關於資料採集,我們使用了第三人稱視角的影片、動作捕捉和遙操作等方式。
我們的特點在於讓機器人的行為足夠像人,所以第三人稱視角的影片資料在我們的應用中使用得非常廣泛。
資料上,我們有自己的採集方法,也利用網際網路的影片資料,因為網際網路影片資料足夠多。我們希望機器人最終能夠像人一樣,透過觀察人類的動作進行學習,就像小孩子學習動作一樣。網際網路影片資料對我們的機器人來說是有效的,但如果機器人的動作構型和人體差異太大,骨骼對映方法很難匹配,可能無法使用,因此這個差異要儘可能縮小。
另外我們還使用動作捕捉裝置來捕捉更精確的人體動作資料。所有高精度和高動態的資料都是穿著動捕服裝進行的動作捕捉的。這些資料集包括了很多日常活動。
也有一部分資料是透過遙操作進行收集的。VR是一個非常有趣的工具,透過VR裝置操控機器人,既可以遠端幫助機器人完成任務,又可以收集資料。
ReSpark:你們有使用模擬資料嗎?
來傑:我們也有使用模擬資料。模擬資料與我們的影片資料集非常相似。雖然有些人提到模擬資料缺少摩擦或其他物理因素的問題,但我認為它最大的缺點是缺乏噪聲分佈。在現實世界中,任何物理定律都不能完美的表達物體的變化,會有誤差和噪聲分佈。這是模擬資料的一大缺陷。
我們的核心是一個高維空間,我們不斷在分析各種資料,看看它們能否填補這個空間,並評估資料的誤差。比如,第三人稱視角的資料可以提供骨骼和關節的詳細資訊,但由於誤差較大,我們需要告訴模型它有個較大的誤差範圍。模擬資料通常較為理想化,但會缺失真實環境和噪聲。我們更關注機器人的第一人稱資訊,因為它是機器人執行操作的最直接資料,也是最完整的,但是收整合本也最高。
總之,我們更關心的是資料本身所包含的資訊,而不是資料採集的方法。我們希望透過這些資料相互補充來填補高維空間,無論是實際採集的資料還是模擬資料。
ReSpark:前面你提到機器人作為物理世界的載體,可以反哺AI的資料,提升AI的能力,這與用AI來服務機器人的常見觀點都不同?
來傑 :這裡有很關鍵的點: 我們可以從電腦的發展來看,CPU的進步和它承載的軟體、應用的進化,永遠是相互驅動著往前發展的。另一個點是關於網際網路資料的現狀:現在,網際網路資料已經不僅僅是傳統資料,還充斥著生成式網際網路資料,假如讓模型繼續在這些資料上學習,模型就開始出現偏執。
這就形成了一個必然的需求——AI需要新的資料來源。當前,網際網路資料承載了人類幾十年的知識積累,所有的真實資訊,為模型提供了訓練基礎。但往後,AI的發展不能僅依賴網際網路資料,而是要透過物理世界中獲取真實的資訊。
也就是說,AI需要從客觀的世界中獲取資訊,才能繼續發展,這是不可避免的需求,因此機器人是AI從客觀世界獲取資料的重要載體。
ReSpark:機器人和AI的相互關係,在短期,中期和長期會是什麼樣的?
來傑 :在2-5年的時候,世界模型會與機器人進一步結合,這個階段機器人提供的資料和機器人使用模型之間將會形成一個良性迴圈。現在其實很多正規化還處於探索階段,像我們現在合作的專案也才剛開始嘗試。
到了5-10年,我認為機器人對AI的反哺會變得更加明顯,也就是AI技術會開始在各行各業擴散。
為什麼這麼說呢?網際網路產生的大規模資料對於AI技術,特別是像深度學習等,已經完成了從工具到資料再到模型的轉化。
而機器人產生的資料,在我看來,它包含了大量的物理關係,也就是說,機器人所收集的資料本身就已經在某個物理空間裡被對齊。
這與我們當初處理詞向量時的情況不同。詞向量可能只是一些孤立的符號,如果沒有上下文,它就沒有任何意義。相比之下,機器人所觀測到的資料是有物理意義的,而且這種物理意義可以透過某些微分方程和噪聲分佈來表達。因此,機器人訓練的資料本身就具有一定的物理對齊特性,訓練起來應該更為直接和容易。
人與機器人
將構建一種新的關係


Astribot S1 在製作華夫餅
ReSpark:這個賽道參與者在持續入局,縱觀國內外具身賽道,星塵智慧在什麼卡位上?
來傑:我曾說過,企業競爭是透過市場或使用者劃分的,現在應該是大家共同推動技術的進步的階段。但目前階段我發現,大家開始減少交流,出現了分化,這與我最初的預期有些差距。
在我看來,現在還無法明確劃分商業賽道,未來的市場、客戶和每個公司所做的事情都會發生變化。在未來不久,可能明年中期,就會有世界模型和機器人更好地結合範例。對此,我完全不會感到驚訝,我一直也在為此努力。
所以如果提到賽道的身位,其實現在很多人還把這個問題看得很小,覺得只能在某個具體應用中做事。但從長遠來看,這個行業會發展得非常龐大,最終每個公司都會找到自己在這個領域的定位和選擇。
ReSpark:從5年和10年的時間節點分別來看,你對機器人的落地進展的預期是怎麼樣的?
來傑:市場的大小取決於成本多少。我特別相信中國的供應鏈,越多的人參與進來,價格會迅速下降。最終,很多人會直接去開發或者使用機器人。我甚至預測5年內的階段,這個過程中可能會衍生出兩種形態的機器人市場。
第一個類似當年的網咖,可能在學校周邊會有一些機器人實驗場所,大家去開發一些東西,或者以比賽性質的活動展開。
第二個,我覺得可能會出現類似於機器人的“遊戲”市場。就像電腦發展史中,遊戲發揮了巨大作用。遊戲不僅是軟體的一種極致表達,也是人性的一種極致呈現。它激發了人們對硬體的理解和需求。
對於機器人來說,也許會出現一種現象:某種AI能力和機器人的配合,能以一種全新的方式,讓大家的心態發生轉變,不再是單純讓機器人幹活,而是與機器人進行互動,擁有一種新的關係。
但五年以後,我認為會出現普及的趨勢。當然,普及不一定意味著每個家庭一開始就都有機器人,但可能像早期電腦發展時,便利店,酒店裡面開始放置電腦供客人使用,這種情況將降低使用者的學習成本。
隨著他們在體驗中獲得獎勵,機器人技術將逐漸普及和成熟。五年後這一技術會變得越來越普遍,大家也會越來越習慣並接受它。
ReSpark:聽起來這些場景裡面沒有提到工業場景,而主要是針對老百姓日常生活的場景,比如說遊戲、娛樂、服務這些?
來傑:我個人的思維一直偏增量,而不是存量替代。也就是說,不是僅僅幫老闆省錢,而是幫他如何創造更多的價值。以工業場景為例,我的感覺是,大傢什麼時候願意為個性化產品付更高的價格?比如說如果一款通用產品大家都買,可能是10塊錢,但如果是可以完全定製的,那可能是20塊錢。如果能夠實現這種效果的話,工廠對機器人的需求就會發生變化。那個時候的需求將大不相同,機器人不再僅僅是降低成本的工具,它能夠帶來更大的靈活性和個性化,進而提升利潤。
這其實是增量的價值,機器人帶來的不僅僅是省錢,更多的是如何增加價值。我覺得省錢這不是這一代機器人的核心,和當年電腦的發展類似。
ReSpark:這樣看來,機器人就不再只是一個完成任務的工具了?
來傑:這是我們一直在思考的一個關鍵問題:機器人的作用應該是僅僅在幫我們完成某件事,還是提供了一個可以生成新內容的工具?這是至關重要的。
我們認為,如果機器人提供的是一個生成新內容的工具,它的價值將隨著內容的增加而提升。就像電腦,如果只有一個文件應用,根本不可能賣出去,如果手機上去掉了所有非原配的APP,也沒人願意買。機器人進入家庭後,絕對不可能是所有的機器人都只做某些固定的任務。
所以從一開始我們就在思考,AI和機器人結合是否能成為一個平臺,因為機器人可以做的事情太多了,我們希望逐步降低開發難度。我們想要降低開發門檻,讓更多人能夠參與進來。
降低開發難度之後,可能會有一些應用場景,但這並不是我們想要的核心。我們降低開發難度,供應鏈的成本也大幅降低,最終的利潤空間被更多開發者分配,開發者持續創造新的內容,這才是AI和機器人結合的商業模式。
Ted:我們在2022年討論時,電腦和手機之所以能廣泛應用,最終是因為有了“killer app”(殺手級應用)。我們在想機器人的第一個killer app是什麼。
後來我們意識到,我們其實並不需要去設計這個Killer app。我們只需要打造一個給開發者使用的底層框架和SDK,提供最好的硬體,讓他們去開發,自己去迭代,最終這些開發者會創造出屬於他們的killer app,而不是我們預設一個方向去做。
來傑:現在在星塵,我們的員工已經開始感受到這種變化。就連我們的行政同事戴上VR眼鏡後,參與到不同的機器人操作任務中時,他們的認知狀態發生了巨大變化,他會把自己投身在一個機器人視角上,發現機器人可以幫他們做很多事。
當我們用自然語言讓機器人執行技能時,他們的想象力瞬間飛躍,技能的搭配就可以創造無限的能力。這種感覺與把機器人放到工廠裡的應用完全不同。那種感覺讓我堅信,這就是我們真正要追求的目標。
我始終相信,像電腦和手機這種技術,當每個人在接觸到它們的那個拐點時,都會被深深感動。當機器人進入人們的日常生活,並被廣泛應用時,它不僅僅是一個工具,更是改變大家工作方式和認知的催化劑。只有讓人們真正體驗到機器人能做的各種事情,才會讓他們相信這個領域的潛力。我相信,這正是機器人能成為類似於PC和手機的通用平臺的契機。
頭頂的星空與內心的道德律

ReSpark:你對機器人的興趣來自於什麼時候?
來傑:很早了,我小時候看過一部電影叫《機器人五號》,裡面有一個機器人,英文名叫“Short Circuit”(短路)。這個機器人原本是個軍事機器人,但被雷劈後,他開始擁有類似於情感的東西。電影中,他甚至可以做一些像人類一樣的實驗,比如在一張紙上猜出咖啡杯的形狀,從而證明他具備某種情感意識。從那時起,我就開始對機器人產生興趣。
至今我還記得自己第一次設計機器人外觀的時候,希望它能夠暴露出一些結構和設計細節,而不是簡單地套上外殼。這種思考就源自於那個時候,《機器人五號》差不多是我4、5歲時看過的電影。從那時開始,我一直對這些技術著迷,我也一直從事這個行業,始終沒有離開過這個領域。
ReSpark: 星塵智慧的創業有兩年時間了,這兩年裡的創業經歷中肯定充滿了許多的跌宕起伏,對你而言有什麼感觸嗎?
來傑:前些天我看到一句話,來自一個法國思想家,他說:“人生就是在未知的海洋中航行,在已知的島嶼上獲得補給。”
我看完這句話後,就想到我這兩年的創業歷程:我有一個大的目標,它在很遠的地方。而我在海上漂,我要面臨風浪,我要奮力的劃,我要在每個島嶼上去獲取所需的補給,尋找我的合作伙伴。
創業這條路,我開始漸漸明白,不是什麼特別非凡的事。它是一個非常普通的過程,但是,正是因為這個過程,我在不斷地前行,我逐漸感受到了它對我個人的影響,也感受到了對團隊的磨鍊和成長。我對這段旅程的理解也變得更加平靜與堅定了。
ReSpark:那平時在工作之外,是怎麼放鬆自己的?喜歡做些什麼?
來傑:我喜歡看星星,這算嗎?
ReSpark:看天上的星星嗎?<笑聲>
Ted: 有點低調了,他非常專業。有一次他帶我女兒去看星星,帶了一套非常專業的裝置,去到一個很黑的公園裡。那天正好是中秋節,可以看到月亮,還有月球表面的坑,這些都能看得很清楚。很多小朋友都過來圍觀,路人也會停下來問,我女兒特別開心。
來傑:是的,有時候會去南沙,現在有時會去中山那邊。那裡的天空很乾淨,周圍光害也少。我們會帶著裝置,開車過去,然後佈置好一切。有時候拍攝需要等上兩個小時,甚至三個小時。我會靜靜地在旁邊等著,想想自己的事情。這個過程我很喜歡,因為它讓我特別地沉浸,感覺自己變得很透徹。這不僅是我的愛好,也是我在創業過程中的一種自我調節和放鬆的方式。

來傑拍攝的月球
ReSpark: 暢想到未來,你希望星塵智慧的機器人帶來什麼樣的想象和新的可能性?
來傑:我特別認同康德說的,世界上值得思考的只有兩件事:一是頭頂的星空,二是內心的道德律。我把頭頂的星空理解為物理世界和所有的物理規律。至於內心的道德律,它代表著星塵自身的價值觀,這也是戴媛給我的啟發。
我們一直在做平臺,讓每個人都能參與進來、開發、創造,甚至體驗到機器人的無限可能。我覺得這些思考是我們團隊最核心的部分,甚至在創業之前,我就已經開始設想和規劃了。
某一天,當機器人完成繞月一週的任務時,所有人都會抬頭看向天際,去感受宇宙的浩渺與神秘。這個時刻會激發人們對於未知的幻想和期待,這就是人類最大的一種情感與渴望。
而我們做機器人,就是希望能讓人們實現這一點,幫助人類拓寬視野,探索更多的可能。雖然現在大家可能不相信,甚至覺得遙不可及,但某一天,大家會開始相信、看到、感受到。機器人在某種程度上釋放了人類的創造力和好奇心,這是我們真正追求的價值……