逐際動力張巍:人形機器人不進工廠,具身不堆真機資料丨具身智慧對話#10

逐際動力創始人 張巍
“如果堆資料、堆算力就能領先,這裡沒有創業公司什麼事了。”
文丨李梓楠
編輯丨程曼祺
這是《晚點 LatePost》 「具身智慧對話」系列的第 10 篇。該系列將持續訪談智慧機器人和自動駕駛產業鏈頭部公司。往期文章見合集#具身智慧對話。
2022 年 10 月的 AI Day ,馬斯克站在渾身裸露著線束的 Optimus 原型機邊上說,人形機器人產業會是人類歷史上規模最大的製造業。
在 Optimus 亮相前的 5 個月,逐際動力成立於中國深圳。這之前,逐際創始人張巍在美國待了 16 年,他在普渡大學電氣與計算機工程系獲得博士學位,後在加州伯克利擔任博士後研究員,於 2017 年成為美國俄亥俄州立大學終身教授。
一般在美國拿到終身教職的人,不會輕易離開,而張巍則在不久後回國,他說原因很簡單,“不想在國外待一輩子”。
從教授到創業者的轉型,在張巍眼中也自然而簡單:那時他意識到,機器人未來可能只有 10% 的進步會來源於原始學術創新,剩下的 90% 都要靠工程實現,在工業界能做的事比在學界更多。
大部分人形機器人和具身智慧公司致力於提供軟硬一體的機器人產品,而在創立逐際前,嘗試過 “進工廠” 落地的張巍現在選擇了一個獨特的定位:做具身智慧工具公司——把機器人本體和 AI 軟體工具提供給想在具體行業和場景落地的具身應用創新者,他們可能是深耕行業已久的整合商,可能是有智慧機器人需求的客戶本身,也可能是愛折騰的個人開發者。
當用具身基礎工具提供商的視角來檢視行業,張巍認為,行業現在最缺,且價值最大的是人形機器人小腦和具身大腦——小腦和本體配合,解決機器人全身控制和全地形移動問題;大腦則解決機器人泛化問題,讓機器人學會做更多事。
其中,大腦不好是當前人形機器人沒法應用的核心;做出大腦的關鍵是找到高效生產具身智慧模型的方式,他稱之為尋找具身智慧領域的 “工業母機”。機器人公司的競爭,本質就是生產具身智慧模型的方法和效率的競爭。
逐際剛在上週五(2 月 14 日)釋出了基於影片生成大模型的具身操作演算法(LimX VGM)。用人類操作的影片資料,而非依賴機器人真機資料,正是逐際找到的提高模型生產效率的重要方式。
為解決小腦和全地形移動瓶頸,逐際則陸續推出了雙足機器人、全尺寸人形機器人等研發成果。
具身大腦的研發是一場現在還看不到清晰跑道的比賽:技術方法尚未收斂,一批具身智慧公司正踐行他們相信的攀爬路線。有公司用更聰明的遙操方式採集真機資料;有公司 all in 模擬;也有特斯拉等大公司計劃直接生產數千臺機器人丟到工廠裡幹活。
有分歧與不確定性的地方,往往風險與機會並存,人形機器人尚不是大公司能充分發揮資源優勢的領域:“如果堆資料、堆算力就能領先,這裡沒有創業公司什麼事了。” 張巍說,這是逐際的機會所在。
逐際不是做 “腿” 的公司
晚點:2024 年的雲棲大會上,你和宇樹科技王興興、銀河通用王鶴、星動紀元陳建宇等具身智慧從業者聊 “人形機器人” 應該看什麼門道,王鶴說機器手和操作能力重要,你說 “好不好先看腿”,不少人認為逐際是一家想從移動能力切入通用機器人的公司,為什麼這麼選擇?
張巍:這是個誤解。我們不侷限於移動能力,我們是哪個部分做出來價值最大,做哪個。
任何形態機器人的主要價值有三個部分:本體、小腦、大腦。小腦往往和本體形態緊密耦合,做運動控制;而大腦則需要更多智慧,能感知環境、理解任務和完成複雜任務。
帶 “雙腿” 的人形機器人和它的運控 “小腦” 是當前最值得投入研發的硬體形態,人形機器人的全地形移動和全身控制能力是最近 AI 技術變革後,技術路線才開始收斂的方向,還沒有很好用的產品(不是 demo)。就是馬斯克說的,物理上可以實現,現實中還沒有,又是未來必要的。
而價值更大的 “機器人大腦” 則還沒有收斂。我認為,機器人大腦由要完成的任務決定,所以是多種多樣的,並不是一個大而全的模型,而是由很多不同的具身模型連線而成,和任務高度耦合。
晚點:這個觀點是主流還是非主流?比如李想認為,機器人上的模型未來會統一為一個 VLA 模型(Vision-Language-Action Model,視覺語言動作模型) 。
張巍:並不矛盾,只是定義的區別。“端到端” 是一個特別容易讓人產生幻覺的詞。
其實,任何一個功能模組,只要輸入輸出資料足夠多,都能訓練出一個端到端的模型來完成。端到端模型依靠的是端到端資料,而資料又取決於模組的任務場景與目標,單一任務容易做到端到端,多工更適合能力組合。比如機器人行走和手裡玩魔方應該是不同的技能模型,當然也可以囊括在一個所謂的端到端大模型中被任務分別啟用。大模型落地中用到的 MoE(混合專家模型)技術和 AI Agent(智慧體)技術,都是小模型組合的例子。
晚點:要同時做多個具身模型,逐際作為創業公司能搞定嗎?
張巍:關鍵是找到正確的生產模型的方式,我們稱為具身模型的 “工業母機”,也就是生產模型的一套方法和工具鏈。我認為這才是現在通用機器人最缺的東西。
我強調模型母機的重要性,是因為目前行業還主要關注具身模型的效能指標,而我認為更重要的其實是生產模型的 “工業母機” 的評價指標,也就是模型生產效率,而不是具體的具身模型本身。
晚點:具身模型的 “工業母機” 要怎麼做?
張巍:我們和主流做法不一樣,我們不追求堆資料來提升效能。
原則上講,任何能 “生產” 具身模型的流程方法都算是模型的 “工業母機”。目前比較流行的端到端真機資料方案也是一類模型母機:只要真機資料足夠多,就可以完成具身任務,而且資料越多、泛化效能越好。但這種方法效率太低,訓練成本太高——現在沒有誰能以商業上可接受的成本獲得機器人所需的足夠資料,大公司都承擔不起。
所以我們追求 “資料-效能” 轉化率——以更低的資料成本訓練出效能更好的具身模型。這個方法業內還沒有收斂,如果已經收斂,其實就沒有創業公司的機會了,就 game over 了,因為那會變成拼資源的遊戲。
晚點:各公司都在努力提升 “資料-效能” 轉化率,比如有公司 all in 模擬和合成資料,也有公司在努力提升遙操獲得真機資料的效率。逐際的特點是什麼?
張巍:現在機器人有三類主要資料:
一是大家最著迷的真機資料,就是讓機器人自己去運動然後收集資料。這類資料少、貴,而且機器人換個硬體形態,資料可用性就會降低,比如攝像頭角度一變,資料就沒法直接用了。
二是模擬資料,本質是靠建模。
三是網際網路上的文字、影像和影片資料。
這三個我認為缺一不可,都得用。其中,用好網際網路圖片和影片資料,對提升資料效能轉化率有很大潛力。
晚點:但影片資料的一個問題是精度不夠,而且影片裡缺一些真實物理世界的資料維度,比如物體的重量,拿住時的摩擦力,不同材質的觸感等。
張巍:現在還不需要考慮這個問題,因為機器人觸覺感測器還不成熟,有效觸覺資料太少。
我們反而認為網際網路資料是個機會,利用現在越來越好的影片生成和理解技術,我們現在能以更低成本獲得更多操作資料和一流的操作決策能力;光生成 2D 影片不夠,我們還生成帶深度資訊的影片,這樣才能讓機器人形成空間智慧;我們還把演算法和本體形態解耦,只用人類操作的影片資料就可以訓練具身模型——比如拿杯子這個動作,這個動作在網際網路影片裡有很多,哪需要去真機採集?雖然很多人覺得這些影片質量不行,沒法用,但我們認為這反而是個機會,我們已初步試過了,覺得挺有希望。
晚點:模擬也是真機資料之外的提效方式,你怎麼看模擬的重要性,逐際有什麼實踐?
張巍:你可以把模擬資料叫 “模型資料”。模型本質上是對已有人類知識和資料的壓縮。無論牛頓定律還是大語言模型,都是一種模型。只是牛頓把運動這些資料壓縮得比較極致,微分方程,幾個符號就夠了;而現在找到了語言這類離散資料的壓縮方式,把模型存在了一個 neural network(神經網路)裡。所以模擬的本質就是對物理世界建模。
我們也很重視模擬,我們不研發模擬器本身,更多關注 Real2Sim2Real (現實到模擬到現實)的能力。這能幫助我們構建真實場景和環境感知資訊,然後透過強化學習來訓練機器人完成操作任務。我們認為,模擬 +RL(強化學習)的方案生產模型的效率潛在會遠遠高於端到端方案。
服務機器人行業創新者,不進工廠
晚點:你之前說,現階段最重要的是讓具身模型 “泛化”,而不是針對具體場景去提升效率、穩定性,但你們最開始做過四足機器狗進工廠的巡檢場景,為什麼有從服務具體場景到追求泛化的變化?
張巍:最早是透過場景來迭代技術。後來我們對場景與具身技術的關係有了更深的理解,對我們的定位也更清楚了,我們不直接做解決方案,而是做標準化機器人產品和所需要的 AI 工具鏈,來幫助整合商在各個場景中落地。
逐際人形 CL-1 全身運動控制,完成搬箱子。來源:逐際動力。
晚點:逐際明確不進工廠的決策過程是怎樣的?
張巍:這個沒有對錯,是我們根據自身特點的一個選擇。
主要兩個原因,一是技術優勢與場景需求不匹配。這次大模型引發的技術變革的關鍵是 “泛化” 能力,而工廠落地需要的是可靠性、高效率、高精度,這些都不是具身智慧技術的優勢,有些反而是弱點。而且工廠裡,現在跟人形機器人配套的很多東西都是缺的,生態環境也不支援落地。
還有就是人形的形態,無論輪式雙臂還是雙足人形,都不是解決工廠場景的最佳選擇。就算未來具身演算法進步了,可以讓機器人擰螺絲了,也沒必要用人形來擰,傳統機械臂,甚至專機 +AI 都會更高效。
另一個是工廠場景和我們的創業目標不匹配,我上一次創業的公司是專注工業場景落地的,那些人太值得 respect。你得真的熱愛這個場景,在裡面積累大量行業 know how 才可能真正做好這件事,而且創業公司只能專注解決一個場景,我覺得在當前階段進工廠和發展通用機器人技術是矛盾的。
晚點:那你們的客戶是誰?
張巍:我們定位是具身智慧工具公司,提供機器人本體和 AI 軟體工具,服務想在各行各業落地的具身智慧具體應用的創新者,做具身智慧行業的英偉達。
我看之前黃仁勳接受採訪說,他們最近十年把計算成本下降了 100 萬倍,這個特別好,英偉達做到了這件事,才會有各種 AI 應用的落地,他本質是在服務創新者,我們也想做類似的事。
我們有兩個目標主要,讓創新者更高效地創新,和讓更多人成為創新者。可以說 AI 的發展主要得益於工具的豐富,然而機器人領域的創新涉及到軟硬結合,還有太多痛點需要解決。
晚點:這是一家創業公司可以做成的事情嗎?英偉達最初也是針對遊戲等具體場景的,後來才慢慢變成更多領域的創新基礎設施。
張巍:英偉達在轉型 AI 計算的時候,黃仁勳說 “市場為零”,那時英偉達也不是一個很大的公司,其它更大的公司看不懂,也不願意做這個方向。
英偉達做成這件事的關鍵是,它是 AI 創新裡關鍵的推動者和效率的提升者,同時理解 AI 技術研發和創新者的需求,然後指導英偉達自己的硬體迭代。我們在具身領域做類似的事,比晶片的門檻要低,但涉及的鏈條更多,需要對大模型技術創新、人形機器人設計、傳統機器人演算法設計、機器人落地流程都有深入理解。
這是一個充滿未知、需要快速迭代的新興市場,這涉及很多跨領域的新興技術,很多事需要被重新定義,所以才是創業公司的機會。
晚點:更具體來說,你們現階段的主要客戶會和宇樹的人形機器人一樣是高校、科研機構和實驗室嗎?
張巍:你覺得英偉達向誰收錢?服務創新者,不等於就是隻賣給高校。做大模型訓練和應用的公司也需要 GPU,甚至喜歡折騰的技術人員也會買個 4090(英偉達的一款消費級 GPU) 來試一些演算法。只要具身智慧一直在發展,我們能夠顯著加速創新和規模,就能創造商業價值。
晚點:這種服務未來的市場規模能有多大?
張巍:這個我預測不準,規模預測更適用於成熟行業。但比較確定的是,具身智慧是對所有傳統行業的正規化顛覆,會重塑整個製造業、服務業和生活的方方面面,每個細分市場的規模都很可觀,而且行業不會是一家獨秀,而是百花齊放。
我們更關心什麼能推動變革。我看到的是一個 “具身工具 + 創新者” 的未來,就像現在不懂程式設計的人也可以用 AI 創造內容,甚至用 cursor 等工具來開發應用程式一樣。具身落地更復雜,對工具的需求更復雜,我們希望解決這個痛點,讓具身創新變得簡單和高效。
晚點:那麼你們現在主要賣的東西是什麼?
張巍:我們是具身工具鏈公司,長期看,我們的產品會包括機器人本體,和一系列軟硬體工具鏈,包括資料收集、處理、訓練和部署等。
目前我們還處於初創階段,所以從稀缺的兩足和人形本體入手。去年釋出了多形態雙足機器人 TRON 1,支援創新者開發各類強化學習和移動演算法,同時我們發現園區巡檢、網紅跟拍、建築業數字化監控的初創團隊和公司也對它也有很強的需求,當然我們也需要在成本、開發體驗方面不斷提升。
我們的人形機器人本體比較有特點,但還處於預研階段,還沒正式賣,希望 25 年能推出針對開發者真正好用的全尺寸人形機器人。
逐際的人形機器人從俯趴到站立,這需要下肢關節具備更大的活動範圍,以及腰部和腿部的穩定協同。2025 年,逐際即將迭代新的全尺寸人形機器人。來源:逐際動力。
晚點:你覺得你們現在這個落地路徑的風險可能是什麼?
張巍:挑戰在於,我們既要懂最前沿的技術,能判斷趨勢,又要有很強的產品思維能力,把行業的共性需求挖出來。上到你對 AI 最前沿技術的瞭解,下到怎麼提升機器人減速器效能,都得知道。
還有一點是,面對人形機器人這種新物種,怎麼構建新型的組織,讓公司做事更高效。你同時在管工廠和一堆 AI 創新者,這倆完全不同。我自己把這個定義成頂級 AI 能力和頂級製造能力的結合。
晚點:當年 AI 四小龍一開始也想做技術平臺和技術工具供應商,自己不進入具體場景。但後來他們反思,當年正是因為和最終客戶不夠貼近,導致技術擴散後被替代:比如本來一些用商湯、曠視演算法的公司,後來自建了內部團隊來做 AI。
張巍:我們和他們不同,很多 AI 公司的能力偏軟體,可複製性和替代性太強了。英偉達厲害是因為它做的是軟硬結合的事,而且它真正找到了底層的共性需求。
一個公司的價值在於找沒找到行業裡發展的最大痛點,然後用自己的優勢和組織能力解決痛點。剩下的事情不用擔心,創造價值就夠了。
晚點:現階段已在進入工廠、零售等場景的具身智慧公司,它們能建立更好的場景認知和商業關係,而逐際側重攻克具身模型和泛化問題,會不會到時客戶都被佔光了?
張巍:我們的客戶不是工廠或零售店,我們服務的是做整合和解決方案的創新者,整合商和你提到的那些具身公司才是潛在的競爭關係,我們的使命是讓整合商能擁有最好和最高效的具身模型開發與應用能力。所以,我們的客戶和其它具身公司的客戶不是一群人,不存在被 “搶光” 的情況。
找到底層共性需求並解決,才有長期競爭力
晚點:你創立逐際的 2022 年,當時還沒有這波機器人創業熱潮。為什麼那時就選擇創業做機器人?
張巍:我比較簡單,我一直做這個行業,我的思考是:這個行業到了什麼階段?如果你希望繼續創造價值,你要怎麼做?
2019 年時,我覺得機器人領域發展到了硬體迭代變得很關鍵的時期,國外的速度太慢了,中國有做硬體的優勢,所以想回國。同時我也意識到,這個行業到了一個節點,可能只有 10% 的新價值是來自原始學術創新,90% 來自工程實現;光在學校寫論文已經沒什麼用了,要創業才能最大程度推動機器人進步。
晚點:你們在 Optimus 亮相和大語言模型熱炒前就開始做具身智慧,後來又經歷行業大火,前後對比感到了怎樣的水溫變化?
張巍:投資人的想法沒什麼變化,只是關注機器人的投資人變多了。比如明勢資本是 2022 年看到我的 paper,主動找過來的。現在是更多人開始追這個事,變熱鬧了,這也不好。
晚點:為什麼市場熱鬧反而不好?
張巍:整個行業都有點過熱。初創企業早期需要很有耐心地去做積累。現在就是呼啦都整的,人變得浮躁了。
2023 年到現在,中國有很多人形機器人產品出現,至少你能看到的樣式是很多的。我們會說,可能不是特別專門研究這個的人,都能做出一個還可以的樣子。但是不知道做出來用在哪,只能在平地上走兩步,功能還是有限。
我管它叫 “大煉機器人” 行為,這對真正想造機器人的人反而不太好做。
晚點:特斯拉說他們今年會生產幾千臺機器人,送到工廠裡收集資料,你怎麼看他們的計劃?
張巍:那是馬斯克有錢,我要是他我會更激進。他在人形本體方面的超前投入我覺得是有價值的,市面上眼花繚亂的人形看著挺多,但大多數都只能算是原型機。Optimus 的工程化水平還是最領先的,尤其是靈巧手方面的積累。
但是生產幾千臺去工廠收資料,我並不是很認同,具身大腦方面的技術方案還沒收斂,還沒到需要 scale 的階段,這方面我傾向於小步快跑,找技術開關。比如,如果我們基於影片生成大模型的具身操作演算法驗證了 scaling law,那麼堆真機收資料就意義不大了。
晚點:我們之前和機器人供應商聊,也好奇一個問題,像特斯拉,他們怎麼定義這些供應商是否達到了他們的要求。
張巍:這個他們肯定有明確的流程,只是人形很多零部件技術方案不成熟,需要和供應商深入溝通。新技術初期,供應商本質上是公司研發的一部分,可以認為是某種意義上外協研發,是需要按照研發方式來管理的,不能一開始就按照成熟量產供應鏈來管理。
晚點:2025 年,行業可能會發生什麼變化?你們 2025 年的計劃是什麼?
張巍:2025 年 AI 方面最大增量是 Agent,我個人覺得 Agent 是真正讓大模型技術落地的最佳方式。
具身領域會有更多人入局,會對技術開始祛魅。記得我們剛開始看到 ChatGPT 時,感到無比驚豔,到現在發現基本都能搞出來個 Chatbot。人形機器人也是一樣,會出來更多人形機器人。行業會開始對花哨的技術 demo 麻木,開始關注產品和商業化。
我們 2025 年最重要的目標是初步跑通服務創新者的商業閉環,和構建符合新 AI 時代的新型組織。產品和技術方面希望能推出面向創新者、真正好用的人形機器人產品,並找到效率更高的具身模型 “工業母機”。 
這是《晚點 LatePost》 「具身智慧對話」系列的第 10 篇。該系列將持續訪談智慧機器人和自動駕駛產業鏈頭部公司。往期文章見文末合集#具身智慧對話。
往期文章見合集#具身智慧對話:
題圖來源:張巍和逐際的人形機器人 demo。
晚點對話
最一手的商業訪談,最真實的企業家思考。
–  FIN  –
晚點團隊出品


相關文章