萬臺機器人比萬卡叢集成本更低。

作者丨賴文昕

編輯丨陳彩嫻

不久前，首屆“人形機器人半程馬拉松”在北京亦莊舉辦，為本就熱度滿滿的具身智慧行業再添了一把火。

一共 20 支隊伍組成的“鋼鐵生命競賽”，讓此前集中在實驗室 demo 階段的人形機器人們，跑到真實場景中接受試煉，最終共有 6 支隊伍完賽，完賽率為 30%。

質疑隨著掌聲紛杳而至：具身智慧真的不是泡沫嗎？

對此，千尋智慧具身智慧部負責人解浚源表達了自己對“具身智慧 Scaling Law”的看法。

“對於機器人來說，現在的規模仍處於 Scaling Law 裡非常早期的狀態。”解浚源解釋道，“儘管賽道火熱，但相較於大模型公司來說，大家的規模和估值都還較低，現在制約具身智慧領域的不是算力和資本的投入，而是硬體迭代的客觀週期，即做量產可靠的機器人、管理大規模資料採集工廠所需的時間。這是一個製造業的問題，比軟體慢一些，但相信在中國強大的供應鏈體系的支撐下，我們每年都能上一個數量級。”

就在上個月，解浚源在朋友圈正式宣佈了自己加入具身智慧創業公司千尋智慧，全面負責具身大模型的研發。

此前，解浚源在深度學習框架和系統鑽研十餘年，曾任亞馬遜資深科學家，在明星部門 AWS 負責深度學習演算法和系統研發，是開源深度學習框架 MXNet 的主要開發者和維護者之一；2019 年又加入字節跳動的應用機器學習（AML）部門任 AI 高階專家。

作為具身智慧領域的跨界人才，這其實並不是解浚源的第一次“破格嘗試”。

解浚源本科就讀於中國科學技術大學的計算機系，在大三那年就以一作的身份在頂會 NeurIPS 上發表工作，用深度神經網路對影像去噪與修復，論文引用量至今已超 1.9k。

2013 年，解浚源本科畢業後赴美深造，在華盛頓大學讀博，先是做了一年左右偏理論的研究。他發現自己對偏應用的工作更感興趣，便主動找到了現艾倫人工智慧研究所（AI2）的 CEO Ali Farhadi，提出做與計算機視覺（CV）應用相關的研究，隨後又同在 Meta FAIR 任職並提出深度學習演算法 R-CNN 系列的 Ross Girshick 合作。

出於個人興趣和研究需要，解浚源開始了對深度學習框架的探索，因認為相對成熟的框架 Theano 和 Caffe 不太好用，便試著自己寫框架，但仍覺得所搭建的框架比較粗糙、不夠靈活。

2015 年中，就在谷歌大腦團隊釋出 TensorFlow 的幾個月前，解浚源收到了同屆好友陳天奇推薦的深度學習框架 MXNet 的 demo，開始試用了起來，一邊在自己的研究中使用，一邊對其作出改進。

MXNet 由三個開源專案合併而成，分別是陳天奇的 CXXNet、張錚及其學生王敏捷牽頭的 Minerva 和顏水成學生林敏牽頭的 purine2。同時參與 CXXNet 和 Minerva 的李沐意識到兩個專案能合併起來取長補短，便有了 MXNet（意為 mixed-net）的雛形，在 purine2 加入後於 2015 年年底正式開源。

2016 年底，亞馬遜宣佈將 MXNet 選為公司最主要的深度學習框架併為生態系統的開發提供軟體程式碼、文件和投資。次年初，一直在為 MXNet 做架構的解浚源加入亞馬遜 AWS，繼續做 MXNet 相關的演算法和系統研發。

2019 年，解浚源回國加入字節跳動的應用機器學習（AML）部門，先後負責最佳化推薦系統、搭建聯邦學習平臺、AI 晶片以及大模型的 ToB 業務。

今年，解浚源又再度“轉行”，跨入了具身智慧賽道，成為了千尋智慧的具身智慧部負責人，他表示，“機器人快速發展爆發的時刻即將來臨，我不想錯失這個機會。”

以下是 AI 科技評論與解浚源的對話。

跨界入局具身智慧

AI 科技評論：加入千尋已經不是您的第一次“轉行”，可以分享一下您的跨界經歷嗎？

解浚源：我博士讀的是 CV 演算法方向，但一直對寫程式碼、做工程很感興趣，接觸 MXNet 後先是自己邊用邊改，接著慢慢從自己貢獻到開始回別人的問題、做 Code Review，後來慢慢地開始做整體的架構。

在這過程中我寫了越來越多與自己研究無關的程式碼，摸索出自己的興趣所在。隨著 MXNet 被亞馬遜採用、李沐畢業後也去了亞馬遜，我覺得自己繼續做研究沒有比做框架和工程有意思，所以就在博三休學了，去亞馬遜做 MXNet 的架構師。

在亞馬遜的工作基本上圍繞 MXNet 展開。比如推廣框架需要 SOTA 模型和 Model Zoo，為了給 MXNet 做一個最好 CV 方向的模型，當時團隊整理了已有文獻資料裡的技巧（trick），把所有 trick 整合起來發現，每疊加一個，效果可以往上漲，最後做了效果最好的 ResNet-50，發了“Bag of Tricks”工作。

後來一位在位元組的師兄介紹我和剛去位元組負責推薦系統的劉小兵認識，我們聊得很投緣，後面就決定加入位元組。一開始還在位元組美國，後來發現業務核心在國內，我就在 2019 年回國，在 AML 組做推薦系統的最佳化。

接著我做了聯邦學習平臺，旨在解決廣告主在抖音投放廣告時因競爭產生的資料安全與隱私顧慮，透過聯邦學習實現跨平臺合作最佳化廣告投放效果，同時避免直接資料共享。後來還做過新硬體專案，是關於非英偉達的 GPU 加速卡的調研和引進，2023 年後又在火山做大模型的 ToB 業務，算是 CV、系統、框架、搜廣推、大模型等都有所涉獵。

AI 科技評論：您之前的經歷集中在深度學習系統與框架，是什麼關鍵事件讓您決定踏入具身智慧這一需要物理互動的領域？為何認為當下是入局的最佳時機？

解浚源：今年年初，我和一位在美國的同學聊天，對方向我分享了 Physical Intelligence 公司的 demo，影片裡展示了該公司的機器人在疊衣服、紙箱，實現了對可形變的柔性物體的操作。

看完後我覺得眼前一亮，因為讀博時自己一直做比較抽象的軟體，覺得硬體這種看得見摸得著的東西很好玩，所以會很關注機器人領域的發展。但當時我覺得機器人進展很慢，動作特別僵硬，能做的事情極少，只能拿杯子這種不可形變的剛體做一些簡單操作，離實際使用特別遙遠。

而 PI 的 demo 實現了以前不可想象的機器人對可形變柔性物體的操作。對於一件衣服而言，有一萬種方法把它團成一團，這對於機器人模型的識別而言，難度極高，顯然機器人領域有了很大的飛躍。所以我就去詳細研究了相關技術，包括最近很火的 VLA 技術，還看了自動駕駛對 VLA 的應用。

我發現端到端的 VLA 是條正確的技術路線，讓機器人走上了類似從 GPT-2 到 GPT-3 再到 GPT-4 的路徑，而現在的節點在GPT-2～GPT-3 之間，屬於 Scaling Law 裡非常早期的階段，但已經展現出非常好的效能。那既然機器人快速發展爆發的時刻即將來臨，我不想錯失這個機會，就集中看了各家機器人公司。

AI 科技評論：可以聊聊您加入千尋智慧的背後故事嗎？現在您和團隊其他成員們是如何分工配合的？

解浚源：在確認要加入具身智慧賽道後，我就找了投資人朋友跟各家做具身智慧的公司牽線交流。選擇千尋是覺得千尋的能力比較強，且大家理念相合、比較投緣。現在我主要帶領具身智慧部，具體負責機器學習、AI 相關的演算法、系統、平臺，彙報給高陽老師。

大家擅長的方向都比較互補，韓總（韓峰濤）是機器人行業的連續創業者，對機器人行業有著深刻的洞察和豐富的經驗。高老師和我負責 AI，高老師在演算法研究和技術大方向上有比較多的經驗，而我在大廠幹了很多年，則對工程化和落地更有經驗。

AI 科技評論：從最早的 CV 到框架，再到大模型和具身智慧，作為多次“跨界人士”，您覺得您過往的經驗積累如何幫助您應對機器人領域的挑戰？是否遇到過因缺乏硬體、機械等機器人先驗知識而必須補足的“認知盲區”？

解浚源：從 MXNet 開始，我就一直在做系統和框架。其實框架和系統在這麼多年都是一套東西，不管是做什麼應用，CV、推廣搜、大模型、具身智慧都是一套底層的系統和框架，所以好處在於可以比較絲滑地換業務，因為各個大方向都要用到 AI 及系統方面的東西。

我加入千尋前大家主要在做演算法的驗證階段，我加入後發現，當時演算法工程師寫的基建程式碼比較粗糙，所以我就梳理了基建，把以前擅長的並行、運算元最佳化、框架設計都直接應用過來。因為和之前的東西做得差不多，所以還比較駕輕就熟，現在把新的基建也搭了起來。

而在具體業務上，我對機器人有著比較快的直覺上的理解。儘管目前還在學習一些具體的控制演算法等新知識，但因為機器人看得見、摸得著，看著它的表現就能建立直覺上的理解，所以並沒有太多對於跨界的不適應。

比如有個專案是得把夾爪夾到電池上，當時出現的問題是夾爪進得太淺，會磕到電池，夾不進去。我看了模型的表現和資料採集的方式，發現採集時因為人比較熟練，經常從比較極限的位置夾。我就要求相關人員採集資料時，把弧線拉大一點，從稍遠的地方空出幾公分夾上去，這樣模型學習時就能學到拉遠和對準的過程，順利解決了問題。

但對於機器人動力學的知識，比如機械臂的關節數量、位姿和關節角度之間正解、逆解的變換等等，這些東西雖然我之前有了解過，但現在要重新夯實一下。

路線已收斂至 VLA

AI 科技評論：目前關於具身大模型的討論有很多，也有不少人認為路徑並未收斂，因此衍生出各種定義，對此您怎麼看？您認為必須具備哪些核心特徵或架構才能被稱之為具身大模型呢？

解浚源：雖然現在有說法稱具身大模型尚未收斂，但我覺得其實技術路徑已經收斂了，即大方向上比較確定為 VLA 路線，接下來就是 Scaling 的階段。

VLA 路線基礎的方向就是端到端，自動駕駛也是如此。自動駕駛之前一直做的是硬編碼、寫具有很多規則的系統，但這兩年大家開始做端到端後，發現數據飛輪一旦轉起來，用端到端模仿人的方式，進步就非常快。大模型領域同理，大家把之前自然語言處理中很多規則、先驗的東西去掉了，直接做端到端的訓練，發現模型自己學的比人為設計的東西要好得多。

具身智慧也是如此，自從端到端的 VLA 路線表現出比較好的效果後，技術路線就已經收斂了，因為一旦實現端到端，後面就全是端到端，不可能再往回走。

AI 科技評論：所以端到端 VLA 的路線其實是比較明確的，但最大的卡點是在於資料這一塊。

解浚源：沒錯，資料採集是這輪機器人技術最核心的難點。資料採集比以前 AI 需要做的所有資料標註工作都難，因為涉及物理世界的問題。要有機器人，要有數採員，要管理好整個供應鏈的機器人和數採員，讓他們能夠高效地採集多樣化的資料。

在這之中多樣化是很重要的。以前 AI 的資料標註比較機械，只要給標註員一張圖片，讓他們拉個框、點選滑鼠，很標準化。但是機器人資料不同，如果重複做一些標準的動作，採集再大規模的資料都沒有意義，反而採的越多，資料效率就會越低，所以一定要做多樣化。

不過在規模擴張的同時實現多樣化是一個很難的事。不能直接跟數採員說隨機採資料，需要有一套很細緻的管理方式，能把多樣性可量化地落實下去。

AI 科技評論：那需要如此高度工程化的資料採集，我們能在什麼時候看到可觀的進步成果呢？

解浚源：機器人資料採集的規模每上一個數量級都能看到非常明顯的提升，即機器人在操作簡單物體的流暢度上、能執行不同任務的數量上都能有提升。

此外，不同於現在在桌子前操作，未來機器人還能在相對開放的空間裡走來走去，做一些相對開放性的任務。還有把大的指令自動拆分成一個個小任務，然後一個個執行。這些我估計都能在未來一到三年被看到。

現在最重要的是如何高效地把規模提升。肯定不會特別快，但也不能太慢，太慢會被別人落下。現在就是怎樣在硬體的制約下，以儘可能快的速度把規模做起來。

AI 科技評論：千尋近期披露了 VLA Spirit v1，和友商們同樣都在做疊衣服的任務，亮點和區別在哪裡？在 VLA 方面還有哪些新研究或應用嘗試？

解浚源：我們對機器人疊衣服的成功率要求很高，要實現一個比較高的水平，才能連續疊三件衣服，並一鏡到底拍出來。

還有個細節是，機器人在疊衣服過程中有一個把衣服甩平的動作，這樣比較快和自然，比較接近人疊衣服的狀態。但是甩是一個高動態的動作，要讓速度匹配慣性，所以要求以比較高的速度甩，還能做到精確，是比較不容易的。

這背後體現出的是我們搭建的整套工業化資料採集的 pipeline。因為 VLA 路線非常強，而且現在開源的視覺大模型的基礎模型非常強，所以給了機器人資料後，能讓它做一些看起來很不錯的動作並不是特別難。更難的是工業化迭代，解決一個個細節的問題，最後累積起來，讓模型的成功率從 50% 提升到 99%。這是具身智慧工程化、落地最核心的能力。

當然我們現在還在建設和完善數採的 pipeline，有很多非常細節的東西，類似豐田當年“精益生產”的概念，這不是簡單的一個點，而是成千上萬的點累積起來，需要持續提升效果。

AI 科技評論：現在大家對具身智慧落地的討論十分熱烈，您認為哪些場景是能先重點去突破的呢？

解浚源：我認為機器人的落地分為短期一兩年、中期三五年和長期十年的三個時間段。短期做工廠的落地，因為現在模型能力差不多了，需要工程化落地一些場景；從中期來看，更大的機會在服務業裡，比如物流、商場貨架上貨、酒店服務這些，是為人服務的場景，這些場景的機會比工廠大很多；而長期的願景是十年後，10% 的人有一臺自己的機器人，在家裡協助自己做事。

具身智慧的 Scaling Law

AI 科技評論：聽下來您應該算是一個妥妥的“真機派”？

解浚源：對，我和高老師在這方面的觀點比較相似，即不太相信模擬。千尋也不做很多模擬，模擬只是很小的輔助，我們不指望模擬能大幅提升模型效能。

這主要有三個原因——

一是柔性物體的模擬是個非常難的問題。做一個可以把衣服的物理特性模擬得很好的模擬器，可能比用機器人疊一件衣服還難。現有的遊戲也沒有能把衣服的物理特性模擬得很好的，衣服都會穿模。如果真的要把衣服的物理性質模擬準確，疊起來還不穿模，需要對衣服做特別大規模的有限元分析（Finite Element Analysis），可能要用一個叢集才能模擬一件衣服。這裡面消耗的顯示卡和工程成本已經比用真實機器人採疊衣服的資料更貴。而就算用只能模擬剛體的模擬器，也會發現生活中要操作的東西大多數不是完美的剛體，因此也不適用。

二是能從模擬器學到的東西不會超過在模擬器裡做的工程量。想要模型從模擬器裡學到更多東西，就得在模擬器工程上花更大精力，實際上等於用開發人員換數採人員，兌換比例很可能不划算。

三是做模擬需要大量顯示卡。顯示卡在美國相對便宜，但在中國，顯示卡比機器人貴，一塊 H100 的價格都到 20 多萬，但一臺機器人的成本沒有這麼多。當機器人規模上量後，是比顯示卡便宜的。因此用顯示卡做模擬相對於美國沒有優勢，但用大量機器人真機採集資料，世界上只有中國能做，我們有強大的供應鏈、大量的熟練工人和工程師，做模擬相當於把優勢放棄了。

AI 科技評論：但真機資料相對於模擬來說，是更難大規模上量的，這不就沒遵循 Scaling Law 嗎？

解浚源：我認為並非真機無法實現大規模量產，只是當前尚未達成這一目標。以中國強大的供應鏈能力來看，一萬臺機器人的產量並非難以企及，而且相較於一萬塊 H100 顯示卡，一萬臺機器人的成本更低。目前，“AI六小龍”這類企業投入大模型研發的基礎配置已達到一萬塊顯示卡。搭建萬卡叢集相對迅速，畢竟顯示卡是現成的，批次採購一萬塊顯示卡，不到半年即可完成部署，但是搭建一萬臺機器人的數採工廠不可能這麼快。

中國每年汽車量產規模可達數千萬輛，從體積和技術複雜性來看，機器人並不比汽車更高。不過在硬體層面，機器人的技術迭代存在客觀週期，無法像搭建顯示卡叢集那樣迅速透過資金投入加速推進。但循序漸進地提升量產規模是可行的，例如今年實現幾百臺，明年達到上千臺，後年有望突破一萬臺，關鍵在於給予足夠的時間週期，並非絕對無法實現大規模量產。

加上顯示卡價格居高不下，英偉達顯示卡毛利率高達 95%。與之相比，機器人的成本主要源於實際生產成本，不存在 20 倍暴利的情況，所以機器人在成本控制上具備優勢，更有利於實現大規模量產推廣。因此，從資本投入角度而言，一萬臺機器人的數採規模和萬卡叢集相比，對於中國公司來說效率更高。

AI 科技評論：您一直在強調資料的 Scaling Law，那這個規律在機器人和大模型這兩個領域裡都有什麼區別？

解浚源：主要就是機器人具有大模型不具備的資料壁壘和資料飛輪。

先是資料壁壘。大模型其實沒有資料壁壘，預訓練的資料都是從公開的網路上爬的資料，比如全網有 14 萬億的 token，大家用的都一樣，因為全人類高質量的文字資料只有這些。此外是花錢找人標註的資料，而這些資料一旦訓到模型中公開提供服務，別人就能以非常低的成本直接蒸餾走。這就不光沒有先發優勢，反而有先發劣勢。

換到網際網路領域，如果網際網路公司的資料能被人以非常低的成本全部拖走，那該公司就不值什麼錢了，大模型是真的需要面對這個問題。而機器人不一樣的，機器人資料都是私有采集的，即用自己的機器人針對性採集資料。這個資料別人拿不走，最多拿走模型。而沒有資料，只有模型，沒法迭代，沒法從 VLA 模型中把原有資料蒸餾出來。因此，資料之於大模型是包袱，之於具身智慧卻是壁壘。

此外，大模型沒有資料飛輪，現在沒有哪家大模型公司能用使用者的互動資料訓練大模型，閉環提升業務指標。大模型在原理上就做不到這點，只能持續花錢找人工標註資料，還會被蒸餾走。

而對於機器人來說，一旦在某個場景落地，就能一邊盈利，一邊收集更多的資料，資料飛輪就轉起來了。之前網際網路賺錢幾乎唯一的壁壘就是網路效益和資料飛輪。網際網路成功和高利潤的因素，大模型一個都沒有，而機器人有，和網際網路的模式比較像。

AI 科技評論：但具身智慧裡的資料壁壘較高，對行業的整體會利好嗎？

解浚源：目前開源的資料集規模都非常小，只能做學術研究，沒有工業落地的意義。私有的資料不需要那麼多，並不是需要整個行業通力合作才能做出足夠大的資料讓機器人落地，一個公司擁有一萬臺機器人就夠了，完全可以自己承擔。

具身智慧和大模型的共同點是 Scaling Law，區別是具身智慧處於 Scaling Law 非常早期的位置，而大模型在摩爾定律進步之前是處在末期。摩爾定律兩年翻一倍，大模型要提10倍、100多倍規模，要等十、二十年。而具身智慧現在還處於實驗室規模，一旦到工業規模就能上幾個數量級。如果相信 Scaling Law，就會相信具身智慧效能進步的空間一定會非常大。