對話2025最火具身智慧團隊:2個自動駕駛第一人帶隊,1.2億美元天使融資震動江湖

衡宇 李根 發自上海

量子位 | 公眾號 QbitAI
火爆,實在太火爆。
具身智慧,被視為AI、自動駕駛之後下一個時代科技風口,現如今正在火爆得一塌糊塗,臺上熱鬧、水下更是滾燙——
量子位獲悉,一家2025年2月才低調出發的創業公司,團隊還很精簡,技術和產品也才剛剛立項,就在投資市場引發了追逐風暴:大牌投資機構搶著競購,最後罕見在春節前後完成超募,甚至有些動作不夠快的投資機構,只能排到下一輪。
這傢俱身智慧公司,最終官宣了1.2億美元的天使輪融資,創造了中國具身智慧行業最大天使輪新紀錄。
可問題是這都已經2025年了……最早出發的具身智慧創業者,在3年前的時間點已經下水。進展快速的具身智慧公司,也已經開啟場景驗證和落地。以及具身智慧領域,也從不缺天才和大牛創業者。
還有什麼樣的創業團隊,憑什麼在此時此刻攪動如此風雲?
一位知情人士說,核心原因是團隊豪華,堪稱夢之隊,而且還是有過硬科技完整落地經驗的工程派。也有人拿NBA籃球類比,“庫裡和約基奇聯手組了隊,聯盟大結局”——庫裡是三分外線第一人,約基奇則被視為最全能的內線中鋒,而這家公司背後的核心人物也是兩位自動駕駛領域的第一人
  • 一位叫陳亦倫,來自L2,代表智慧駕駛;
  • 一位叫李震宇,來自L4,代表Robotaxi。
據說這兩人聯手創業的進展傳出後,獲得了這樣的評價:陳亦倫帶隊,牛了;李震宇坐鎮,穩了。他們在上海,組建戰隊,取名它石智航TARS,競逐具身智慧的GPT時刻。
他們創業的訊息,實際流傳已久,但現如今隨著創紀錄的1.2億美元天使融資曝光,再也藏不住了。

中國具身智慧最壕天使輪融資

它石智航(TARS)官宣的新進展是這樣的:
完成天使輪1.2億美元融資,開啟具身智慧創業新徵程。本輪融資由藍馳創投、啟明創投聯合領投,線性資本、恆旭資本、洪泰基金、聯想創投、襄禾資本、高瓴創投跟投。
沒錯,融資額1.2億美元。而更多時候,這樣的數額通常是天使輪的估值金額。這筆天使輪投資,也創下了具身智慧領域天使輪最大融資額。
它石智航的打造者,也有了首次公開發言。
陳亦倫,它石智航創始人兼CEO
它石智航創始人兼CEO陳亦倫說:“它石智航的使命是以物理世界AI和通用機器人技術為核心,構建可信賴的超級具身智慧系統,讓高效能AI規模化的融入人類社會的生產與生活中。”陳亦倫還判斷,未來十年,具身智慧將成為全球產業升級的關鍵引擎。它石智航將持續突破物理世界的智慧化邊界,探索具身智慧無限潛力。
據披露,本輪融資將被重點投入產品與技術研發、模型訓練以及場景拓展。
領投方之一的藍馳創投管理合夥人朱天宇更進一步說明了它石智航的三大核心競爭優勢:
第一,團隊具備全球頂尖的世界模型構建能力、以及超大複雜系統的工程化落地能力;
第二,公司在機器人本體設計與運動控制演算法(小腦系統)上擁有深厚技術積累,具備軟硬體一體化交付能力;
第三,公司對目標行業痛點有深度洞察,能精準錨定高價值應用場景,交付完整解決方案,不只是“機器人公司”,更是“行業場景解決方案公司”。
另外一家領投方,啟明創投主管合夥人周志峰則表示,投身這一領域創業,不僅需要對前沿技術的發展趨勢具備深刻的洞察力,還必須擁有豐富的工程化、產品化以及量產經驗。它石智航是行業內為數不多的具備完整能力的優秀團隊。”
這些一定程度上劇透了它石智航的技術方向和核心特點
量子位獲悉,作為具身智慧創業公司,它石智航從一開始就會在軟硬體上全棧推進,包含智慧軟體(演算法和大腦)能力、硬體本體能力,以及AI大模型產品研發。
其中,被視為核心技術引擎的是名為AWE——AI World Engine的世界模型,類如具身領域的GPT大模型。但區別GPT利用網際網路語料訓練,它石智航的AWE會率先開創Human-Centric 具身資料引擎,以人為本採集資料,用真實世界具身資料獲取能力的跨越式突破。
它石智航內部提到,相比於外部更高熱度的“具身智慧”,更常用的是“物理AI”,據稱這更接近他們追求的目標,打造一套資料驅動、可泛化的通用物理世界智慧系統,並且更關鍵的是,實現這套系統的工程化、產品化和量產商用。
而這種工程化產品化,正是這個團隊被看好的最核心原因,也是這個“豪華夢之隊”的獨特所在,他們都在具身智慧的子集——自動駕駛,實現過前沿技術從0到1,從技術到產品,從demo到量產商用。
CEO陳亦倫博士,先後任職大疆機器視覺總工程師、華為自動駕駛CTO、清華大學智慧產業研究院智慧機器人方向首席科學家,是中國自動駕駛領域的產業領軍人物……
現如今以“遙遙領先”聞名的華為ADS智駕系統,發軔端到端,改寫行業格局,就是從陳亦倫開始的。
董事長李震宇,獲得過華為最高榮譽嘉獎,後擔任百度集團資深副總裁,掌管百度阿波羅自動駕駛事業群多年。
但即便是創業首秀,陳亦倫和李震宇也謝絕了自己站到臺前來分享,而是希望讓更多人感受到年青人的天才和光芒——這個年輕天才指向很具體:丁文超博士,李震宇說:“有時候我還在啃論文的時候,丁博幾句話就講清楚了,而且直接給出了程式碼。我是丁博的粉絲。”
丁文超,它石智航的聯合創始人,擔任首席科學家,生於1993年,是華為“天才少年”計劃的首批入選者,並且被派往了挑戰最大的自動駕駛軍團,從0到1主導了華為ADS智駕端到端決策網路……
後來返回學界,從0到1搭建了復旦機器人系統實驗室,打造了復旦首個人形機器人。
此外,陳亦倫還介紹了另一位量產工程化大神:它石智航的聯合創始人、首席架構師陳同慶
陳亦倫笑稱,內部把陳同慶稱之為“兵王”,因為他帶出過很強的規模化產品量產團隊。這位能征善戰的“兵王”陳同慶是清華大學博士,國家重大專項首席科學家,空間感知首席技術專家,深耕工業製造、AI、自動駕駛、機器人等產業,引領多個產品成功商用。
這些大牛們聚在一起,它石智航就此啟程了。
我問丁文超,決定入局具身智慧創業,Why Now?
他說感知到了時代的召喚。時代在呼喚一支技術創新、工程化經驗、軟硬體一體具身團隊。
丁文超博士,它石智航聯合創始人&首席科學家
(量子位與丁文超博士展開了一場獨家長對話,下文為對話節選,並做了便於書面化閱讀的編輯和整理)

對話它石智航丁文超

“打造一個《星際穿越》裡的AI機器人”

量子位:我們從最初始的問題開始吧,它石智航(TARS)是一傢什麼樣的公司?你們要做什麼?
丁文超:它石(TARS)是一傢什麼樣的公司,可能從名字也能窺見一二。首先名字來源於《星際穿越》中的機器人。其次這個機器人非常智慧可靠,協助主角一路過關,非常可信。
TARS也是縮寫,代表我們的出發點:Trusted AI and Robotics Solution——可信賴的AI和機器人解決方案。目前業內現狀也有不同的具身智慧公司,有做本體的,有做大模型的,也有關鍵零部件,但還缺少一個真正可信賴的AI機器人方案
量子位:怎麼理解“可信賴”?
丁文超:我能在各種場景裡信任這個機器人,不論是在工廠,還是家庭生活場景,都能幫你完成各種各樣的事情。就像自動駕駛系統一樣,你放心地把方向盤交給它。
量子位:這個路徑如何實現?
丁文超:路徑也寫在了TARS名字中,實現這一目標,首先需要強大的AI能力,其次必須能夠實際應用到實體機器人身上。所以我們歸納起來,可以從三個維度展開討論——超級演算法,超級本體,超級應用。
超級演算法,就是打造人類智慧水平的具身技術模型。超級本體就是機器人身體。超級應用就是核心場景下的爆點應用。
具身智慧領域,有些公司只做演算法,有些做本體,但我們從一開始就構建全棧,目的還是希望能把解決方案做好,做可信賴的AI機器人解決方案,就需要全棧
從投入來說,目前最核心的還是兩手抓:一方面是構建超級演算法,另一方面是有一到兩個爆點應用可以打穿。
我可以先講具體應用場景,倒推分享更抽象的演算法挑戰。
應用來說,比如有一個場景是汽車生產製造中工廠中的柔性操作場景,目前具身智慧整體幹得還不好,沒有方法論,或者侷限在一個很小的場景。所以只有把柔性物體操作做得很好,才能真正實現產線級生產力,真正實現工廠各個角落的自動化。
柔性物體的問題為什麼難?主要還是你一碰這個線,它會隨著你的運動而形變。不像你碰剛性物體如電腦,只是把它移動到其他位置。柔性物體比如這張餐巾紙,你一碰它它就形變,你的動作其實影響了整個環境,所以面對柔性物體的操作,本質就是不僅要知道自己怎麼動,還要知道動了之後環境世界會怎麼演化,需要對變化做變化。
自動駕駛裡也有類似的問題,擁堵場景下你加塞,你動別人也會動,原本你旁邊是沒有空間的,但你強行擠出了一個空間,這個過程就是改變了原來的世界,還要對這個改變做預測和規劃。
所以這背後牽扯到了我們認為最關鍵的技術核心,我們把它稱作:AI World Engine。
AI世界引擎主要預測兩個關鍵因素,第一是看到這個場景後採取什麼樣的行動,第二是建立一個模型,模擬行動後世界會如何變化。
目前這樣的模型極為稀缺。因為很難,首先需要模型架構上的創新,其次資料能力上也需要創新。訓練這種模型不是少量資料可以實現的,我們按照第一性原理來推,我需要“精確知道我做了什麼動作”的資料,這樣的資料反映我做了什麼,還反映客觀環境怎樣變化。
動作本身的資料並不難採集,但環境變化的資料很難。你可以用攝像頭捕捉一些間接的觀測,但客觀世界裡物理規律在3D空間的變化,很難捕捉和預測。
而只有大量的這樣的資料,才能支撐訓練AI世界引擎。
量子位:所以關鍵依然是如何獲得你們想要的資料?
丁文超:按照第一性原理,你想要達到人類水平的具身智慧,要獲得人類水平的認知世界或行動能力,相應的資料也需要從人類身上來,從人身上找答案。這會是我們區別於業內其他公司的地方。
現在怎麼採集資料?帶著XR眼鏡或者手柄遙控,人動,機器人跟著動,但這些資料採集方式都是 “以Robot為中心”的。我不認為這是通向具身智慧的正確道路。
智慧汽車可以類似啟動,因為沒有智慧的汽車也可以銷售靠影子模式構建資料飛輪,但沒有智慧能力的機器人不會有人買單,所以如果靠要人類遙控操作產生資料去訓練機器人,甚至遙控操作出來的資料還不如人類水平,相當於把人套在機器軀殼上,實現的技術肯定是降級的。
所以我們的思路是以人為本源,才能達到人類水平的具身智慧。
量子位:強化學習在其中是什麼作用?
丁文超:單純靠端到端是達不到可信賴的,單純依靠模仿人類遠遠不夠,不僅要模仿人的動作,還要學會應對環境變化,環境變化之後的動作變化,結合強化學習,你才能最終實現可信賴的具身智慧AI。

“AWE是具身版GPT”

量子位:所以它石的具身技術模型究竟是什麼?
丁文超:我們的核心技術引擎就是AWE——AI World Engine世界模型 ,可以說AWE就是具身版的GPT模型。
量子位:相比於GPT,AWE的打造最大挑戰是什麼?
丁文超:首先是資料。GPT的網際網路語料資料相對容易獲得,但具身的資料很難獲取,不光是簡單的影像和影片,還需要操作中的動作,動作類資料很稀缺
其次跟GPT相比,AWE需要有很強的空間感知能力,因為具身智慧機器人需要執行真實世界的具體任務,缺乏空間感知能力一定不work。物理 AI自然需要被定義在物理空間內,所以空間的概念是非常重要的。
語言不需要空間感知能力,你跟ChatGPT對話,它缺乏空間感知弄錯一些資料問題不大,但具身智慧不行,從一開始就需要有很強的空間感知能力,這也是業內沒有被很好突破的難點。
有些具身大模型簡單粗暴套LLM的邏輯,把影像變成語言一樣的token,然後讓大模型輸出動作……這其中缺失很多東西,缺少空間感知相關的能力,導致目前也沒有真正好用、可信賴的具身大模型出來。
量子位:做好具身大模型就需要強空間感知能力,空間感知能力依賴於資料……
丁文超:是,所以我們致力於打造一家成功的具身智慧公司時,就明確了一定要有自主可控的資料閉環。這個邏輯和自動駕駛一樣,幾乎沒有成功的自動駕駛公司靠外部採集資料而獲得成功,一定是需要資料閉環機制。如何打造一個完整的資料閉環,這個方面,我們有非常強的經驗。
之前做自動駕駛產品落地的時候,每天接觸最多的就是資料閉環的問題,如何在資料雪球開始後,根據訊號迭代模型和網路,再進一步迭代資料。
量子位:有了資料如何訓練好空間感知能力?
丁文超:這是我們團隊核心技術能力之一。為什麼空間感知能力之前沒有很好的模型,我認為是大家建模的時候太粗暴,比如認為基於過去的影像和影片,就能預測未來,就認為模型具備空間感知能力了。但實際不是,影片預測模型學會的空間感知能力,可能很間接。
比如大家現在可能會刷到AI生成的短影片,看起來逼真,但很多小細節可能在違反物理定律。或者前後一致性的問題。
我們的解決思路是4D空間對齊,在具身智慧領域,3D空間操作之外,加入時間的維度,引導AWE預測整個4D空間的變化。這實際上展示了模型學習和理解空間感知的能力。
為什麼其他人無法做到這一點?首先可能是尚未意識到重要性。其次是訓練這樣的模型,必須要有強大的自動化標註能力作為支撐,以及有對應的訓練資料資料。
空間感知能力需要模型學會,它不會靈光一現湧現,需要你教小孩子一樣,先有監督學習,只不過這個監督學習主要是資料自動化標註獲得。資料自動化標註的能力、場景重建的能力實際非常有門檻,做好了這個才能設計好整個模型架構,設計模型學習的任務,而這條路我們在自動駕駛工程專案中獲得了經驗。
量子位:怎麼理解資料的自主可控?
丁文超:具身智慧的資料來源大概有這樣幾種,一是買資料,但供應商的資料參差不齊、有些噪聲還很大,或者動作和影像同步沒做好,最後會限制模型的能力。
另一種是自己採集,比如在空間裡設定場景,然後工程師透過搖桿操作,人動、機器人跟著動,學習一些任務。但這樣的場景採集的資料是自主可控的嗎?我覺得不是,多樣性太弱了,你很難相信這樣環境訓練出來的模型能夠泛化到家庭場景…
我認為資料的自主可控,核心還是你自己去架構整個資料採集的機制和流程,保證可擴充套件性。這個資料採集機制能夠到每個人身上,不受限於機器人本體,可以忠實地記錄真實世界,記錄人的方方面面,記錄人乾的各種各樣的事情,以及作用於周圍環境後引發的變化。
量子位:比如說咱們所處的這個房間空間,把裡面的一切都記錄下來成為資料?
丁文超:不是,我認為資料的問題不是在於對房間建模是否精細,核心還是場景,真正的智慧湧現不會來自一兩個這樣場景裡的資料,你只會容易過擬合,你想讓具身智慧機器人學會操作水瓶,不能侷限於這個桌子上,得讓它見過各種場景、角度、形狀得水瓶。
這聽起來是一個簡單的任務,但你沒辦法在一個房間裡把所有的排列組合都搭建出來,成本很高,效率很低……我認為正確的資料獲取方式,應該是和人繫結。
量子位:所以你認為具身智慧大的路徑是有共識的,但具體實現上,演算法、模型和架構的質量,大家還是會有差距的?
丁文超:或者這麼去理解,大趨勢都在逐漸收斂成共識,大家現在都意識到要用端到端大模型的方法去支撐具身智慧,已經沒人再做小模型或模組化了,但即便如此,認知水平的差距、工程化實操水平的差距、資料迭代的差距,最後都會造成結果上的差距。
自動駕駛現在的方法論很透明瞭,端到端網路、Transformer架構、車的資料也很直接……但真正能夠成功實現端到端自動駕駛的玩家並不多,對吧?
量子位:想到還要能做到……
丁文超:所以我認為現階段時代是在呼喚一個具身智慧團隊的,這個團隊既能把新技術用起來,還能夠做好工程化。
之前可能有團隊做研究做得很好,發很多論文,展出各種小的demo,但真正拿出可靠的產品化方案,可能還沒有,要麼可能是對前沿技術follow不足,要麼是工程化能力不夠。
所以某種意義上,我認為時代在呼喚能夠兼顧前沿技術和工程化能力的團隊,就像早期自動駕駛落地一樣,這是我們現在出發的原因。

“時代在呼喚一個技術創新與工程化並重,軟硬一體的團隊”

量子位:我一直有個疑問,你們感知到了時代的召喚,但具身智慧實際是阿蘭·圖靈時代就提出的概念,是什麼原因讓現在可行了?
丁文超:我覺得之前已經有了很多的鋪墊。首先就是自動駕駛被解決得很好,如果大家還都陷在自動駕駛苦海,還在一個個寫規則程式碼,那是不敢碰具身智慧的。所以自動駕駛是一個明確的訊號,你可以依靠資料驅動,端到端網路,實現可靠的自動駕駛落地應用。
第二是大語言模型的成功,讓大家意識到智慧的上限可以這麼高。原先自動駕駛是很垂直場景的AI落地,但大語言模型的成功,讓大家相信通用智慧的存在,並且ChatGPT、豆包、DeepSeek這樣的應用,每一個人日常都能感知到它的能力了。自動駕駛也是,都開始標配了。
我們公司“它石”也可以從它山之石來理解,就是具身智慧浪潮本源來說,很多進展和資源都堆積到這裡了,物理世界的AI化大勢所趨,開始要替代資訊世界的AI成為主旋律了。
具身智慧這個概念我覺得相對拗口難解釋,實際上我更喜歡物理AI,更加直觀。
最後,很多供應鏈和工具生態都相對成熟,可以支撐推動時代浪潮。進展也是顯而易見的,特斯拉的機器人第一年還是概念不能走,第二年再出現就能夠獨立行走可以抓球拋球……說明技術和資源都在加速發展。
量子位:語言智慧之前被稱為AI皇冠上的明珠,自動駕駛也被稱為AI皇冠上的明珠,現在兩顆明珠合而為一了。
丁文超:確實。兩股能量彙集也需要有出口。
量子位:剛才談論了資料的重要性,也有觀點會強調模擬和合成資料,你怎麼看?
丁文超:我認為對模擬資料的依賴是一個行業早期不可避免的過程,但問題是為什麼需要模擬資料?可能還是沒有自主可控的資料流程。如果可控、可泛化、可擴充套件的真實資料不可得,就會寄希望於模擬。
但我們的基本判斷是真實資料的優先順序永遠高於模擬。
如果能確保海量真實資料的時候,模擬的優先順序相對較低。模擬資料更適合專案的早期階段,模型冷啟動,但在後期的作用非常有限。
你只要做過模擬器,就知道里面有超級多的魔鬼數字,本質是你在用程式碼重構真實世界,這是很難的事情,而真正能夠重構世界的是AI大模型,所以我們叫AI World Engine,如果能夠學習到動作和環境變化,AWE可以扮演模擬器的決策,
而事實上AWE遠遠超越了模擬器的概念,我們是靠AI方法去學會的,而不是程式設計實現的。
量子位:那基於真實資料去構建AWE,引數的量級是一個怎樣的問題?
丁文超:這也是一個波動的過程,具身這個領域此前也有行業案例證明不是必須使用如此大的模型才能達到它展現的水平。我認為具身界的DeepSeek也會很快出來。好的資料不挑網路,核心可能還是沒搞清楚資料。

“行業首創 Human-Centric,對於 Scaling Law 至關重要”

量子位:問題是比如GPT可能幹到了很大引數發現了智慧湧現,然後DeepSeek才能用更小的引數實現這樣的能力。但具身智慧如果沒有這個過程…
丁文超:具身智慧確實一口吃不成胖子,模型規模和智慧能力是相輔相成的。但語言模型的特點是天然資料量很大,足夠飽和,所以你早期增加模型規模可以展現 …
Scaling Law我認為有三個維度:
  • 第一是資料維度的Scaling Law;
  • 第二是引數規模的Scaling Law;
  • 第三是推理時上的Scaling Law。
因為語言模型天然可以透過爬蟲獲取資料,所以跳過了第一個維度的Scaling Law,直接被看到的就是引數規模和現在的推理時間上的Scaling Law。
具身的問題是被卡在了資料的Scaling Law,然後就沒辦法談模型規模上的Scaling Law,比如目前看到有些行業具身智慧機器人展現的是在房間裡抓抓取取,這些很顯然並不需要多麼龐大的模型引數。
那具身的話,我認為首先是啟動資料的Scaling Law,然後會看到模型規模上的,接著強化學習。
所以我認為,具身一開始可能不是一個很大的模型,比如7B或者30B就能很強了,等資料飽和到一定程度,再擴大模型引數,再進一步變強,然後再接著做強化學習達到next level……這三個Scaling Law都探索完成,真的有可能達到AGI。
因為具身或者說物理AI和語言——資訊AI是互補的,這二者最後彙集起來真的可能會導向我們說的AGI。
所以我認為模型規模大小,現在還不是最關鍵的因素,不是瓶頸。
量子位:你提出的Human-Centric對於Scaling Law的意義是什麼?
丁文超:我們在行業開創了Human-Centric 具身資料引擎,這是一個全新的技術正規化,對於Scaling Law至關重要。它可以實現真實世界具身資料獲取能力的跨越式突破,我相信這將為物理世界 AI的持續發展注入強勁驅動力。
量子位:我們談到了AGI,在資訊領域,目前大概的共識是每一個領域都達到人類博士的水平,那在具身智慧領域,如何定義AGI?
丁文超:需要有場景。
量子位:那為什麼不先在某個場景,比如工廠中的工作場景打造一個行業模型,而是一開始就打造一個通用的AWE世界模型?
丁文超:這是一個選擇問題,我一直認為人做事情,往往是求上得中,求中得下,求下而不得。如果一開始就做一個工廠中工作場景下的事情,能做成也能做得很好,但人終究是有侷限的,你很容易過擬合。
後面從工廠場景切換到生活場景,有些GAP你就可能跨越不了了。
所以從出發點來說,我們肯定是要用通用的方法來做具身智慧,不管開始落地的場景是一個還是兩個,但方法一定是要通用的,適用於所有的場景,只不過可能剛開始會有資料分佈上的調整,哪個場景多一些,哪個場景先不那麼多,只是為了讓效能在具體場景下更好。當我開始不同場景遷移的時候,不需要重新寫程式碼或者調整架構。
量子位:GPT展現的能力湧現,經歷了1.0、2.0、3.0…你們的具身大模型,也需要經歷這樣的過程嗎?
丁文超:我們構建第一個AWE模型,可能版號就是3.0。我們希望直接對標的就是GPT-3展現的能力,GPT-1和2的時候展現了一些智慧訊號,但不是很work,等到GPT-3的時候或者說3.5的時候真正把資料和規模達到了一定程度,也很系統地研究了Scaling Law,打造了垂直的ChatGPT應用,真正展現可用了。
我們也是類似邏輯,先打造AWE3.0,把資料和工程化做好,後面針對垂直場景做最佳化,就推3.5版本,再後面推強化學習,可能也對應以o命名…目前規劃了這三個版本。
量子位:這三個模型版本,機器人本體都是一樣的嗎?
丁文超:我們準備設計一個模組化的本體形態,核心判斷是本體形態會在很快的範圍內收斂形成共識,唯一不確定的是靈巧手形態。
但大的變化可能不會那麼大了,雖然我們一開始還是會在本體設計上追求全棧,自己組裝,但後面會不斷收斂,利用產業分工和供應鏈能力。
量子位:有些玩家可能更加專注於“大腦”打造,本體有共識了放進來…
丁文超:我們對本體從一開始自研,核心還是希望真正瞭解和定義每一個硬體模組需要的算力、感測器方案,目前行業也有做得不錯的硬體玩家,但這類機器人不一定為我們的需求和場景而生,我們需要自己做一做,才知道如何做整體的設計和調整。

“自動駕駛分級標準不適合具身智慧,但有兩大維度參考”

量子位:你們團隊都有自動駕駛落地背景,自動駕駛按照技術能力有L0-L5的分級,一定程度上指導了落地,你覺得具身智慧領域需要這樣的分級嗎?
丁文超:很多人拿這個來比較,但我認為套用自動駕駛的分級來指導具身智慧是不合適的。因為自動駕駛的分級本質是劃分權責,L3以下是人類司機責任,L3、L4又是限定區域ODD擴充套件……L3允許接管,L4不允許接管。
但對機器人來說,它從第一天開始就需要具備一定的自主性,比如你買了一個機器人在工廠應用,它如果出錯了,這個機器人就需要負責任。直接跳過了自動駕駛L3之前需要人類司機負責任的階段。
至於具身智慧怎麼劃分,我更傾向於技術拆解出來的兩個維度。一個是自動化維度的宕機率,多長時間宕機一次,或者可能類似自動駕駛裡的MPI——走多長公里不會跌倒。
另一個是智慧化維度,按照掌握的技術數來衡量。
我們的目標是打造一個基本不會宕機的機器人,然後今年、明年推出的初代產品,可以在一些柔性技術能做得很好,可以支撐商業化場景落地。
量子位:這兩個維度,也有人會用大腦、小腦來類比,專門打造兩個模型。
丁文超:是的,但可能越往後越會發現大小腦之間沒辦法分的那麼開。比如行業有能做迴旋踢的機器人,我覺得非常好,證明小腦代表的運動能力非常強了,但有個問題是那個機器人眼睛裡到底有沒有那根棍子?是看見了棍子去踢,還是它按照一個模式做出了720°迴旋踢,然後有人在合適的時間把棍子放到合適的地方配合著讓機器人踢走?
更進一步的問題是這反映的是大腦能力還是小腦能力不足?其實這恰恰是大小腦完全分離導致的。
量子位:所以從一開始你們就不會把大小腦分開訓練或者做這種劃分?
丁文超:可能剛起步階段,為了研發進度,可能會稍微區分,但終極上肯定還是要融合統一的,統一的一個架構。
量子位:我預設你們就是在打造人形形態的機器人,你們確實是嗎?
丁文超:形態的問題,我覺得馬上就不會再被討論了。之前討論形態,主要還是人形形態能力,一直沒有深入人心。
但這個過程展現了形態的本體的成熟度。但具體到是不是一定要有兩個腳掌,可能不一定,人也不是時刻需要兩個腳掌,比如騎電瓶車的時候。下肢可能匹配使用的工具,配合底盤使用。
上肢的話是不是人形這種操作能力更加能夠達到人類水平,我覺得從第一性原理來說,有很有可能是的。
量子位:人形形態是因為對萬物之靈人類的模擬,還是說做好人形就能做好其他形態,像你剛才說的求上得中…
丁文超:我傾向於後者,具身形態以後的定義可能還是在擬人形, “擬” 這個字也挺微妙,放開了下肢自由度,但沒有放開上肢。
反向思考的話,如果你的目標場景需要Scale資料、Scale模型…你需要什麼樣的本體才能匹配得上需要的AI能力skill?就會發現垂類、特別專一的設計沒辦法匹配,在某個時間點就需要重構本體甚至扔掉換更好的,最終這樣的過程後,迭代到的可能就是一個擬人形的樣子。
量子位:所以為了這個大腦,具身機器人也需要有這麼一個身體?
丁文超:是的,我認為這就是具身的含義,你需要有一個軀體去承載聰明的AI大腦。軀體長什麼樣,會跟自然進化一樣,某種程度是重演進化史。垂類也會進化出垂類的形態,佔據垂類市場,但通用的會佔據最大的市場。
量子位:在自動駕駛領域有升維迭代進化的概念,從L2做到L4,但具身裡好像不談論這個,從一開始就是“L4”?
丁文超:核心還是具身智慧裡,從一開始就沒有人給機器人兜底。它work不work都是一瞬間的事情,人是很難接管的,機器人沒有駕駛艙,你也永遠不可能讓它永遠處在人類的監督之下。
量子位:好像也不會在用不用雷射雷達上吵來吵去?
丁文超:在自動駕駛早期,核心還是AI能力不夠,演算法對用雷射雷達還是純視覺,對架構和程式碼改變是很大的,但今天都是神經網路端到端的方式,你接雷射雷達資料還是影像感測器資料,都是前融合了,區別不大。
量子位:最後影響的核心是成本?畢竟雷射雷達始終要貴一些。
丁文超:成本是一方面,另一個也有資料效率的原因,如果雷射雷達可以把幾何掃得很好了,一定程度上也能減少你網路學習的難度,但同時也會帶來資料多樣性的增加,或者說資料異構性的增加。純視覺就同構,加雷射雷達就會多一點,所以有優點也有挑戰,就看不同公司的取捨。
量子位:那晶片算力是一個問題嗎?
丁文超:算力不是問題,現在的自動駕駛車載算力夠用。
量子位:是不是意味著以後也是雲端大模型,終端放蒸餾小模型?
丁文超:這是以後實際部署的問題了,可能會有很多工程化的方法。雲端是不是有模型,肯定有,邊端也會有,然後二者協同配合。當你這個機器人沒有網路,長程思考就需要終端自己完成,有網路就雲端,可能會影響到思考速度的快慢。或者也類似現在快慢模型,有一個跑得快的模型做精細的閉環操作。
算力的分配會結合網路場景來思考,最極端的場景,沒有網路,機器人可能表現得沒那麼聰明,但它也有一些基本的能力,這可能就是將來的一個趨勢。

“具身智慧裡的分歧和爭論,持續不了太久了”

量子位:所以當前具身智慧領域,你認為存在技術路線分歧嗎?
丁文超:我覺得你剛才問的幾個問題,其實都是分歧。
第一,要真實資料還是模擬資料?
第二,靠大小腦合一還是分離式架構?
第三,你資料到底長什麼樣子?本體什麼形態?
第五,你落地場景到底怎麼樣?應該先做垂類還是通用。
這些都是分歧或者爭議的話題。
量子位:大家都想相互去證明?
丁文超:是的,但我覺得這些爭議不會持續太久。
量子位:會隨著什麼而結束?
丁文超:隨著具身AI能力的提升而結束。因為這就是一個方法論,只要你是對的,提升就會很明顯。
就好像自動駕駛早期都在各種爭論,預測和決策應該是什麼關係,感知和PnC之間什麼關係…技術專家在吵,網友也在吵,包括到今天一段式好還是兩段式好也還在吵…
但最後你會發現,技術方向路子一旦對了,爭論慢慢就平息了,討論問題沒有意義,只想怎麼更快縮短差距。
量子位:看療效了,看你最後交付的東西。
丁文超:對,是的,具身也一樣。比如有誰交出了最穩定的自動化程度,效果一出來,很快方法論就會被歸因出來。
量子位:現在業內玩家也會不時放demo,或者展會上秀能力,你會重點關注什麼?
丁文超:其實我不太會看展會秀的能力,因為太容易是過擬合下的產物。我傾向於能在哪裡看到機器人,這是我的金標準。
量子位:實際落地的場景?
丁文超:對,就是看機器人到底在哪裡實際工作,這就是以後的新標準。比如現在有一些機器人,哪怕沒有什麼大腦能力的展現,但運動能力很不錯,大家可以買來用或者玩,挺成功的。
量子位:目前一些機器人有這樣的定位,本體做得很好,以後等一個DeepSeek或者安卓的大腦,一下子讓它獲得很強的大腦能力。
丁文超:那不就是我們要做的事情嗎?
量子位:但你們會軟硬體一起做。
丁文超:早期是這樣,但最終是不是也會有一個東西可以抽象出來?
我也在思考這個問題。最終是不是真會出現一個Robot OS,或者說物理AI OS,它有很多真實世界的介面,然後你抓取東西的能力就是一個API,和現在虛擬世界的作業系統API一樣……你透過補充資料就可以創造新使用,而不是再編碼……
如果可行,那這個東西的價值太大了。可以快速落地各種場景和產品。
量子位:我還想問的是,假如你在幫VC做技術盡調,什麼樣的具身智慧專案拿不到你的投資推薦?
丁文超:我覺得如果這個節點還在講概念,沒有實際落地能力的人,我不認為能拿到投資。這個階段已經不像三年前,三年前可以靠理想夢想,但現階段要靠實際效果或者產品說話了。
量子位:但你們現在剛入局,也沒有產品,卻依然吸引了最大的首輪融資。
丁文超:我想核心還是我們這個團隊做過成功的產品,起碼能證明我們有產品化經驗,有紮實的功底把東西做出來。而且我們對具身智慧的理解和認知,或許也是大家對我們的信心。
我相信投我們不僅僅是因為一些名頭光環,核心還是大家相信具身智慧的工程化我們能搞定。我們這個團隊的構成,之前交付了中國最好的智慧駕駛產品,交付了中國最好的Robotaxi產品。
所以可能大家需要這樣一家公司,它能夠在具身智慧領域打造類似的產品,而我們打造過,可以被相信。
量子位:這也可以作為對潛在候選人的說服,為什麼你們這艘船值得加入?
丁文超:我們中文名“它石”,對技術人才也是一個吸引的點吧,踏踏實實把事情做好,不要花裡胡哨。然後融合很多技術要素,它山之石。
融匯自動駕駛、大模型、前沿AI,然後把它們吸收到你工程化的寶貴經驗裡。
如果你相信具身AGI的路徑已經開啟,那這絕對是一個起碼20年內為之奮鬥的事情,而這個過程中如果有一群比較靠譜的人在做,加入對你的個人認知、技術能力成長還有其他各種方面都有幫助,為什麼不加入我們呢?
量子位:我在準備的時候,有一個問題是具身智慧這個領域的GPT時刻,但剛才你說AWE第一個版本就是3.0了……所以如果具身有這麼個時刻,我們可以怎麼檢驗?
丁文超:該怎麼定義具身智慧的GPT時刻是一個好問題。我想或許標誌性事件就是具身智慧機器人用一個比較AI的方法完成了現實世界裡哪怕一到兩個任務,我覺得這就是具身智慧的GPT時刻。
回過頭來,ChatGPT核心就是用一個很AI的方法,基於學習預測下一個token,很簡潔很乾淨,能回答問題了,它就幹好了這一件事情。
量子位:所以可以理解為如果你們機器人能在工廠裡把任務解決得很好,就可以說它是GPT時刻?
丁文超:對,是的,足夠具體具象了。
(另外,丁文超博士透露,他們的戰艦正在緊鑼密鼓招募技術人才,如果你希望擁抱最具挑戰和前景的AI創業,歡迎用簡歷投票:[email protected]
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
—  —
速搶席位!中國AIGC產業峰會觀眾報名通道已開啟 🙋‍♀️
首批嘉賓曝光啦 🔥 百度、無問芯穹、數勢科技、生數科技、畫素綻放等十數位AI領域創變者將齊聚峰會,讓更多人用上AI、用好AI,與AI一同加速成長~
4月16日,就在北京一起來深度求索AI怎麼用 🙌
🌟 一鍵星標 🌟
科技前沿進展每日見

相關文章