對話千尋高陽:端到端是具身未來,分層模型只是短期過渡

具身的突破不會發生在實驗室裡,所以 “從伯克利到西二旗”。
王與桐
編輯程曼褀
千尋智慧的首席科學家、清華叉院助理教授高陽,像是個被寫好程式、執行程式的人:他每天騎共享單車上下班,固定時間健身,從不熬夜。他將做科研比作一套 Chain-of-Thought 推理流程,認為只要每一步做對,結果就會自然匯出。
但在具身智慧這件事上,他願意以創業者的身份,跳進充滿不確定性的市場,因為隨著大模型技術逐漸成熟,高陽感受到,具身的突破已經不會發生在象牙塔裡。於是他和在國內機器人行業工作了 20 年的 “老兵” 韓峰濤一起創辦了千尋智慧。
“就像 GPT-4 之前,OpenAI 也等待了幾年,” 高陽說,“我們現在正處於具身智慧的 Scaling Law 時刻,只是還需要四五年的沉澱。”
高陽本科畢業於清華自動化系,博士階段在 UC Berkeley——被譽為具身智慧 “黃埔軍校”——師從計算機視覺泰斗 Trevor Darrell,長期深耕機器人控制、強化學習與計算機視覺的交叉研究。
韓峰濤則曾在 2023 年初,在還沒人相信具身智慧時就在知乎撰文介紹具身智慧。高陽說:“我見過的產業方里,韓峰濤是最願意接受新技術的人之一。”
近期,千尋智慧釋出了新的 demo,在辦公室裡,機器人可以收納雜亂的筆,可以換紙抽,也可以把椅子歸位。
6 月,千尋智慧釋出最新 Moz1 機器人 demo:機器人可以自主完成更精細的操作,比如把筆插進筆筒。
從實驗室到創業,從伯克利到西二旗,高陽看見了技術的可能。他的描述裡,有對技術細節的洞察,也有對路徑方向的推理總結。
具身智慧非共識叢生,但這已經是收斂後的結果了
晚點:近期在跟美國的導師和同學交流什麼趨勢?中美具身智慧發展有哪些差異?
高陽:最近 Figure 02 釋放的 demo 還挺炫酷的,展示了 Figure AI 的快慢系統,目前國內我還沒看到哪家把快慢系統真的做出來,並用到 VLA 裡的。
中國目前的優勢在基礎硬體的製造上,一個體現是,美國很多實驗室用的都是中國的機器人,這帶來的另一個優勢是,中國修機器人的速度要比美國快很多。
科研場景用機器人都比較狠,機器人經常出現一些損壞情況。在科研使用中我們基本上每週都把機器人郵回工廠,他們修個一週半左右,再把機器人郵回來。但在美國,來回郵寄要很長時間。
Physical Intelligence(美國機器人公司,聯合創始人 Sergey Levine 曾經和高陽在 UC Berkeley 期間深度合作)從中國買了 100 套機器人,但修的速度很難能趕得上機器人壞的速度。所以他們讓機器人廠商寄了一些備件,自己修,但這對人力的消耗依然很大。
晚點:你在博士期間怎麼選定了具身智慧方向?
高陽:我最開始是在一個做計算機生物的實驗室,之後還在一個理論機器學習的實驗室參與過。當時覺得計算機視覺挺酷的,所以就跟著 Trevor Darrell。
我最開始做的專案是自動駕駛,博士二年級才開始做具身智慧。
許華哲(星海圖首席科學家)進組第一個專案是我們一起做的端到端自動駕駛模型,那是 2016 年,學術界對端到端的研究不是很多,工業界更是沒人相信。當時有一篇論文是英偉達的端到端自動駕駛,我們用了比英偉達大了 100 倍的資料去訓練,泛化性更出色。現在過了 9 年了,從現在的視角來看,那篇文論已經過時了,但我們當時就已經有端到端的想法了。
晚點:怎麼決定把研究方向從自動駕駛轉向機器人的?
高陽:從學術角度出發,機器人是比車更通用的控制形態:機器人能做的事兒非常多,更難,所以研究起來自由度也更高。
我做的第一個機器人課題是 “把模仿學習和強化學習結合起來”,因為強化學習還挺難的,得有第一次成功才能有未來的成功。後來研究的內容就越來越多,包括更好的強化學習演算法,跟物理機器人結合等等。
從個人角度,繼續做自動駕駛,最好的結果可能是成為一個大廠的工程師,但這件事沒什麼挑戰,也一眼望得到頭。
我之前也在 Waymo 實習過三個月,我覺得我的腦子進去就壞掉了。每個人的事情都非常小,我只需要把極小的事情執行好,不需要太多智力。在那裡,大腦不是自己的大腦,而是公司決策層的大腦,我更想做成為大腦的事。
晚點:原來一起做自動駕駛課題的你和許華哲,現在都在具身智慧方向創業,你們有什麼共同感受嗎?
高陽:創業之後的共同感受就是忙了好多。平時我們也會交流各自的管理風格,有什麼方面可以改進。
我跟許華哲最近交流的一個問題是,具身智慧已經到了科研 idea 的瓶頸期,在這個前提下,我們探討有什麼新東西可以做,結論是可能靈巧手還是有蠻多可以做的。
晚點:為什麼說科研 idea 到了瓶頸期?目前具身智慧領域的非共識實在太多了。
高陽:我之前一直在做科研,大多數時間我都在想下一個研究課題怎麼去選。在某一些瞬間我會覺得這個研究好像沒有那麼多可做了。
你能看到正規化的變化,這樣的變化可能會終結掉整個研究:某個論文出來之後,這個領域基本問題都已經解決完了,就不用繼續搞研究了。
現在相當於在學術上大家有了一定的共識,因為某一些路徑已經被證偽,不可能實現;趨同的部分,就是要在工程上做得更好。雖然不是說現在的學術的話題就完全收縮成一個了,但是可能從 500 個收縮成了 100 個,相當於每一個話題之下就都可能有人探索過了,要產出真的 ground breaking 並且很有影響力的東西,就變得越來越難。
晚點:所以即使在我們外行人看來,具身智慧有這麼多的非共識,但在科研領域已經是共識收斂過的一個狀態了。是不是類似現在的大語言模型?現在已經很少有人探索 transformer 架構之外的技術了。
高陽:對,就像現在大模型一樣,在學校做自然語言處理的老師,可能只有 AI safety 還有比較多的問題可以做,已經沒有那麼多更加需要去探索的大方向了。
2023 年開始,我大概就有這樣的感覺:具身智慧沒有完全收斂,但是已經在收斂的過程中。從社會的角度和工程的角度,收斂後是是很好的,因為我們真的可以開始享受技術所帶來的福利。
我從博士第二年起就開始做機器人相關的探索,包括強化學習、計算機視覺等,到 2023 年也做了七八年了。我在那時觀察到了通用機器人的技術突破正在到來,正在從實驗室走向千家萬戶。在這個過程中,透過公司的形態把技術的工程化做好是有價值的,所以那時我下決心創業。
晚點:清華很多教授出來創業,都是類似的原因嗎?尤其是交叉資訊研究院,你們 “四子”,還有楊植麟。
高陽:一方面我們所在的領域,大模型和具身智慧,從學術科研階段進入到產業化的階段;另一方面清華這些方向過去有積累的老師比較多,我們可以把我們已有的研究推向產業。
晚點:你、邊塞智慧的創始人吳翼、星動紀元的陳建宇,以及星海圖的首席科學家許華哲,你們四位被稱為 “伯克利歸國四子”。你們當時是怎麼決定一起回國、來到清華的?
高陽:我們本來就在 Berkeley 很熟,是相差不大的同學。我和許華哲、吳翼當時在一層樓,經常一起吃火鍋、打牌,關係挺近的。
當時畢業準備回國,最先是姚期智院長給了吳翼 offer,吳翼就問我 “要不要一起回清華”。我那時候才開始認真考慮回國的事。後來陳建宇和許華哲也是我們一起勸回來的,算是我們兼職做了 HR。
晚點:教授出來創業,會有什麼侷限性嗎?一些人擔心年輕的大學教授創業有風險,比如過段時間就拍拍屁股走人了。
高陽:我覺得大家擔憂的本質是,身兼教職創業是不是意味著決心不夠?我的考慮是,當教授和創業都是在做一件事,只不過是逐漸成熟的技術過渡到工程化落地。我們也看到了一些人,企業發展得越來越好,就辭去了學校的職務,專注創業,這也很好,人生就是一個 journey,沒有標準答案。
不過很多投資人說科學家創業 “不靠譜”,我一定程度上認同。每個人都有自己的侷限性,雖然技術我懂,但怎麼去做工程化,怎麼把團隊的分工做好,怎麼帶好團隊,怎麼和落地的節奏配合,想起來可能沒那麼難,但是做起來,尤其是做好,還是挺難的。
端到端是共識,分層只是短期選擇
晚點:你會怎麼給具身智慧劃分階段?有人喜歡用 GPT 的發展階段來劃分,有人喜歡用自動駕駛的 L 序列來劃分。
高陽:我拍腦袋定義一下:L0 是工業機器人,沒有什麼智慧;L1 是在單一任務上有智慧;L2 是能在辦公室場景裡完成少數幾件事,比如倒一杯咖啡,或者把桌面收拾乾淨;L3 是在一個物理場景裡能做到 70%~80% 人類的事情;L4 是在單一場景內,做到人類能做的所有事,就像 Waymo 一樣,在 San Francisco 去任何地方都可以;L5 是不侷限於單一場景,在任意場景可以做任何事。
在這裡面,L2 到 L3 是比較大的跨越,因為 L2 是少數幾件事,L3 是 70%~80% 的事情,能力範圍擴大很多。
晚點:我們現在處在什麼階段?
高陽:我們已經過了 L1 的階段,在接近 L2 的過程中。不止千尋,行業最好的水平就是在接近 L2。
晚點:現在走向具身智慧的路徑,業內有兩個選擇,一種是端到端 VLA(vision-language-action),一種是分層,即規劃-感知-執行。你們選擇了哪一條?
高陽:走向具身智慧肯定是端到端,行業內可能只有少數人不這麼認同。背後邏輯已經在過去十多年的自動駕駛發展中驗證了,現在基本上所有的自動駕駛都在做端到端,手動去做分層不靠譜。
晚點:在你的定義裡,什麼是端到端?VLA 等於端到端嗎?
高陽:VLA 就是端到端。在 VLA 模型中,視覺、語言和動作這三個模組由同一個 Transformer 統一處理,並最終輸出未來的動作決策:你跟機器人說任何一句話,比如說給我倒杯水或者給我做杯咖啡,模型能從語言、視覺模組抽取資料資訊,機器人就能把理解和動作結合,去生成一串動作完成這個任務。
整體流程是:先從視覺和語言中抽取資訊,再將兩者融合,最後與動作模組進行進一步整合。這樣的設計有兩個顯著優勢:一是資訊以數學語言的形式傳遞,更加高效和精確;二是具備良好的預訓練能力,便於大規模資料學習與遷移。
晚點:你也說過,在 2016 年時,自動駕駛還沒人相信端到端,但現在端到端已經很普遍了;再過幾年,具身智慧領域會不會出現新的實現方式,替代端到端?
高陽:未來資訊的傳遞方式還可能繼續演化。隨著資料規模不斷擴大,以及大模型的預訓練與微調方法日趨成熟,VLA 的結構也可能在某些層面上發生變化——但這些演化方向,目前還難以下定論。
晚點:VLA 不能解決什麼問題?
高陽:其實只要是操作類的,VLA 應該都可以解決。
晚點:但現在依然很多人選擇分層的路徑。VLA 還不能大規模使用的卡點是什麼?
高陽:端到端暫時只能落地簡單場景,不能落地複雜場景,因為模型預訓練等的規模還沒有做得很大。短期內,分層可以解決更多問題,因為分層在工程上更容易實現。
晚點:你們是如何訓練 VLA 模型的?
高陽:首先讓模型學習海量網際網路資料,包括文字、影像和影片,以獲取通用常識和基礎能力;隨後引入真機的遙操作資料,進行精細的 SFT(監督微調),提升模型在實際任務中的表現;最後透過強化學習進一步最佳化,讓模型在真實環境中的成功率持續提升。透過這樣的方式,我們儘可能把所有能用上的資料用起來,訓練出具備泛化能力的 “基模”。
晚點:前段時間智元機器人也公開提到了他們的模型可以學習網際網路影片資料。影片資料的優勢是什麼?應該不是所有的影片都可以成為資料來訓練,你們有哪些篩選標準?
高陽:來自網際網路的資料確實質量參差不齊,我們會從影片網站上扒一些第一人稱視角的、有操作動作的素材,能用的比例大概在 1%。
一方面,模型可以透過這些影片學習物理世界的常識,另一方面也可以去預測物體的軌跡、人手的動作軌跡,透過這樣的方式去學習怎麼操作這些物品,我之前也釋出了相關的論文。
晚點:這些是學習、理解的部分,那怎麼讓理解變成動作?
高陽:機器人學習完也不會操作,所以還需要模仿學習,然後強化學習不斷調整。人有肌肉記憶,機器人也有類似的 “記憶”,只不過人是 “分散式” 的,機器人現在還是 “中心化” 的。
我們在訓練時也會發現,一個操作,機器人可能很久都不會,但在某一次突然做成以後,之後也就一直會了,並且還會泛化,比如會插 USB 介面之後,插其他的東西也都會了。
這個事情主要還是取決於我們基模的訓練和 SFT 做得如何,如果兩個都做得很好,那強化學習就會比較快。
晚點:關於訓練資料的來源,業內其實還沒有統一共識。有人偏好模擬,認為便宜且量大;有人看重遙操作,資料更真實,也是特斯拉的主流做法。實際操作中,各類資料通常都會用,只是側重點不同。你們以網際網路資料為主,為什麼?
高陽:我覺得本質是大家認知以及擅長的東西不同。但共識是已經被大語言模型證明的:如果基模足夠好,那麼模型就能變得非常強,所以第一步就是預訓練,預訓練就要求有足夠多的資料。
遙操很難搞到量很大的資料,昂貴且很花時間;模擬可以跑出無窮多的資料,但不能解決無窮多的問題,因為資料的 diversity(多樣性)是有限的。
我們團隊也發現了具身智慧領域的 Scaling Law,就是資料每增加 10 倍,小數點後就會多一個 9。
晚點:這是在什麼資料範圍內的 Scaling Law?
高陽:我在論文裡驗證的規模沒有那麼大,十到幾十萬區間裡,這個規律都是成立的。 
晚點:你們之前提到,你們發現了 Scaling Law,是具身智慧領域的 ChatGPT 時刻。你覺得是嗎?
高陽:算是 ChatGPT 的理論提出時刻。如果真的要比,最恰當的是 OpenAI 提出  Scaling Law 的時刻,在兩三年之後他們做出了 GPT-4,因為機器人的資料更難搞一些,所以我覺得機器人的 GPT-4 要更久一些,可能需要 4-5 年。
晚點:機器人要做出像 ChatGPT 一樣的效果,需要多少資料?
高陽:如果按照我們的技術路線,需要 100 億條有效的網際網路資料,也就是說先要從 100 億的 100 倍的資料裡篩到 100 億條資料,再加上 1 億遙操資料,再加上小几千萬的強化學習資料。
晚點:現在網際網路上已有的資料,足夠多嗎?
高陽:我們測算過,網際網路上能用的影片大概就是 100 億條,所以是要學完所有的資料,大概需要 4-5 年的時間。
晚點:機器人的鏈條比大模型也會更長一些,所以除了要有好的大腦,是不是也要等產業鏈一起成熟?
高陽:也不是,我覺得目前的瓶頸還是在 AI,雖然別的板也不長,但 AI 是最短的板,如果能把 AI 補齊,至少是個木盆。
人形不是必需,雙足更不是
晚點:現在幾乎所有具身智慧公司都在做人形機器人,為什麼?有人說是學特斯拉,有人認為人形適應人類環境,也有人看中它的科研挑戰性。你怎麼看?
高陽:我覺得是需求出發的,本質還是世界是為人設計的,所以人形從物理形態上可以確保解決大部分問題。
其實機器人也並不一定完全是人形,要看切入的方向是什麼。比如在 L1 階段的工業場景,一個機械臂就可以了;L2 的話,大部分時間需要雙臂 + 移動底盤,但是不一定要人形。在 L4 之前,如果只是室內場景,雙足都不是必須。
晚點:如果機器人有雙臂和移動底盤,還需要 “人的上半身” 嗎?比如一定要有頭和軀幹?
高陽:不一定需要頭,但相機需要放在高處俯視全景。也不一定非得一米七三或人類比例的雙臂。我們可以設計很多奇怪的形態,但仿人是物理上一定可行的——畢竟環境就是為人設計的。比如桌面高 75 釐米,機器人太矮就夠不到。
晚點:那要是機器人只有 120 釐米,但胳膊兩米長、還能像九節鞭一樣摺疊,不行嗎?
高陽:也行,但多數場景不需要那種設計。異形機器人需要為特定任務定製,沒法通用。而做人形,能覆蓋大部分人類能完成的操作。
晚點:從福特時代的流水線開始,工業生產邏輯就是分工細化。為什麼現在我們卻希望用一個機器人來解決大量通用的問題?
高陽:精細化本質也是追求更低的成本,而通用機器人也是同一個出發點。如果為每一個問題都專門設計一套解決方案,需要付出更多成本,但通用機器人可以複用硬體設計、智慧系統,只需要讓機器人具備做不同任務的能力就能做到更多事。
晚點:剛才你也提到了,可能室內場景在 L4 之前都不需要雙足。也有人告訴我們,先做上半身,等於當時新勢力先做增程車,之後還是要補課。
高陽:我同意,之後補就可以了。
現在輪式移動底盤已經非常成熟了,但我們見到的輪式底盤的機器人其實非常少,好像只有酒店的送餐機器人。為什麼呢?並不是因為底盤不夠好,而是光有底盤沒有手,場景就很侷限,可能只能在酒店送外賣,靠人放進去、人來拿出來。
這件事的核心就是,如果機器人沒有操作,只有移動,價值很小。要解決問題就要挑主要矛盾去解決,主要矛盾就是雙手的操作。
另外,從需求角度,在很長一段時間裡出貨量最大的機器人都會是輪式地盤加雙臂,因為這樣的形態已經可以覆蓋 80% 場景。
晚點:那你覺得雙足的難度是怎麼樣的?行業裡對這件事的觀點也不統一,有人覺得雙足是好補的,也有人覺得雙足涉及到穩定性,要比雙手更難。
高陽:我個人認為雙足技術還是比較簡單的。我在清華實驗室最近剛好做了一個關於平衡性的專案,機器人做燕式平衡的動作,還有李小龍的踢腿動作,技術上不太難,做到工業級的穩定可能還要下一些功夫,但這裡面沒有本質的卡點。
機器人做燕式平衡
晚點:現在不少公司是同時做大模型和本體,比如 Figure AI 最初與 OpenAI 合作模型,後來也選擇自己來做模型。你怎麼看只做本體、不做大腦呢?
高陽:如果只做本體、不做大腦,那幾乎沒有價值——這和二十年前沒本質區別。我們現在的共識是,具身智慧的關鍵價值在 “大腦”。硬體能力和十幾年前差別不大,但大家之所以現在都在入場,是因為大腦變了,有了突破,市場的天花板才真正被開啟。
晚點:反過來,只做大腦、不做本體呢?
高陽:理論上可以只做大腦,但現實中會遇到困難。人不能脫離身體行動,機器人也一樣。大模型本身沒有 “肌肉記憶”,如果不針對具體的身體結構進行訓練,很難精準控制不同形態的機器人。
晚點:你們同時做大腦和本體,剛才聊了很多你們做大腦的事。千尋做本體,會做到什麼程度?
高陽:我覺得機器人最後會像汽車產業鏈,我們需要本體,也需要大腦,但很多零部件是可以開放給大家一起做的,比如靈巧手、比如晶片、比如觸覺感測器。最後分工越來越精細。
題圖來源:千尋智慧
 FIN 


相關文章