訪談丨陳彩嫻、吳華秀、高允毅
作者丨朱可軒
編輯丨陳彩嫻
自 2023 年以來,以大模型為代表的人工智慧與以具身智慧為代表的機器人成為科技發展的兩股重要力量。與此同時,將人工智慧演算法、尤其是大模型應用於進一步提升機器人智慧水平也成為一個自然而然的趨勢。
在這個背景下,“機器人學習”、“具身大腦”成為炙手可熱的名詞。
據 AI 科技評論與多位業者的交流,我們發現諸如“具身大腦”的定義並不單一,更通俗廣泛來說,凡是將人工智慧演算法與機器人相結合,用於提升機器人在互動、感知與控制上的技術派系都能被列入具身大腦或機器人學習的範疇。
從當前情況來看,國內專攻機器人模型的廠商大約可以分為身體控制派和互動感知派,而按技術源頭則可以粗略分為幾類:
一類是視覺感知派,如穹徹智慧、有鹿、若愚科技;一類是強化學習派,如 Physical Intelligence;一類是語言模型派,如面壁智慧、巖芯數智、自變數等等。
在解決機器人大腦問題上,不同技術派別有不同的路徑之分與觀點差異。單純從過去一年的行業實踐而言,研究基礎模型出身的大模型派在機器人領域的落地最為焦慮。
除去激烈的市場競爭,更本質的原因是:端側模型在機器人終端的落地,中間還隔著晶片的開發,由此機器人廠商、大模型廠商與晶片廠商之間形成了一段三角拉力關係。
而從目前來看,這段三角關係正在進入膠著的負增強反饋:
首先,端側模型應用在機器人上需要適配晶片,但晶片的迭代是基於市場需求的:當前機器人還沒有從專業級產品走向消費級產品,出貨量遠不如手機、PC 等硬體裝置,因此適配機器人端側模型的晶片姍姍來遲;
其次,機器人消費市場的擴大,極大依賴智慧水平的提升,即 AI 模型的迭代,但 AI 模型的升級需要大量真實世界的高質量資料,依賴於其能搭載在機器人產品上與使用者進行互動;
最終,具身 VLA 的實際效果離消費級可用的精度要求和準確率還相差甚遠,機器人的智慧水平迭代變緩,出貨量更少,又反過來影響晶片的研發與出貨成本。由此三者難捨難分。要打破這個“不可能三角”、走入正反饋增強,需要一方主動打破僵局。
模型廠商期望是晶片廠商,晶片廠商希望是機器人廠商,而機器人廠商或又寄希望於模型廠商……那麼,誰會是最終的破局者?
大模型在機器人終端的落地是端側 AI 的一個縮影,至少在短期內,將大模型商業化寄希望於機器人領域或困難重重。
大模型在提升機器人智慧水平過程中扮演著「大腦」的角色,主要體現在泛化與規劃能力上,但目前在一些大模型接到機器人的具體操作中,大模型更多是幫助機器人進行簡單的任務理解與拆分。
具體來看,一方面,目前機器人依然在執行逐個任務,更多停留在互動層面,沒有看到學習能力的增強,多模態任務的實現;另一方面,機器人也更多在執行短期動作(疊衣服、做菜、開啟微波爐),很少用到大模型的規劃能力,如能一次做幾十上百步。
例如,面壁智慧目前聚焦的目標是讓機器人能夠完成更加多樣複雜的、長線的、多步操作的任務,執行準確率更高、糾錯能力更好,當下正在逐個擊破。
事實上,前述目標往往是需要在長程規劃、工具呼叫、模型協同等全方位能力上具備極高專業性的,這是大模型廠商所擅長的領域。相比之下,機器人公司在這些方面的積累和突破可能會較為困難,因此,透過合作引入端側模型,也能夠更高效地解決問題。
就泛化性而言,大模型掌握世界知識、常識知識以及物理建模的能力,幫助機器人實現泛化能力的提升十分關鍵,但從前沿成果上來看,泛化性這一部分也還屬於初期摸索階段。
RockAI 所選擇的路徑便是如此,其旗下 Yan 架構大模型的技術路線是,將文字、語音、影片以及機體引數做一個整體對齊,然後一起輸入給大模型。
VLA 大腦模型則透過提升物理建模能力來增強泛化性的,如操縱未見過的東西、理解每個物體的重量等等。不過,在業內看來,VLA 的實際效果離消費級可用的精度和準確率要求都還相差較遠。
整體看來,大模型原有的能力暫未在機器人側發揮出來,大模型的泛化、規劃、糾錯等能力在機器人側的應用都還比較初步。此前,字節跳動 GR-2 就曾將文生影片的嘗試加入到 default 的 policy model 裡,但機器人做若干具體的任務這方面也還在探索中。

位元組 GR-2 通用機器人
而大模型能力無法發揮、智慧化難以提升的背後,其一是行業還沒摸索到真正適合機器人的模型框架:目前有的工作基於多模態大模型,也有的工作基於Diffusion Policy的(如RDT 1B),也有兩者結合各自負責大小腦建模的,但還沒有像 LLM 一般走向統一的架構。
此外,不同形態的機器人對大模型會有不同的要求,短時間內可能實現的裝置泛化是形態一致,但不同引數的機器人,形態可能還是相對比較一致的。
不同的輸入方式對於大模型也存在挑戰,如四足機器人和雙足機器人的行走控制方式差異非常大,在大腦層面,向前走可以統一,但底下細緻的操控方面差異很大。
這意味著,並沒有哪種機器人形態更有利於大模型快速實現裝置泛化。當下,大模型的大腦派與機器人的肢體派的融合情況,存在知識壁壘,正在摸索互相打通。
除前述以外,其中最大的難點當屬資料——模型廠商很難獲取到大量的、多元化(從視覺、語言到動作)的預訓練資料,還處在 case by case 的階段,很難提升模型執行任務的泛化性,以及在這基礎上去探索更難的場景。
舉例來看,目前的機器人還無法做到精確控制手部動作,就是因為缺乏多元指令微調資料集:
大模型精準控制機器人用手拿東西,要先輸出目標物的座標,而如果是一個五指靈巧手,還要輸出五個手指握東西的點位。而模型先透過視覺與感測器判斷座標,然後握住再拿起來,這樣的操作在理論上可行,但現在的模型水平甚至無法達到這種程度。
RockAI CMO 鄒佳思告訴 AI 科技評論,「目前,手部控制還是交給機器人廠商的小腦來做,我們只需要告訴機器人要執行的動作,比如揮手,我們核心解決的問題是對指令尤其是模糊指令的識別。」
過往指揮機器人得要用特別精確的指令,而且很多指令都是寫死的。今年的 WAIC 在進行機器人直播時,有的機器人翻車就是因為指令說得不對,更本質是機器人無法理解自然語言,端側模型則能提高機器人對自然語言的理解能力。
再回到資料不足本身,當中的關鍵問題其實在於機器人廠商暫未實現量產,還無法從專業級轉變為消費級產品。
從此前無人駕駛的演進歷程來看,特斯拉起初也並非依靠自動駕駛獲取第一批使用者,而是靠車機本身的效能,之後隨著使用者數量增多,產生的資料也愈發變多,這樣才有了資料訓練模型,進而改進無人駕駛,形成所謂正迴圈。
但反觀機器人當下的實際應用場景,現如今機器人的購買物件主要還是研究人員和偏業務的團隊,並且還要先交錢再生產,實際應用場景顯然不夠多。
針對這一情況下,也有業者向曾向 AI 科技評論分析過破局的關鍵:依賴所有資料都採集自使用者不太現實,如果有團隊能夠標註出第一版資料,可能可以解決這一問題。
不過,要做到這一點並不容易,因為機器人的資料採集並不像大模型一樣從網際網路下載語料就可以,而是需要真機採集後做標註,而且機器人所需的資料是多元化的,除了語言外還包括觸覺、聲音、力等資訊,這一系列過程會非常艱難且昂貴。
不僅如此,在訓練方式上也面臨挑戰。由於機器人訓練需要真實場景,相比於以往的大模型,在強化學習、機器人的穩定性等方面,實際訓練成本都要更高,目前學術界也還在探索解法。
換言之,機器人大模型本身的資料標註會比文字類、識別類模型更困難,需要一臺真實的裝置才能完成,這也是需要研究攻克的難點,真機採集資料比模擬資料更好、更真實,模擬資料則有些像大模型在做資料合成。
在訓練具身大腦的問題上,從預訓練資料去學習物理世界、學習普適的操控能力以及學習具身場景普適的規劃能力,其實模擬資料也可以行得通,但沒有真機資料那麼真,前提是要足夠多樣到能適配各種裝置、場景。
同時,具身場景的機器人資料和文字大模型的資料存在些許差異:從資料角度前者會多一維,如景深、3D 點雲,但如果從多模態的角度,並沒有太多區別,只是模態維度會更多一點。
這意味著,大模型在機器人的環境適用性確實起到一個比較大的作用,但大模型是否會幫助機器人資料採集,業內也仍持觀望態度。
資料之外,算力也是現階段機器人端模型發展的關鍵瓶頸之一。
目前,國內研究基礎大模型的主力軍雖然也陸續在發力「端側小模型」,但起步比較晚、技術進展較緩慢,其當下重點仍舊放置在雲端大模型上,如智譜 GLM-130B、百川、騰訊混元、零一萬物 Yi 等。
這些大模型的引數規模動輒上千億,需要大量的算力支援,而機器人搭載的板卡算力往往是非常小的,如若要跑上千億的大模型,機器人就需要部署非常高算力的板卡,如此一來,成本高、功耗高、散熱等都會成問題,當下最先進的聯發科 9400 晶片或許都跑不起來。
所以,這些雲端模型沒法在機器人本體上離線部署,這也是面壁智慧、RockAI 這些廠商存在市場價值的原因之一。
而如若聯網呼叫的話,執行任務時機器人會存在延時長的情況。據 AI 科技評論瞭解,一款國產機器人曾與一家雲端大模型廠商合作,在機器人上搭載雲端大模型、讓機器人去完成取水的操作時,就曾面對類似問題。
在業內看來,端側 3B 小模型在任務泛化、智慧理解等任務上肯定沒有云端千億、萬億大模型強,但 3B 模型也能擁有基礎的影像理解、自然語言互動與知識庫問答等能力,這就已經能解決機器人的大部分智慧需求。
另外,也有觀點認為,實際上,機器人的本體構型差異不影響模型研發,而研究機器人大模型主要考慮兩個因素:
一是算力環境,比如一般來說,機器人的算力模組主要用 Orin,然後使用 Intel 做運控,也有小型機器人會搭載 ARM 晶片,那麼模型廠商需要將模型與不同的晶片適配;二是機器人肢體引數不同,也需要做一些簡單的適配,但適配成本也不高。
肢體引數不同具體來講就是,同樣是機器人,但身高分別是一米六和一米八,這兩個機器人的臂展、臂長和手臂能旋轉的角度也是不一樣的,這就需要機器人大模型的演算法指令與本體高度適配。
這也是雲端模型在機器人本體上跑的 Bug 之一——雲端模型與機器人本體無法完成高度的適配。
而對於模型廠商來說,機器人的肢體引數相當於「模態」。以 RockAI 為例,其只關心模型輸入的模態、以及模型跑在什麼樣的環境上。模態包括視覺、語音、語言等輸入,也包括機器人自身搭載的感測器所收集的資訊,以及機器人本體零部件的引數,這些對機器人而言全是輸入。
只要輸入不一樣,機器人都需要做一些簡單的適配,不過,一般適配成本都不高,最大的成本還是晶片適配,當前,受制於算力,大模型朝兩端升級的難度較高,中間則相對較低。
一方面往大了做,由於需要大量資料和算力,萬億引數模型會非常難做,模型本身並非難點,主要難在資金投入上。不僅要有萬卡叢集,而且叢集中途不出差錯是難度係數非常高的事。
另一方面往小了做。如若大模型基於 GPU 只跑在雲端,其實是相對容易的;但要做小、跑在手機、機器人等終端上,則不是易事。
目前,端側模型 3B 模型的難點主要在底層卡的運維和構建上,除了 3B 外,4B-8B 的模型也都可以應用在機器人上,關鍵是裝置搭載的晶片大小,4090、A100 都可以搭載。
許多業者對於機器人端側的算力也保持樂觀態度,在他們看來,機器人端的算力限制其實沒有手機那麼強,能搭載的算力選擇更多,隨著晶片的進一步發展,或許千億級別的模型也能夠在端側落地。
不過,需要看到的是,機器人廠商普遍傾向於用低功耗晶片,現在很多機器人廠商都還在用驍龍 6,而驍龍 6 每年的出貨量上千萬臺,相當於在近五六年裡,中低端晶片佔據了晶片市場的主流。
其不願意選擇高算力的 GPU 的原因在於,從實踐中來看,一般情況下,人形機器人脫離電源後能堅持一個小時,一旦加了高算力板卡,可能 20 分鐘就會沒電。
但是,端側模型要跑在較低功耗的 CPU 上是非常難的,因為算力不夠:
業內基於 Transformer 架構跑 3B 大小的模型,在驍龍 7 上跑不了,在驍龍 8 上跑起來則需要做量化和壓縮,一旦如此操作,多模態能力便會出現大幅下降,需要在能力和算力需求之間尋求平衡點,這會進一步阻止機器人廠商採購模型的動力。
從當前情況來看,許多模型廠商正在做這方面的權衡取捨,在此之中關鍵則在於推理最佳化水平的高低:模型做小、落在端側上,需要工程人員將模型最佳化,使其在量化後仍能保持效能、速度和對算力的要求。
有機器人領域從業者向 AI 科技評論透露,像智譜、百川這樣的大模型基座,不是不考慮端側,而是做不了的問題,現在手機廠商與機器人的廠商,基本在 RockAI、面壁與通義三者中選擇。
回到晶片的問題,就算是機器人廠商願意用高算力 CPU 或者 GPU,也會面臨成本問題:
從手機廠商的例子中來看,小米使用高通 8 的手機都是售價 5000 塊以上,如果疊加大模型,價格或許會接近一萬,而高階機的消費人群也是少數。要等到聯發科 9400 或者驍龍 8 佔領市場,還有三至五年的時間視窗。
值得一提的是,機器人端大模型還面臨著本體的挑戰,業內研究有發現本體是一個特別大的瓶頸,更有觀點認為,整個行業可能還沒到模型、資料挑戰階段。
機器人大模型要向前邁進需要倚靠三方合力,不能只是大模型廠商的一廂情願,而是要同機器人廠商、晶片廠商聯合起來,共同鑿開一條光明之路。
當前,也有不少大模型廠商給出瞭解決方案,比如以智源、智譜等為代表的單位就設計了一個端雲協作的大小模型協同訓練和部署的方式:
首先在雲端訓練大模型,然後透過知識蒸餾、模型量化等方式得到一個小模型,再把這個輕量化的小模型部署在終端上,如果終端搭載一個英偉達的板卡,就可以部署一個小如 1B 的模型。目前理想汽車就已經能夠在英偉達的板卡上部署 2B 的模型。
這種做法既能保持住大模型的能力,也可以更高效地部署。
也有像 RockAI 這樣的廠商,基於非 Transformer 架構在一些搭載了純 CPU 或 CPU+NPU(低端晶片)的機器人上跑起來,來降低算力要求和功耗。(關於非 Transformer 架構的更多內容,可以閱讀 AI 科技評論往期報道:《誰將替代 Transformer?》)
另外,由於晶片有迭代週期,需要三年、五年甚至更長的時間。雖然有說法認為,小模型跑在端側上的壁壘是晶片,但並不是說晶片廠商研發出了最新的晶片,第二年所有裝置廠商就會更新換代。
基於此,市場的機遇則在於存量市場,換言之就是,有沒有大模型廠商能在現有算力的基礎上滿足機器人的智慧需求。
RockAI 也在做這方面的佈局,鄒佳思告訴 AI 科技評論,「我們現在做端側和高通、聯發科、英特爾、ARM、華為的晶片都有適配過,用了四個月時間完成了華為昇騰 910 和 310 系列晶片的適配工作,包括訓練卡和推理卡。」
「樂聚之所以選擇與我們合作,也是因為我們能做他們的存量市場。這意味著他們不需要等高通或英特爾釋出更高效能的晶片才能跑模型,這樣是有問題的,因為相當於還得等硬體先發展。」
所謂晶片適配,其實是現階段為了對晶片的 AI 算力進行充分利用,讓模型執行更加高效,必須針對模型架構、依託晶片計算單元特點,對推理框架進行最佳化。
這項最佳化工作不僅需要對晶片計算單元、推理運算元有足夠的理解,還需要對模型結構有足夠的認知,因此需要晶片廠商與模型公司共同協作才能快速推進。
也有觀點認為,現在很多端側模型無法落地,不是因為機器人的硬體不行或需求不足,而是大模型的技術還不夠成熟和完善,所以無法觸及到那麼大的市場。
不過,雖然透過現有晶片也能做許多影像、音訊等處理,但有些任務還是需要突破晶片困局後才能進一步實現,比如即時捕捉影片、識別即時影片流這一點,依靠現階段的晶片效能便無法實現。
舉例來看,讓機器人描述在環境裡看到了什麼,它實際上看到的是一張照片,如果在它面前做一個打叉的手勢,因為這個手勢是連貫的動作,機器人可能捕捉不到(因為只能識別圖片),只能捕捉到其中一個動作,那麼它也許就無法理解這個動作的意思。
而要想識別影片流、捕捉中間動作過程,則對算力有著極高的要求。
「視覺這塊我們現在做不上去,有更高算力晶片後就會好辦了。哪怕是基於 9400 晶片,當前的大模型廠商都很難把影片能力放上去。」有機器人領域從業者告訴 AI 科技評論。
所以,晶片廠商實現高階晶片的突破,將晶片做到高算力、低功耗並行也是當下所需,晶片的躍升會給模型帶來更多機會。
值得一提的是,電池廠商輔助延長續航也十分關鍵,但遺憾的是,如今的電池廠商在機器人市場還未發力,這歸根到底是機器人市場不夠廣闊所致。
有業者向 AI 科技評論透露,「目前發展較好的機器人廠商一年出貨量能有幾百臺已經算很高了,但對於電池廠商而言,這種程度的出貨量遠遠不夠,在他們看來不值得投入大量金錢與人力去做技術突破。」
最終,迴歸到出貨量的破局,這方面還得靠機器人廠商自身拿主意,首先就是要本體做得足夠更好,穩定性高,能克服各種複雜惡劣地形,覆蓋多種場景等。
目前,PC、手機端也有端側模型,但後者的出貨量很顯然遠大於機器人,資料量也會更大。
如此來看,端側晶片的迭代會更多放在手機、PC 等硬體裝置上,機器人側的晶片迭代速度會更慢,無法支撐模型需求,模型的迭代也會受險阻,而演算法迭代減緩,機器人智慧水平迭代減緩,出貨量就更小。
在業內的構想中,如果能解決出貨量的問題,之後量產得到提升,隨之場景也能增多,如若一年能量產上千上萬臺,自然而然會有上游廠商找過來,資源也會跟著湧進來。
不過,值得一提的是,PC、手機端的競爭正逐步走向白熱化,因為其端側模型已經走向自研。據 AI 科技評論瞭解,vivo 的雲端模型是基於智譜做的,但本地是完全自研的。
這也意味著機器人側大模型的創業空間會比較大:在對於端側模型的需求上,機器人最主要的互動方式是語音和視覺,核心訴求是實現擬人化,即整個互動下來機器人更像是個人,手機則無需特別擬人,主要是完成日常工作,目前發力點在於打通系統應用。
長期來看,模型廠商、晶片廠商與機器人廠商都還有很大的探索提升空間,面對當下存在的量產不足、晶片困境以及資料量不足,以至於難以提升智慧水平的閉環問題上,亟需三方積極向彼此靠攏,並有一方跳出來主動破局。


更多內容,點選下方關注:

未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社群進行轉載!
公眾號轉載請先在「AI科技評論」後臺留言取得授權,轉載時需標註來源並插入本公眾號名片。
未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社群進行轉載!
公眾號轉載請先在「AI科技評論」後臺留言取得授權,轉載時需標註來源並插入本公眾號名片。