隨著人工智慧與機器人技術快速交匯,按照Anthropic聯合創始人兼政策主管Jack Clark本週一的表態,機器人行業即將迎來類似生成式AI模型的早期發展時期——GPT-2時代!各家機器人基座大模型將積極爭奪機器人“大腦”的主導權,這或將推動下一個“DeepSeek時刻”的湧現。
近日,Google DeepMind 就推出了用於機器人技術的人工智慧模型,認為這是能提升通用機器人實用性的重要里程碑。
這個機器人基座大模型名為 Gemini Robotics 和 Gemini Robotics-ER,旨在利用大語言模型的推理能力,幫助機器人適應複雜環境,從而完成現實世界中的複雜任務。
Google DeepMind表示,使用這一新模型訓練的機器人能夠摺疊一隻摺紙狐狸、根據口頭指令整理辦公桌、纏繞耳機線,並在迷你籃球框上扣籃。他們還與初創公司 Apptronik 合作,利用這項技術打造人形機器人。
而且,本週華為天才少年稚暉君創立的智元機器人釋出全球首個通用具身基座模型——智元啟元大模型(Genie Operator-1,簡稱 GO-1),使機器人告別了“看得懂但做不來”的時代,學習能力實現了革命性的提升。
智元機器人表示,GO-1模型透過視覺-語言-隱式-動作(ViLLA)架構,利用人類影片進行學習,實現了小樣本快速泛化,降低了具身智慧的門檻。有人認為,這一創新不僅為機器人提供了全面的“基礎教育”,也推動具身智慧進入新的發展階段。
根據中泰證券聞學臣團隊最新研報,具身智慧是機器人與人工智慧發展的交匯點。隨著人工智慧進入生成式大模型時代,機器人也逐步從傳統工業場景向通用泛化場景轉型。具身智慧透過智慧體與環境的互動,實現了感知、推理、執行的閉環,為機器人賦予了真正的“大腦”和“身體”。
而按照Jack Clark的說法,我們現在正處於機器人生成式模型的“春天”,機器人領域將會有大量的公開實驗和創新:
像支援Anthropic或OpenAI的那些大規模生成式模型,其訓練成本高達數千萬美元(甚至更多),並且能夠帶來非常可觀的收入。相比之下,機器人模型——至少目前是這樣——要便宜得多,而且幾乎沒有什麼收入可言。 正因如此,我們現在正處於機器人生成式模型的“春天”——充滿發明創造和激動人心的探索。同時,由於資金尚未大量湧入,目前還沒有足夠的經濟動力去改變公開研究和專有研究之間的激勵機制。

機器人和AI的交匯點
中泰證券認為,具身智慧是機器人與人工智慧發展的交匯點。
報告寫道,機器人的通用性取決於泛化性的發展程度,自20世紀50年代以來,經過多輪發展,機器人開始從傳統的自動化工業場景機器人,向通用泛化場景的機器人方向發展。而人工智慧在幾十年發展過後,在今天迎來了智慧程度、通識程度更高的生成式大模型時代。

中泰證券表示,在當前時間點,人工智慧可以真正為機器人賦予“大腦”,機器人也可為人工智慧提供“身體”,兩者深度融合,而融合的交點——具身智慧,則是人工智慧與機器人相互促進發展而形成的必然的產業趨勢。

根據報告,具身智慧是2024年科技產業投資的最大熱點。頭部人形機器人的本體研發整合廠商已經歷多輪融資,估值較高,行業整體投資熱點正從人形機器人 本體向具身智慧模型和其他上游零部件遷移。


從模組化走向One Model編到端
報告指出,目前具身大模型可以分為兩大流派:
端到端大模型:能夠直接實現從人類指令到機械臂執行,即輸入影像及文字指令,輸出夾爪末端動作。 分層具身大模型:不同層次模型協作, 上層大模型進行感知與決策,底層硬體層和中間響應快的小模型進行決策的分解與執行。
目前,由於受資料制約難以達到效能要求,端到端大模型尚未成為主流選擇,更多廠商還是選擇以分層模型為機器人的具身智慧。

通往One-Model端到端大模型是個循序漸進的過程。報告指出:
根據智元機器人定義的路線圖,當前具身智慧大腦已經具備認知、推理、規劃的能力,且而小腦層面機器人技能任務的訓練也是透過深度學習以驅動的。隨著場景、資料的增多,多個特定小模型會逐漸泛化為通用操作大模型,並最終實現與上層模型的融合。


如何解決具身大模型的痛點——資料?
機器人需要用海量資料進行訓練,使其變得更加智慧。但機器人是非常新的領域,嚴重缺乏訓練資料的積累。對應而言,目前主要的資料收集方法有四種:遠端操作、AR、模擬、影片學習。
智元機器人已經建立起一套完整的資料採集系統。根據報告:
2024年,智元機器人在上海建了一座資料採集工廠,該資料採集工廠投入使用兩個多月,就採集了超百萬量級真機資料集,採集任務超一千種。現在智元資料採集工廠投放了近百臺機器人,日均採集3-5w條資料。 12月30日,智元機器人宣佈開源 AgiBot World(智元世界)。智元AgiBot World資料集包含超過100萬條真實機器人操作資料,覆蓋家居(40%)、餐飲(20%)、工業(20%)、商超(10%)和辦公(10%)五大場景,涵蓋80餘種日常技能(如抓取、摺疊、熨燙)和3000多種真實物品。資料質量從實驗室級上升到工業級標準。 2025年2月,智元機器人宣佈推出自主研發的大型模擬框架AgiBot Digital World,為機器人操作提供靈活的模擬資料生成方案、預訓練的大規模模擬資料和統一的模型評測標準,同步開源海量模擬資料。


萬億級市場機會
從專用到通用,從ToB到ToC,人形機器人產業的未來充滿希望。
中泰證券指出,短期來看,任務相對聚焦,對泛化能力要求不高工業製造場景下的任務正在更快進入商業化階段。在工業製造場景實現商業化落地之後,海量機器人的具身資料疊加算力技術的進步,機器人的能力將循序漸進逐步解鎖,並向商用服務、家庭服務等更開放的場景進行延伸,屆時市場有望達萬億級。

報告還指出,作為機器人的“大小腦”,在硬體已達到較高工藝水平的情況下,具身智慧的技術能力或將成為機器人發展的天花板。當前多家領軍機器人企業均已各自的方式在具身智慧領域投入較多資源與精力,以提升自家機器人的泛化行為能力。
⭐星標華爾街見聞,好內容不錯過
⭐
本文不構成個人投資建議,不代表平臺觀點,市場有風險,投資需謹慎,請獨立判斷和決策。
覺得好看,請點“在看”
