美國當地時間 3 月 12 日,谷歌 DeepMind 團隊宣佈推出兩款基於 Gemini 2.0 的機器人模型:一個是 Gemini Robotics,這是一個先進的視覺 – 語言 – 動作 (VLA) 模型,建立在 Gemini 2.0 的基礎上,並增加了物理動作作為新的輸出方式,用於直接控制機器人;另一個是 Gemini Robotics-ER,這是一個具有先進空間理解能力的 Gemini 模型,使機器人專家能夠利用 Gemini 的具身推理 (ER) 能力執行自己的程式。
谷歌在官方部落格中稱,“在 Google DeepMind,我們在 Gemini 模型如何透過跨文字、影像、音訊和影片的多模態推理解決複雜問題方面取得了進展。然而,到目前為止,這些能力主要侷限於數字領域。為了使人工智慧在物理領域對人類有用和有幫助,它們必須展示‘具身’推理——像人類一樣理解和響應我們周圍世界的能力——以及安全地採取行動來完成任務。”
谷歌 DeepMind 已在 Gemini Robotics 模型方面,和 Apptronik、Agile Robots、Agility Robots、Boston Dynamics 和 Enchanted Tools 等展開合作。
谷歌強調,為了對人類有用和有幫助,機器人的人工智慧模型需要具備三個主要特質:它們必須具有通用性,這意味著它們能夠適應不同的情況;它們必須具有互動性,這意味著它們能夠理解指令或環境變化並快速做出反應;它們必須具有靈巧性,這意味著它們可以做人們通常用手和手指可以做的事情,比如小心地操縱物體。
具體來講,這些模型能做什麼?
DeepMind 釋出了一系列演示影片,展示了配備 Gemini Robotics 的機器人如何摺疊紙張、完成更精細的抓取動作以及響應語音命令執行其他任務。


DeepMind 實驗室稱,Gemini Robotics 經過訓練,可以泛化各種不同機器人硬體的行為,並將機器人可以“看到”的物品與它們可能採取的行動聯絡起來。


谷歌表示:“雖然我們之前的工作在這些領域取得了進展,但 Gemini Robotics 在所有三個軸的效能上都邁出了實質性的一步,使我們更接近真正的通用機器人。”

值得一提的是,谷歌 DeepMind 正在與 Apptronik 合作“打造下一代人形機器人”。它還向“受信任的測試人員”開放了 Gemini Robotics-ER 模型,包括 Agile Robots、Agility Robotics、Boston Dynamics 和 Enchanted Tools。谷歌方面表示:“我們非常專注於打造能夠理解物理世界並能夠對物理世界採取行動的智慧。我們非常高興能夠在多個實施例和許多應用中利用這一點。”
參考連結:
https://deepmind.google/discover/blog/gemini-robotics-brings-ai-into-the-physical-world/?utm_source=keywordsnippet&utm_medium=referral
https://www.theverge.com/news/628021/google-deepmind-gemini-robotics-ai-models
點選底部閱讀原文訪問 InfoQ 官網,獲取更多精彩內容!
