那既然聯網也能跑,為什麼還要費勁折騰本地執行?答案不外乎速度和穩定性。機器人若需將資料傳至雲端、等待伺服器分析再返回結果,必然產生延遲。在醫療操作、災難救援、工廠自動化等任務中,延遲容錯空間幾乎為零。何況,現實中許多地方網路條件差,甚至完全無網。實際上,讓機器人順利應對複雜、動態的現實任務,一直是 AI 領域最難啃的骨頭之一。從公開影片看,Gemini On-Device 已能勝任多種常見場景,如疊衣、拉鍊、抓取陌生物體並放置到指定位置。而這一切得益於它的學習機制。
DeepMind 給出的建議是,開發者可以給模型接入 Google Gemini Live API 介面,讓系統先判斷這個指令合不合理,再決定是否執行;同時在動作層面設定物理限制,如力度、角度、速度,以防意外。此外,模型多步驟邏輯規劃能力仍有提升空間。像做三明治、整理桌面這這類需要先後邏輯、順序安排的操作,目前還不在它的舒適區。這和它所基於的 Gemini 2.0 架構有關,未來隨著升級到 2.5,這部分能力可能也會補齊。另一個現實挑戰,是資料的質量。雖然它只需幾十次演示就能上手,但最理想的示範,是由真人實際操控機器人時採集的真實資料,而不是虛擬模擬。這類資料訓練出來的效果,更快、更準,也更穩定。
技術報告地址:https://arxiv.org/pdf/2503.20020據專案負責人 Carolina Parada 介紹,這是 Google 首次釋出完全脫離雲端執行的機器人 AI 模型,也是首個供開發者根據自身需求進行微調的版本。目前,DeepMind 向「可信測試者」開放了 Gemini Robotics On-Device 的 SDK 和模型訪問許可權。如果你是做機器人開發、工業自動化,或智慧系統研究的開發者,現在就可以申請試用。附上申請連結:https://docs.google.com/forms/d/1sM5GqcVMWv-KmKY3TOMpVtQ-lDFeAftQ-d9xQn92jCE/edit?ts=67cef986