谷歌DeepMind的新型人工智慧模型能幫助機器人執行物理任務，甚至無需訓練

點選藍字關注我們

SUBSCRIBE to US

Image: Google

谷歌DeepMind公司正在打造兩款新型人工智慧模型，旨在幫助機器人“執行比以往更廣泛的現實世界任務”（https://deepmind.google/discover/blog/gemini-robotics-brings-ai-into-the-physical-world/）。第一個模型名為Gemini Robotics，這是一個視覺 – 語言 – 行動模型，即使沒有針對新情況進行過訓練，也能夠理解這些新情況。

Gemini Robotics基於Gemini 2.0構建，Gemini 2.0是谷歌旗艦人工智慧模型的最新版本。在一次新聞釋出會上，谷歌DeepMind公司的高階主管兼機器人部門負責人Carolina Parada表示，Gemini Robotics“借鑑了Gemini對多模態世界的理解，並透過新增物理行動作為一種新模態將其轉移到現實世界”。

谷歌DeepMind稱，這個新模型在構建有用機器人的三個關鍵領域取得了進展：通用性、互動性和靈活性。除了能夠對新場景進行泛化之外，Gemini Robotics在與人及其周圍環境的互動方面表現更佳。它還能夠執行更精確的物理任務，比如摺疊一張紙或者擰開瓶蓋。

Parada說：“雖然過去我們在通用機器人領域的每個方面都分別取得了進展，但我們正在用單一模型使這三個方面的效能大幅提升。這使我們能夠製造出能力更強、反應更靈敏、對環境變化適應性更強的機器人。”

谷歌DeepMind公司還將推出Gemini Robotics – ER，該公司稱其為一種先進的視覺語言模型，能夠“理解我們複雜且動態的世界”。

正如Parada解釋的那樣，當你正在打包午餐盒，面前的桌子上放著各種物品時，你需要知道所有東西的位置，還要知道如何開啟午餐盒、如何抓取物品以及把它們放在哪裡。這就是Gemini Robotics – ER有望進行的那種推理。它是為機器人專家設計的，用於與現有的低層級控制器（控制機器人運動的系統）相連線，從而使他們能夠利用Gemini Robotics – ER來實現新的功能。

在安全方面，谷歌DeepMind的研究員Vikas Sindhwani告訴記者，該公司正在開發一種“分層方法”，並補充說Gemini Robotics – ER（模型“經過訓練，可以評估在給定場景下執行潛在動作是否安全”。該公司還將釋出新的基準和框架，以助力人工智慧行業進一步開展安全研究。去年，谷歌DeepMind推出了其“機器人章程”，這是一套受Isaac Asimov啟發而制定的、供其機器人遵循的規則（https://www.theverge.com/2024/1/4/24025535/google-ai-robot-constitution-autort-deepmind-three-laws）。

谷歌DeepMind正在與Apptronik公司合作，以“打造下一代人形機器人”。它還讓“受信任的測試者”使用其Gemini Robotics – ER（模型，這些測試者包括Agile Robots公司、波士頓動力公司和Enchanted Tools。Parada說：“我們非常專注於構建能夠理解物理世界並能在物理世界中採取行動的智慧。我們對於基本上能在多種體現形式和眾多應用中利用這種智慧感到非常興奮。”