Gemini Robotics to zaawansowany model “vision-language-action” (VLA), który opiera się na Gemini 2.0 z dodatkiem działań fizycznych jako nowej modalności wyjściowej do sterowania robotami. Google twierdzi, że ten nowy model może zrozumieć sytuacje, których nigdy wcześniej nie widział w trakcie szkolenia.
Gemini Robotics – roboty staną się inteligentniejsze
W porównaniu do innych najnowocześniejszych modeli VLA, Gemini Robotics radzi sobie dwa razy lepiej (o ile wierzyć w to, co podaje Google) w kompleksowym teście generalizacji. Ponieważ jest zbudowany na modelu Gemini 2.0, posiada zdolności rozumienia języka naturalnego w różnych językach. Dzięki temu może rozumieć polecenia ludzi w znacznie lepszy sposób.
Jeśli chodzi o zdolności manualne, Google twierdzi, że Gemini Robotics może poradzić sobie z niezwykle złożonymi, wieloetapowymi zadaniami, które wymagają precyzyjnej manipulacji. Na przykład ten model może wykonywać składanie origami lub wkładać przekąskę do worka Ziploc.
Czytaj też: Gemma 3 nadchodzi! Google zapowiada najlepszą wydajność dla pojedynczego GPU lub TPU
Gemini Robotics-ER to zaawansowany model VLA, który koncentruje się na rozumowaniu przestrzennym i pozwala robotykom połączyć go z istniejącymi kontrolerami niskiego poziomu. Korzystając z tego modelu, robotycy będą mieli wszystko, co potrzebne, aby sterować robotem od razu po wyjęciu z pudełka, co obejmuje percepcję, szacowanie stanu, rozumienie przestrzenne, planowanie i generowanie kodu.
Google współpracuje z Apptronik w celu budowy humanoidalnych robotów opartych na modelach Gemini 2.0, a także z wybranymi testerami – w tym Agile Robots, Agility Robotics, Boston Dynamics i Enchanted Tools – nad przyszłością Gemini Robotics-ER.
Jak zdradza Google, dzięki umożliwieniu robotom zrozumienie i wykonywanie złożonych zadań z większą precyzją i elastycznością, przygotowywana jest droga do przyszłości, w której roboty będą mogły bezproblemowo integrować się z różnymi aspektami naszego życia. No cóż – zobaczymy.