Imagina un robot humanoide que, con la destreza de un chef, introduce un bocadillo en una bolsa. Esa es la realidad que nos trae Google DeepMind al presentar sus nuevos modelos de inteligencia artificial basados en Gemini 2.0. Estos androides no son solo máquinas; son el comienzo de una era donde los robots están diseñados para ser útiles y realizar tareas complejas en nuestro día a día.
Una revolución robótica
En primer lugar, tenemos a Gemini Robotics, un modelo impresionante que combina visión, lenguaje y acción (VLA). Su capacidad para ejecutar acciones físicas le permite enfrentarse a retos elaborados, como plegar origami o simplemente preparar un almuerzo. ¡Es como tener un ayudante personal que entiende lo que necesitas!
No se queda ahí. El otro modelo, Gemini Robotics-ER, lleva las cosas aún más lejos al ofrecer una comprensión espacial avanzada. Esto significa que los expertos en robótica pueden crear programas personalizados aprovechando el razonamiento incorporado de Gemini. Por ejemplo, imagina que le muestras una taza de café; este robot sabe exactamente cómo sujetarla por el asa.
A todo esto hay que sumar la colaboración de Google con Apptronik para desarrollar esta fascinante generación de robots humanoides y trabajar con probadores selectos que ayudarán a definir el futuro del modelo ER.
¿Pero qué hace tan especiales a estos robots? Según Google DeepMind, hay tres principios fundamentales: deben ser generales —capaces de adaptarse—, interactivos —entender nuestras órdenes— y hábiles —manipular objetos como nosotros lo haríamos.
Aunque hemos visto avances increíbles en cómo los modelos Gemini abordan problemas complejos utilizando texto, imágenes y audio, hasta ahora su uso ha estado limitado mayormente al mundo digital. Pero eso está cambiando rápidamente.