Los robots serán más humanos gracias a la nueva IA para la industria robótica que acaba de lanzar Google
Google DeepMind presenta Gemini Robotics y Gemini Robotics-ER, dos modelos de visión-lenguaje basados en Gemini 2.0.

Google DeepMind presenta dos modelos de inteligencia artificial que sientan las bases de una nueva generación de robots basados en Gemini 2.0. Estos androides pueden realizar una amplia gama de tareas complejas en el mundo real, además, sientan las bases de una novedosa generación de robots útiles.
Google anuncia dos modelos de IA para impulsar una nueva generación de robots humanoides
En primer lugar, Gemini Robotics es un modelo avanzado de visión-lenguaje-acción (VLA, por sus siglas) que incorpora acciones físicas, como una nueva modalidad para controlar directamente a los robots. De esta manera, permite abordar tareas complejas y de varios pasos que requieren una manipulación precisa, como, por ejemplo, introducir un bocadillo en una bolsa de almuerzo o plegar un origami.
Y en segundo lugar, Gemini Robotics-ER es un modelo de Gemini con comprensión espacial avanzada, que permite a los expertos en robótica ejecutar sus propios programas utilizando las capacidades de razonamiento incorporado de Gemini. Además, este modelo mejora "con creces" ciertas acciones, como la de apuntar y la detección 3D para, por ejemplo, cuando se le muestra una taza de café, el modelo pueda intuir el agarre adecuado para cogerla por el asa.
Por otro lado, es importante mencionar que, para llevar a cabo todas estas acciones, la compañía de Mountain View se asoció con Apptronik para desarrollar dicha generación de robots humanoides con Gemini 2.0, e incluso colaboró con un grupo selecto de probadores de confianza para guiar el futuro de Gemini Robotics-ER.
Google se basa en tres principios para crear los modelos de IA para robótica
Google DeepMind explica en su blog oficial que, para ser útiles y ayudar a las personas, los modelos de IA para robótica necesitan tres cualidades principales:
- Generalidad: Los robots pueden adaptarse a diferentes situaciones.
- Interactividad: Significa que pueden entender y responder a instrucciones o cambios en su entorno.
- Destreza: Son capaces de hacer el tipo de cosas que las personas generalmente pueden hacer con sus manos, como manipular objetos.
Por otro lado, desde Google DeepMind describen que han avanzado en la forma en que los modelos Gemini resuelven problemas complejos mediante razonamiento multimodal en texto, imágenes, audio y vídeo. Sin embargo, hasta ahora, estas capacidades se han limitado en gran medida al ámbito digital.
Apúntate a nuestra newsletter y recibe en tu correo las últimas noticias sobre tecnología.