Google Gemini Robotics lleva la IA del mundo virtual al físico
Google DeepMind presenta dos modelos basados en Gemini 2.0 que establecen “las bases para una nueva generación de robots más útiles”
Google DeepMind ha dado un nuevo paso en la evolución de la inteligencia artificial aplicada a la robótica con la presentación de Gemini Robotics y Gemini Robotics-ER, dos modelos basados en Gemini 2.0 que amplían las capacidades de la IA en el mundo físico.
Según la compañía, estas innovaciones establecen “las bases para una nueva generación de robots más útiles”, capaces de interactuar con el entorno, adaptarse a nuevas situaciones y ejecutar tareas complejas con destreza.
Hasta ahora, el desarrollo de modelos de IA avanzados se había centrado en el procesamiento de información en el ámbito digital. No obstante, explica DeepMind, para que estas tecnologías sean realmente útiles en el mundo físico, necesitan desarrollar un tipo de razonamiento denominado “encarnado”, es decir, la capacidad de comprender el entorno y actuar en consecuencia. Para ello, la firma ha desarrollado dos modelos de robótica.
Dos modelos complementarios
El primero de los modelos presentados, Gemini Robotics, es un sistema de visión-lenguaje-acción (VLA) construido sobre Gemini 2.0 que incorpora acciones físicas como una nueva modalidad de salida, permitiendo el control directo de robots.
Eso significa que puede tomar decisiones sobre cómo mover un robot para realizar una tarea. Por ejemplo, para que un robot recoja un objeto o navegue por un entorno. Gemini Robotics puede comprender el mundo que lo rodea y tomar decisiones sobre cómo interactuar con él.
Por su parte, Gemini Robotics-ER (siglas de “razonamiento encarnado”) es un modelo de razonamiento y planificación de robots que se basa en la experiencia de Gemini 2.0 en razonamiento y planificación y que está diseñado para dotar a los robots de una comprensión espacial avanzada, lo que les permite ejecutar programas con una mayor precisión y flexibilidad. Por ejemplo, podría usar Gemini Robotics-ER para planificar una ruta para que un robot navegue por un entorno complejo.
Estos modelos han sido diseñados con el objetivo de ampliar la gama de tareas que los robots pueden desempeñar en entornos reales. Para ello, Google DeepMind ha establecido una alianza con la empresa Apptronik, especializada en el desarrollo de robots humanoides. Además, colabora con un grupo de evaluadores de confianza para probar y mejorar el modelo Gemini Robotics-ER.
Un avance en tres pilares fundamentales
Los expertos en robótica consideran que, para que los robots sean verdaderamente funcionales, deben cumplir con tres características clave: generalidad, interactividad y destreza. Google DeepMind afirma que Gemini Robotics representa “un avance sustancial en estos tres ejes, acercándonos a robots de propósito general”.
Generalidad
Gracias a la comprensión del mundo integrada en el modelo Gemini, los robots pueden adaptarse a situaciones nuevas y resolver tareas para las que no han sido entrenados específicamente. De hecho, según la compañía, Gemini Robotics ha demostrado un rendimiento que más que duplica el de otros modelos de visión-lenguaje-acción en pruebas de generalización.
Interactividad
Para operar en un mundo dinámico, los robots deben poder interactuar con las personas y reaccionar ante cambios en su entorno. Gracias a Gemini 2.0, Gemini Robotics puede comprender comandos en lenguaje natural (cotidiano y conversacional y en diferentes idiomas), detectar modificaciones en su entorno (que supervisa de forma continua) y ajustar su comportamiento en tiempo real.
Este tipo de control, o maniobrabilidad, subraya Google, puede ayudar a las personas a colaborar con asistentes robóticos en diversos entornos, desde el hogar hasta el lugar de trabajo.
Destreza
Muchas tareas cotidianas requieren habilidades motoras finas que aún resultan complejas para la robótica. Sin embargo, Gemini Robotics ha logrado doblar origami o empaquetar objetos en bolsas de plástico con precisión.
Múltiples versiones
Como hay robots de todas las formas y tamaños, Gemini Robotics está diseñado para adaptarse a distintos tipos de robots. La firma ha entrenado principalmente con datos de la plataforma robótica de dos brazos ALOHA 2, pero también ha probado con una plataforma basada en los brazos Franka que se utilizan en muchos laboratorios.
Gemini Robotics puede incluso adaptarse a entidades más complejas, como el robot humanoide Apollo de Apptronik.
Aplicaciones
Uno de los avances más destacados de Gemini Robotics-ER es su capacidad para mejorar la comprensión espacial de los robots, lo que facilita la integración con controladores existentes.
Esta tecnología mejora significativamente la detección en 3D y la precisión en acciones como el agarre de objetos. Además, su capacidad de generar código en tiempo real le permite crear nuevas habilidades sin necesidad de entrenamiento adicional.
Seguridad y desarrollo responsable
En términos de seguridad, DeepMind destaca que su enfoque combina medidas de control de bajo nivel, como la prevención de colisiones, con un marco de seguridad basado en principios semánticos.
"Basándonos en las principales funciones de seguridad de Gemini, permitimos que los modelos Gemini Robotics-ER comprendan si es seguro o no realizar una acción potencial en un contexto determinado y generen las respuestas adecuadas", indica la compañía.
Además, DeepMind está desarrollando "un nuevo conjunto de datos para evaluar y mejorar la seguridad semántica en la IA y la robótica incorporadas".
Ya en trabajos anteriores demostraron que una constitución robótica inspirada en las tres leyes de la robótica de Isaac Asimov podía ayudar a un LLM a seleccionar tareas más seguras para los robots y desde entonces han desarrollado un marco para "generar automáticamente constituciones basadas en datos -reglas expresadas directamente en lenguaje natural- para dirigir el comportamiento de un robot".
El fin es crear, modificar y aplicar constituciones para desarrollar robots más seguros y acordes con los valores humanos. El nuevo conjunto de datos ASIMOV ayudará a los investigadores a medir "las implicaciones para la seguridad de las acciones robóticas en escenarios reales".
Para avanzar en el desarrollo responsable de esta tecnología, Google DeepMind colabora con expertos en seguridad y con su Consejo de Responsabilidad e Innovación y mantiene asimismo consultas con especialistas externos sobre los desafíos y oportunidades de la IA en la robótica.
Pruebas con socios estratégicos
Además de su colaboración con Apptronik, Google DeepMind ha facilitado el acceso al modelo Gemini Robotics-ER a un grupo de empresas especializadas en robótica, entre ellas Agile Robots, Agility Robotics, Boston Dynamics y Enchanted Tools. Estas pruebas permitirán explorar las capacidades del modelo en diferentes entornos y aplicaciones.
No hay comentarios