Google DeepMind ha presentado su arma secreta: Gemini Robotics. No se trata de un simple robot aspiradora, sino de una tecnología que integra la inteligencia artificial en robots físicos, permitiéndoles desenvolverse en el mundo real con una capacidad incluso superior a la humana.
Un "todoterreno" con capacidades ilimitadas
Gemini Robotics se basa en el avanzado modelo Gemini 2.0, que ya destaca por su capacidad para procesar texto, imágenes, audio y vídeo.
Gemini Robotics va un paso más allá, dotando a los robots de la "superpotencia" de comprender el espacio físico y actuar en consecuencia. Esto significa que puede interpretar instrucciones escritas, reconocer imágenes, entender el habla, analizar vídeos y traducir toda esta información en acciones físicas.
Imagine: con solo hablar o mostrar una imagen, el robot podría encargarse de las tareas domésticas. ¡Increíble, ¿verdad?
Lo más impresionante de Gemini Robotics es su capacidad de generalización. No se limita a ejecutar programas preestablecidos; gracias a los vastos conocimientos del modelo Gemini, puede comprender y resolver problemas incluso con objetos, instrucciones o entornos completamente nuevos.
Google afirma con orgullo que, en pruebas de generalización, Gemini Robotics supera en más del doble a otros modelos de vanguardia de visión-lenguaje-acción. Es como un estudiante brillante que no solo aprueba los exámenes, sino que también aplica sus conocimientos a situaciones reales. ¡Adiós a los fallos del robot!
Un asistente atento que "lee tu mente"
En cuanto a la interacción humano-robot, Gemini Robotics muestra una asombrosa interactividad. Entiende instrucciones coloquiales y reacciona rápidamente a cambios imprevistos en las instrucciones o el entorno.
Además, puede completar tareas con una mínima supervisión tras recibir instrucciones iniciales. Imagine: mientras disfruta de un café, le dice "ordena la mesa", y Gemini Robotics lo hace, adaptándose incluso a imprevistos como derramar un vaso de agua.
A pesar de su alto "coeficiente intelectual", Gemini Robotics también destaca por su "coeficiente emocional", es decir, su flexibilidad. Muchos movimientos precisos que los humanos realizan con facilidad son un gran desafío para los robots tradicionales.
Sin embargo, Gemini Robotics realiza tareas como doblar papel, preparar almuerzos o hacer una ensalada con movimientos delicados y una coordinación precisa. Quizás pronto solo necesitaremos darle una receta a Gemini Robotics para disfrutar de un bento delicioso.
Un "transformer" adaptable
Sorprendentemente, Gemini Robotics presenta adaptabilidad multi-forma. No está limitado a un tipo específico de robot; funciona tanto en plataformas robóticas de doble brazo como ALOHA2, como en robots humanoides como Apollo de Apptronik. Esto significa que en el futuro veremos una gran variedad de robots inteligentes equipados con Gemini Robotics, cada uno desempeñando un papel único en diferentes campos.
Además de Gemini Robotics, Google ha presentado Gemini Robotics-ER, donde "ER" significa "Razonamiento Corporal" (Embodied Reasoning).
Este modelo se centra en mejorar la comprensión espacial del robot del mundo físico y se integra con controladores de bajo nivel existentes. Mejora significativamente la capacidad de Gemini 2.0 en la identificación de objetos y la detección 3D.
Combinando el razonamiento espacial y la capacidad de codificación de Gemini, Gemini Robotics-ER puede incluso crear nuevas funciones robóticas "sobre la marcha". Por ejemplo, al ver una taza de café, puede determinar la mejor manera de agarrarla y moverla de forma segura.
Por supuesto, la seguridad es primordial al integrar la IA en el mundo real. Google destaca que ha implementado medidas de seguridad integrales, desde el control de motores hasta la comprensión semántica.
Gemini Robotics-ER interactúa con los controladores de seguridad del robot, evalúa la seguridad de las acciones potenciales y genera respuestas adecuadas. Además, Google ha lanzado un nuevo conjunto de datos, ASIMOV, para evaluar y mejorar la seguridad semántica de la IA corporal y los robots. También colabora estrechamente con expertos internos y externos, responsables políticos y comités de responsabilidad y seguridad para garantizar que el desarrollo de Gemini Robotics cumple con los estándares éticos y de seguridad.
Para acelerar la aplicación de Gemini Robotics, Google ya colabora con varias empresas de robótica, como Apptronik, Agile Robots, Agility Robotics, Boston Dynamics y Enchanted Tools. Gracias a estas colaboraciones con líderes del sector, podemos esperar ver pronto más robots inteligentes equipados con Gemini Robotics en nuestras vidas.
Gemini Robotics de Google aporta sin duda una nueva vitalidad a los campos de la inteligencia artificial y la robótica. Su potente capacidad de comprensión multimodal, su excelente capacidad de generalización, su interacción humano-robot natural y sus habilidades operativas avanzadas anuncian la llegada de una era de robots inteligentes. Ya veremos si esto es una "buena noticia para los trabajadores" o si supone un "pequeño" desafío profesional. En cualquier caso, ¿quién no querría un asistente robótico inteligente y trabajador?
Blog oficial: https://deepmind.google/discover/blog/gemini-robotics-brings-ai-into-the-physical-world/