La empresa emergente de robótica 1X Technologies ha desarrollado un nuevo modelo generativo que mejora la eficiencia del entrenamiento de sistemas robóticos en simulación. La compañía anunció este modelo en una nueva entrada de blog, abordando uno de los desafíos importantes en robótica: el aprendizaje de un "modelo del mundo" (1X World Model) capaz de predecir cómo el mundo cambia en respuesta a las acciones del robot.

image.png

Este modelo del mundo puede imaginar múltiples escenarios futuros a partir de la misma secuencia de imágenes inicial, considerando diferentes propuestas de acción.

Esta capacidad le permite predecir interacciones complejas de objetos, incluyendo el movimiento de cuerpos rígidos, los efectos de caída de objetos y la interacción con objetos deformables (como cortinas o ropa) y articulados (como puertas o cajones).

La evaluación es un desafío práctico, pero a menudo pasado por alto, en la construcción de robots de propósito general. Si un robot se entrena para realizar 1000 tareas únicas, es difícil determinar si un nuevo modelo mejora en las 1000 tareas. Pequeños cambios en el entorno, como la iluminación o el fondo, pueden invalidar los resultados de experimentos anteriores, un problema particularmente agudo en entornos domésticos u oficinas dinámicas.

image.png

Para superar este problema, 1X utiliza un enfoque novedoso: construye simuladores directamente a partir de datos de sensores reales para evaluar las políticas robóticas de 1X en millones de escenarios. Este simulador no solo permite pruebas repetibles, sino que también captura la complejidad del mundo real.

Durante el entrenamiento de 1X, se recopilaron miles de horas de datos de robots humanoides realizando diversas tareas de manipulación en entornos domésticos y de oficina. Con estos datos, el modelo del mundo de 1X puede predecir videos futuros basados en observaciones y acciones.

El modelo genera resultados diversos bajo diferentes instrucciones de acción, mostrando su potente capacidad de simulación de interacciones con objetos. Incluso sin acciones específicas, el modelo puede generar videos lógicos, como identificar y evitar personas y obstáculos mientras se conduce.

Además, el modelo puede generar videos de tareas más largas, como doblar una camiseta.

Por supuesto, el modelo de 1X también enfrenta desafíos, como la posible incapacidad para mantener la forma y el color de los objetos durante las interacciones, o la desaparición de objetos en algunas situaciones.

También hay limitaciones en la comprensión de las leyes físicas, como objetos que a veces flotan en el aire en los videos generados.

Para impulsar la investigación en este campo, 1X ha publicado más de 100 horas de videos vectoriales cuantificados y un modelo base preentrenado, y ha lanzado el desafío 1X World Model, que incluye múltiples etapas y premios en efectivo para fomentar más investigación.

Puntos clave:

🌟 Un modelo del mundo es un simulador virtual capaz de predecir la interacción entre las acciones del robot y el entorno.

🤖 Al aprender de datos reales, el modelo permite la evaluación en millones de escenarios, mejorando la inteligencia robótica.

💰 Para impulsar la investigación, se lanza el desafío 1X World Model con premios en efectivo.