En los últimos años, la inteligencia encarnada ha experimentado un auge espectacular. Desde las impresionantes actuaciones de robots en la gala de Año Nuevo Chino, hasta su inclusión en los informes del gobierno y los repetidos elogios de Jensen Huang de Nvidia, se ha convertido en el centro de atención del campo de la IA. La inteligencia encarnada tiene como objetivo permitir que los robots perciban y respondan con precisión en el mundo real, al igual que los humanos.
Un equipo de investigación conjunto de la Universidad Tsinghua y Ant Group ha logrado un gran avance. En su artículo publicado en ICLR 2025, presentan el marco de algoritmo BodyGen. Este marco combina el aprendizaje por refuerzo con redes neuronales profundas, permitiendo a los robots desarrollar automáticamente la forma y las estrategias de control óptimas para adaptarse a su entorno en poco tiempo. Las pruebas muestran una mejora del rendimiento del 60%, y el código ya está disponible en GitHub.
El diseño tradicional de robots se enfrenta a numerosos desafíos, como la dependencia de una gran cantidad de conocimientos expertos, la necesidad de repetidas iteraciones experimentales para entornos específicos y los problemas de la enorme espacio de búsqueda de formas y el acoplamiento profundo entre la forma y las estrategias de control en las tecnologías de diseño coordinado de forma y control. El marco BodyGen resuelve eficazmente estos problemas mediante dos fases: diseño de la forma e interacción con el entorno. En la fase de diseño de la forma, se utiliza un Transformer (estilo GPT) autorregresivo para construir y optimizar los parámetros de la estructura del cuerpo del robot; en la fase de interacción con el entorno, se utiliza un Transformer (estilo Bert) para procesar la información de las articulaciones y lograr retroalimentación interactiva con el entorno.
BodyGen cuenta con tres tecnologías principales. El codificador de posición de estructura de forma TopoPE funciona como un sistema de "percepción corporal" para el robot, ayudando a la IA a adaptarse rápidamente a los cambios de forma; el MoSAT basado en Transformer actúa como un "centro cerebral", responsable del procesamiento de la información y el envío de instrucciones; y un mecanismo especial de asignación de recompensas permite a la IA evaluar razonablemente las decisiones de diseño.
En las pruebas realizadas en 10 entornos de tareas diferentes, como la locomoción y la natación, la puntuación de adaptabilidad de la forma del robot generada por BodyGen superó en un 60,03% a los métodos óptimos existentes. Además, con solo 1,43 M de parámetros, es mucho más ligero y presenta una ventaja significativa en entornos con recursos limitados. En el futuro, el equipo de investigación impulsará su aplicación en escenarios reales, y BodyGen podría convertirse en un elemento clave para el desarrollo de la inteligencia encarnada general.
Dirección: https://github.com/GenesisOrigin/BodyGen