El aprendizaje por refuerzo ha logrado muchos éxitos en los últimos años, pero su baja eficiencia de muestra limita su aplicación en el mundo real. Los modelos mundiales, como modelos generativos de entornos, ofrecen una solución prometedora a este problema. Pueden actuar como entornos simulados para entrenar agentes de aprendizaje por refuerzo con mayor eficiencia de muestra.
Actualmente, la mayoría de los modelos mundiales simulan la dinámica del entorno mediante secuencias de variables latentes discretas. Sin embargo, este método de compresión en representaciones discretas compactas puede omitir detalles visuales cruciales para el aprendizaje por refuerzo.
Mientras tanto, los modelos de difusión se han convertido en el método dominante en el campo de la generación de imágenes, desafiando los métodos tradicionales de modelado de variables latentes discretas. Inspirados en esto, los investigadores proponen un nuevo método llamado DIAMOND (Diffusion-based Interactive Agent for Modeling Novel Dynamics), un agente de aprendizaje por refuerzo entrenado en un modelo mundial de difusión. DIAMOND realiza elecciones de diseño clave para garantizar la eficiencia y estabilidad del modelo de difusión a largo plazo.
DIAMOND logró una puntuación media de 1,46 en la prueba de referencia Atari 100k, normalizada según el rendimiento humano, el mejor resultado para un agente entrenado completamente en un modelo mundial. Además, la ventaja de operar en el espacio de imágenes radica en que el modelo mundial de difusión puede reemplazar directamente el entorno, permitiendo una mejor comprensión del comportamiento del modelo mundial y el agente. Los investigadores descubrieron que algunas mejoras en el rendimiento del juego se deben a un mejor modelado de detalles visuales clave.
El éxito de DIAMOND se debe a la elección del marco EDM (Elucidating the Design Space of Diffusion-based Generative Models). En comparación con los modelos DDPM (Denoising Diffusion Probabilistic Models) tradicionales, EDM muestra una mayor estabilidad con menos pasos de eliminación de ruido, evitando errores de acumulación significativos a largo plazo.
Además, DIAMOND demuestra que su modelo mundial de difusión puede funcionar como un motor de juego neuronal interactivo. Después de entrenar con 87 horas de datos estáticos del juego Counter-Strike: Global Offensive, DIAMOND generó con éxito un motor de juego neuronal interactivo para el mapa Dust II.
En el futuro, DIAMOND podría mejorar su rendimiento integrando mecanismos de memoria más avanzados, como los transformadores autorregresivos. Además, integrar la predicción de recompensas/finalización en el modelo de difusión es una dirección prometedora para futuras investigaciones.
Enlace al artículo: https://arxiv.org/pdf/2405.12399