L'apprentissage par renforcement a connu de nombreux succès ces dernières années, mais son faible rendement en échantillons limite son application dans le monde réel. Les modèles du monde, en tant que modèles génératifs d'environnement, offrent une solution prometteuse à ce problème. Ils peuvent servir d'environnements simulés pour entraîner des agents d'apprentissage par renforcement avec une efficacité d'échantillonnage accrue.
Actuellement, la plupart des modèles du monde simulent la dynamique de l'environnement via des séquences de variables latentes discrètes. Cependant, cette méthode de compression en une représentation discrète compacte peut négliger des détails visuels cruciaux pour l'apprentissage par renforcement.
Parallèlement, les modèles de diffusion sont devenus la méthode dominante dans le domaine de la génération d'images, remettant en question les méthodes traditionnelles de modélisation par variables latentes discrètes. Inspirés par cela, les chercheurs ont proposé une nouvelle méthode appelée DIAMOND (Diffusion-based Environment Model for Agent-based Learning and Optimization in Novel Domains), un agent d'apprentissage par renforcement entraîné dans un modèle du monde à diffusion. DIAMOND a été conçu avec des choix clés pour assurer l'efficacité et la stabilité du modèle de diffusion sur de longues périodes.
DIAMOND a obtenu un score moyen de 1,46 normalisé par rapport à l'humain sur le benchmark Atari 100k, le meilleur résultat pour un agent entièrement entraîné dans un modèle du monde. De plus, l'avantage de fonctionner dans l'espace image est que le modèle du monde à diffusion peut directement remplacer l'environnement, permettant une meilleure compréhension du comportement du modèle du monde et de l'agent. Les chercheurs ont constaté que certaines améliorations des performances du jeu provenaient d'une meilleure modélisation des détails visuels clés.
Le succès de DIAMOND repose sur le choix du cadre EDM (Elucidating the Design Space of Diffusion-based Generative Models). Comparé aux modèles DDPM (Denoising Diffusion Probabilistic Models) traditionnels, EDM présente une stabilité supérieure avec moins d'étapes de débruitage, évitant ainsi les erreurs d'accumulation importantes sur de longues périodes.
De plus, DIAMOND a démontré que son modèle du monde à diffusion pouvait servir de moteur de jeu neuronal interactif. Entraîné sur 87 heures de données de jeu statiques de Counter-Strike: Global Offensive, DIAMOND a réussi à générer un moteur de jeu neuronal interactif de la carte Dust II.
À l'avenir, DIAMOND pourrait améliorer ses performances en intégrant des mécanismes de mémoire plus avancés, tels que les Transformers autorégressifs. L'intégration de la prédiction de récompense/terminaison dans le modèle de diffusion est également une voie de recherche prometteuse.
Adresse de l'article : https://arxiv.org/pdf/2405.12399