O aprendizado por reforço alcançou muitos sucessos nos últimos anos, mas sua baixa eficiência amostral limita sua aplicação no mundo real. Os modelos de mundo, como modelos geradores de ambiente, oferecem esperança para resolver esse problema. Eles podem funcionar como ambientes simulados para treinar agentes de aprendizado por reforço com maior eficiência amostral.
Atualmente, a maioria dos modelos de mundo simula a dinâmica ambiental por meio de sequências de variáveis latentes discretas. No entanto, esse método de compactação em representações discretas compactas pode ignorar detalhes visuais cruciais para o aprendizado por reforço.
Ao mesmo tempo, os modelos de difusão tornaram-se o método dominante na área de geração de imagens, desafiando os métodos tradicionais de modelagem de variáveis latentes discretas. Inspirados por isso, os pesquisadores propuseram um novo método chamado DIAMOND (Diffusion-based Interactive Agent Model for Novel Dynamics), um agente de aprendizado por reforço treinado em um modelo de mundo de difusão. O DIAMOND faz escolhas de design cruciais para garantir a eficiência e estabilidade do modelo de difusão em escalas de tempo longas.
O DIAMOND obteve uma pontuação média de 1,46 no benchmark Atari 100k, normalizada em relação ao desempenho humano, o melhor resultado para um agente treinado inteiramente em um modelo de mundo. Além disso, a vantagem de operar no espaço de imagem é que o modelo de mundo de difusão pode substituir diretamente o ambiente, permitindo uma melhor compreensão do comportamento do modelo de mundo e do agente. Os pesquisadores descobriram que algumas melhorias no desempenho do jogo se originam de uma melhor modelagem de detalhes visuais cruciais.
O sucesso do DIAMOND deve-se à escolha da estrutura EDM (Elucidating the Design Space of Diffusion-based Generative Models). Em comparação com os modelos DDPM (Denoising Diffusion Probabilistic Models) tradicionais, o EDM apresenta maior estabilidade com menos etapas de desruído, evitando erros cumulativos significativos em escalas de tempo longas.
Além disso, o DIAMOND demonstrou que seu modelo de mundo de difusão pode funcionar como um motor de jogo neural interativo. Treinado em 87 horas de dados estáticos do jogo Counter-Strike: Global Offensive, o DIAMOND gerou com sucesso um motor de jogo neural interativo do mapa Dust II.
No futuro, o DIAMOND pode melhorar seu desempenho integrando mecanismos de memória mais avançados, como o Transformer autorregressivo. Além disso, integrar a previsão de recompensa/término ao modelo de difusão é uma direção promissora para futuras pesquisas.
Endereço do artigo: https://arxiv.org/pdf/2405.12399