Verstärkendes Lernen hat in den letzten Jahren viele Erfolge erzielt, doch seine geringe Stichprobeneffizienz schränkt seine Anwendung in der realen Welt ein. Weltmodelle als generative Umgebungsmodelle bieten Hoffnung auf eine Lösung dieses Problems. Sie können als simulierte Umgebungen dienen, um Agenten des verstärkenden Lernens mit höherer Stichprobeneffizienz zu trainieren.

Derzeit simulieren die meisten Weltmodelle die Umgebungsdynamik über diskrete latente Variablensequenzen. Diese Komprimierung in kompakte diskrete Darstellungen kann jedoch visuelle Details übersehen, die für das verstärkende Lernen entscheidend sind.

Gleichzeitig haben Diffusionsmodelle die dominierende Methode im Bereich der Bildgenerierung geworden und die traditionellen Methoden der diskreten latenten Variablenmodellierung in Frage gestellt. Inspiriert davon haben Forscher eine neue Methode namens DIAMOND (Diffusion-based Interactive Agent for Modeling Novel Dynamics) vorgestellt, einen Agenten des verstärkenden Lernens, der in einem Diffusionsweltmodell trainiert wird. DIAMOND beinhaltet entscheidende Designentscheidungen, um die Effizienz und Stabilität des Diffusionsmodells über lange Zeiträume zu gewährleisten.

image.png

DIAMOND erzielte im bekannten Atari-100k-Benchmark einen durchschnittlichen humanisierten Score von 1,46 – das beste Ergebnis für einen Agenten, der vollständig in einem Weltmodell trainiert wurde. Der Vorteil der Operation im Bildraum liegt darin, dass das Diffusionsweltmodell das Umfeld direkt ersetzen kann, was ein besseres Verständnis des Weltmodells und des Agentenverhaltens ermöglicht. Die Forscher stellten fest, dass einige Leistungssteigerungen bei Spielen auf einer besseren Modellierung wichtiger visueller Details beruhen.

Der Erfolg von DIAMOND beruht auf der Wahl des EDM-Frameworks (Elucidating the Design Space of Diffusion-based Generative Models). Im Vergleich zu traditionellen DDPMs (Denoising Diffusion Probabilistic Models) zeigt EDM bei weniger Entrauschungsschritten eine höhere Stabilität und vermeidet so erhebliche kumulative Fehler über lange Zeiträume.

Darüber hinaus zeigt DIAMOND, dass sein Diffusionsweltmodell als interaktive neuronale Spiele-Engine fungieren kann. Durch Training mit 87 Stunden statischer Daten des Spiels „Counter-Strike: Global Offensive“ generierte DIAMOND erfolgreich eine interaktive neuronale Spiele-Engine für die Dust II-Karte.

Zukünftig könnte DIAMOND durch die Integration fortschrittlicherer Speichermechanismen, wie z. B. autoregressive Transformer, seine Leistung weiter verbessern. Die Integration von Belohnungs-/Terminierungsprognose in das Diffusionsmodell ist ebenfalls ein vielversprechender Forschungsansatz.

论文地址:https://arxiv.org/pdf/2405.12399