VideoJAM est un framework innovant de génération de vidéos visant à améliorer la cohérence du mouvement et la qualité visuelle des modèles de génération de vidéos grâce à une représentation conjointe de l'apparence et du mouvement. Cette technologie introduit un mécanisme de guidage interne (Inner-Guidance) qui utilise les signaux de mouvement prédits par le modèle lui-même pour guider dynamiquement la génération de la vidéo, permettant ainsi une excellente performance dans la génération de mouvements complexes. Le principal avantage de VideoJAM est sa capacité à améliorer considérablement la cohérence de la génération vidéo tout en maintenant une haute qualité visuelle. De plus, il peut être appliqué à n'importe quel modèle de génération de vidéo sans modification majeure des données d'entraînement ou de l'architecture du modèle. Cette technologie présente un potentiel d'application important dans le domaine de la génération vidéo, notamment dans les scénarios nécessitant une grande cohérence du mouvement.