Video-Foley est un système innovant de génération sonore à partir de vidéos. Il utilise la valeur RMS (Root Mean Square) comme condition d'événements temporels, combinée à des indications sémantiques de timbre (audio ou texte), pour réaliser une synthèse sonore vidéo hautement contrôlable et synchronisée. Ce système utilise un cadre d'apprentissage auto-supervisé sans annotation, comprenant deux phases : Video2RMS et RMS2Sound. Il intègre des concepts novateurs tels que la discrétisation RMS et RMS-ControlNet, combinés à un modèle pré-entraîné texte-vers-audio. Video-Foley atteint des performances de pointe en termes d'alignement et de contrôle de la durée, de l'intensité, du timbre et des détails sonores par rapport à la vidéo.