Video-Foley

Sistema de generación de audio sincronizado con vídeo

Producto ComúnProductividadSíntesis de audio para vídeoAprendizaje autosupervisado
Video-Foley es un innovador sistema de generación de sonido a partir de vídeo. Utiliza la raíz cuadrada media (RMS) como condición de evento temporal, combinada con indicaciones de timbre semántico (audio o texto), para lograr una síntesis de sonido de vídeo altamente controlada y sincronizada. El sistema emplea un marco de aprendizaje autosupervisado sin necesidad de anotaciones, que incluye dos etapas: Video2RMS y RMS2Sound. Integra conceptos novedosos como la discretización RMS y RMS-ControlNet, junto con modelos preentrenados de texto a audio. Video-Foley alcanza un rendimiento de vanguardia en la alineación y el control de la sincronización audio-visual en cuanto a tiempo, intensidad, timbre y detalle del sonido.
Abrir sitio web

Video-Foley Alternativas