¿Todavía te estás rompiendo la cabeza buscando efectos de sonido y música de fondo para tus videos cortos? ¿Sigues buscando el BGM perfecto pero siempre te quedas corto? ¡Ahora, ByteDance presenta una tecnología de IA revolucionaria que rompe el último hechizo de silencio en la creación de videos!

image.png

Su nuevo modelo de generación de efectos de sonido SeedFoley, es como infundir vida a tus videos. Con un solo clic, puedes emparejar inteligentemente efectos de sonido profesionales a tus videos, transformando instantáneamente tus creaciones mudas en producciones sonoras impresionantes. ¡Lo más emocionante es que esta asombrosa tecnología de efectos de sonido con IA ya está disponible en la plataforma de creación de videos de ByteDance, JiMeng, para que todos puedan experimentar el poder mágico de agregar efectos de sonido con un solo clic!

¿Cómo logra SeedFoley una integración tan perfecta? El secreto radica en su revolucionaria arquitectura de extremo a extremo. Como un mago del sonido, combina ingeniosamente las características espacio-temporales del video con un potente modelo de generación de difusión, logrando una sincronización y una armonía perfectas entre los efectos de sonido y el contenido del video. En pocas palabras, SeedFoley primero analiza fotograma por fotograma el video, como si le hiciera una tomografía computarizada, extrayendo información clave de cada fotograma. Luego, un codificador de video interpreta profundamente el contenido, comprendiendo lo que sucede en el video. Esta comprensión se proyecta en un espacio condicional, guiando la generación posterior de efectos de sonido. En la autopista de la generación de efectos de sonido, SeedFoley utiliza un marco de modelo de difusión mejorado, como un diseñador de sonido con una creatividad ilimitada, generando inteligentemente soluciones de efectos de sonido que se adaptan perfectamente al contenido del video.

image.png

Para que la IA comprenda mejor el arte del sonido, SeedFoley aprendió durante su entrenamiento una gran cantidad de etiquetas relacionadas con el habla y la música, como si se le hubiera proporcionado una enciclopedia de sonidos, permitiéndole distinguir entre efectos de sonido y otros sonidos, logrando una generación de efectos de sonido más precisa. Lo que es aún más impresionante es que SeedFoley es un artista versátil, capaz de manejar videos de cualquier longitud, ya sea un momento destacado de unos segundos o una historia completa de varios minutos. En cuanto a la precisión, sincronización y adaptación de los efectos de sonido al contenido del video, ha alcanzado un nivel líder en la industria.

El codificador de video de SeedFoley también esconde un secreto: utiliza una técnica exclusiva que combina características rápidas y lentas. A altas velocidades de fotogramas, captura información detallada de movimientos locales, como un ojo de halcón que detecta con precisión los detalles del movimiento. A bajas velocidades de fotogramas, se centra en extraer información semántica, comprendiendo el núcleo de la historia del video. La combinación de estas dos características, tanto rápidas como lentas, conserva las características de movimiento clave y reduce eficazmente los costes computacionales, logrando un equilibrio perfecto entre bajo consumo de energía y alto rendimiento.

Esta combinación de velocidad permite a SeedFoley lograr una sorprendente extracción de características de video a nivel de fotogramas de 8 fps con bajos recursos computacionales, localizando con precisión cada movimiento sutil en el video. Finalmente, a través de la estructura Transformer, fusiona las características rápidas y lentas, explorando a fondo los misterios espacio-temporales del video. Para mejorar aún más la eficacia y eficiencia del entrenamiento, SeedFoley introduce ingeniosamente varias muestras difíciles en un lote, como si le presentara a la IA desafíos avanzados, mejorando significativamente la alineación semántica. Al mismo tiempo, utiliza sigmoid loss en lugar de softmax loss, logrando resultados comparables al entrenamiento en grandes lotes con un menor consumo de recursos.

En cuanto al modelo de representación de audio, SeedFoley también destaca. A diferencia de los modelos VAE tradicionales que suelen utilizar el espectro melódico (mel-spectrum) como codificación de características de audio, SeedFoley utiliza audazmente la forma de onda original (raw waveform) como entrada, como si escuchara directamente la forma original del sonido. Después de la codificación, obtiene una representación de audio 1D. En comparación con el modelo mel-VAE tradicional, este método presenta ventajas en la reconstrucción y el modelado generativo del audio. Para asegurar la preservación completa de la información de alta frecuencia, la frecuencia de muestreo de audio de SeedFoley es de hasta 32k, extrayendo 32 representaciones potenciales de audio por segundo, mejorando eficazmente la resolución temporal del audio y haciendo que los efectos de sonido generados sean más delicados y realistas, como una voz celestial.

El modelo de representación de audio de SeedFoley también emplea una estrategia de entrenamiento conjunto en dos etapas, como si usara dos armas a la vez. En la primera etapa, utiliza una estrategia de enmascaramiento para eliminar la información de fase de la representación de audio, utilizando la representación potencial desfasada como objetivo de optimización del modelo de difusión, como si primero desestructurara la estructura del sonido y luego lo remodelara. En la segunda etapa, utiliza un decodificador de audio para reconstruir la información de fase a partir de la representación desfasada, como si con un toque mágico, restaurara el sonido a su estado más real. Esta estrategia por etapas reduce eficazmente la dificultad de predicción de la representación por parte del modelo de difusión, logrando finalmente la generación y restauración de representaciones potenciales de audio de alta calidad.

En cuanto al modelo de difusión, SeedFoley selecciona el marco DiffusionTransformer, optimizando la relación de mapeo continuo en la trayectoria de probabilidad, logrando una coincidencia precisa de probabilidad del espacio de distribución de ruido gaussiano al espacio de representación de audio objetivo, como si encontrara la trayectoria correcta del sonido objetivo en el vasto ruido. En comparación con las características de muestreo en cadena de Markov de los modelos de difusión tradicionales, SeedFoley construye una trayectoria de transformación continua, reduciendo eficazmente el número de pasos de inferencia y disminuyendo significativamente el coste de inferencia, haciendo que la generación de efectos de sonido sea más rápida y eficiente. Durante la fase de entrenamiento, SeedFoley codifica las características del video y las etiquetas semánticas de audio en vectores de espacio latente, como si tradujera la información de video y audio a un lenguaje que la IA pueda entender. Luego, a través de la concatenación de dimensiones de canal (Channel-wise Concatenation), mezcla ambos con la incrustación de tiempo (Time Embedding) y la señal de ruido, formando una entrada condicional conjunta, como si fusionara la información de video, audio y tiempo, permitiendo que la IA comprenda más completamente el contenido del video y genere efectos de sonido más precisos.

Este ingenioso diseño, mediante el modelado explícito de la correlación temporal entre modos cruzados, mejora eficazmente la consistencia temporal entre los efectos de sonido y las imágenes de video, así como la capacidad de comprensión del contenido. En la fase de inferencia, el usuario también puede ajustar el coeficiente CFG para ajustar la intensidad de control de la información visual y el equilibrio entre la calidad de generación, como si tuviera una consola de mezcla de efectos de sonido, pudiendo ajustar el estilo de los efectos de sonido según sus necesidades. Mediante la optimización iterativa de la distribución de ruido, SeedFoley convierte gradualmente el ruido en la distribución de datos objetivo, generando finalmente efectos de sonido de audio de alta calidad. Para evitar que se mezclen voces o música de fondo innecesarias en los efectos de sonido, SeedFoley también puede establecer forzosamente las etiquetas de voz y música, como si estableciera límites para los efectos de sonido, mejorando eficazmente la claridad y la textura de los efectos de sonido. Finalmente, al introducir la representación de audio en el decodificador de audio, se obtiene el efecto de sonido perfecto.

En resumen, el nacimiento de SeedFoley marca una profunda fusión entre el contenido de video y la generación de audio. Puede extraer con precisión la información visual a nivel de fotograma del video, comprendiendo la información de múltiples fotogramas para identificar con precisión el sujeto emisor de sonido y la escena de acción en el video. Ya sea un momento musical rítmico o una escena tensa de una película, SeedFoley puede marcar el ritmo con precisión, creando una experiencia realista inmersiva. Lo que es aún más sorprendente es que SeedFoley también puede distinguir inteligentemente entre efectos de sonido de acción y efectos de sonido ambientales, como un artista del mundo del sonido, mejorando significativamente la tensión narrativa y la eficiencia de la transmisión emocional del video, haciendo que sus obras de video sean más conmovedoras.

¡Ahora, la función de efectos de sonido con IA ya está oficialmente disponible en la plataforma JiMeng! Los usuarios solo necesitan generar videos con JiMeng y seleccionar la función de efectos de sonido con IA para generar instantáneamente tres soluciones de efectos de sonido profesionales, deshaciéndose fácilmente de la incomodidad del silencio en los videos con IA. En escenarios de alta frecuencia como la creación de videos con IA, Vlogs de la vida diaria, producción de cortometrajes y producción de juegos, puede crear fácilmente videos de alta calidad con efectos de sonido profesionales, ¡haciendo que sus obras de video cobren vida instantáneamente!