¿Recuerda las películas de ciencia ficción donde el protagonista, con una varita mágica, podía controlar el sonido a voluntad? ¡Ahora, esa capacidad mágica ya no es una fantasía! El nuevo modelo de IA de NVIDIA, Fugatto, es como una "varita mágica de sonido", que permite a los usuarios controlar la música, los sonidos y el habla solo con texto, creando efectos auditivos maravillosos.

Fugatto, cuyo nombre completo es "Foundational Generative Audio Transformer Opus1", es un modelo de procesamiento de audio basado en IA generativa. A diferencia de otros modelos de IA que solo pueden crear música o modificar el habla, Fugatto posee una capacidad mucho mayor: puede generar o transformar cualquier combinación de música, voz y sonidos, y puede comprender y ejecutar las instrucciones que el usuario introduce mediante texto y archivos de audio.

La poderosa funcionalidad de Fugatto ha dejado asombrados a usuarios de diversos sectores, como productores musicales, agencias de publicidad, desarrolladores de herramientas de aprendizaje de idiomas y desarrolladores de videojuegos. Los productores musicales pueden utilizarlo para experimentar rápidamente con diferentes estilos musicales, voces e instrumentos, e incluso para agregar efectos o mejorar la calidad de las canciones existentes. Las agencias de publicidad pueden utilizarlo para agregar diferentes acentos y emociones a las voces en off de los anuncios, expandiendo fácilmente la publicidad a diferentes regiones y grupos objetivo. Los desarrolladores de herramientas de aprendizaje de idiomas pueden usar Fugatto para convertir el contenido del curso en cualquier voz que el usuario desee, como la de un familiar o amigo, haciendo el aprendizaje más personalizado. Los desarrolladores de videojuegos pueden utilizar Fugatto para modificar en tiempo real los recursos de sonido del juego según el progreso del juego, o para crear nuevos efectos de sonido del juego a partir de instrucciones de texto y entradas de audio.

Lo asombroso de Fugatto es su capacidad para comprender y generar sonidos como un humano. No solo puede ejecutar las instrucciones específicas dadas por el usuario, sino que también puede crear sonidos nuevos e inimaginables. Por ejemplo, puede hacer que una trompeta emita el ladrido de un perro, o que un saxofón maúlle como un gato; si el usuario puede describirlo, Fugatto puede crearlo.

Audio Onda sonora

Nota de la fuente: La imagen fue generada por IA, proveedor de servicios de licencias de imágenes Midjourney

Otra capacidad innovadora de Fugatto es su habilidad para combinar instrucciones aprendidas individualmente durante el entrenamiento para generar efectos más complejos. Por ejemplo, el usuario puede pedirle que genere un discurso en francés con acento y tono triste. Aún más sorprendente es que Fugatto permite al usuario realizar ajustes sutiles a las instrucciones, como controlar la intensidad del acento o la fuerza de la tristeza, permitiendo al usuario crear como un artista.

Fugatto también puede generar sonidos que cambian con el tiempo, como una tormenta que se acerca desde la distancia, con el trueno intensificándose gradualmente y luego desvaneciéndose en la lejanía. El usuario puede controlar con precisión el proceso de cambio de sonido, creando una variedad de efectos de sonido vívidos.

Fugatto es el resultado del trabajo conjunto de investigadores de todo el mundo, provenientes de países como India, Brasil, China, Jordania y Corea del Sur. Su diverso trasfondo proporciona a Fugatto una capacidad más potente para procesar múltiples acentos e idiomas.

El nacimiento de Fugatto es el resultado de años de investigación y desarrollo de NVIDIA en áreas como el modelado de voz, la codificación de audio y la comprensión del audio. Utiliza 2.500 millones de parámetros y fue entrenado en un clúster de sistemas NVIDIA DGX equipados con 32 GPU NVIDIA H100 Tensor Core.

La aparición de Fugatto marca el comienzo de una nueva era en la tecnología de procesamiento de audio. Ofrecerá posibilidades ilimitadas en campos como la música, el cine, los videojuegos y la educación. ¡Esperemos juntos que cree aún más impresionantes experiencias auditivas!

Blog oficial: https://blogs.nvidia.com/blog/fugatto-gen-ai-sound-model/