Lembra-se dos filmes de ficção científica onde o protagonista acenava uma varinha mágica para controlar o som à vontade? Agora, essa habilidade mágica não é mais ficção! O mais recente modelo de IA da NVIDIA, Fugatto, é como uma "varinha mágica de som", permitindo que os usuários controlem música, sons e voz apenas com texto, criando efeitos auditivos fantásticos.
Fugatto, abreviação de "Foundational Generative Audio Transformer Opus1", é um modelo de processamento de áudio baseado em IA generativa. Diferentemente de outros modelos de IA que só conseguem compor música ou modificar voz, o Fugatto possui capacidades mais robustas, podendo gerar ou converter qualquer combinação de música, voz e sons, e entender e executar instruções fornecidas pelo usuário por meio de texto e arquivos de áudio.
As poderosas funcionalidades do Fugatto impressionaram usuários de diversos setores, como produtores musicais, agências de publicidade, desenvolvedores de ferramentas de aprendizado de idiomas e desenvolvedores de jogos. Produtores musicais podem usá-lo para experimentar rapidamente diferentes estilos musicais, vocais e instrumentos, e até mesmo adicionar efeitos ou melhorar a qualidade de músicas existentes. Agências de publicidade podem usá-lo para adicionar diferentes sotaques e emoções à dublagem de anúncios, expandindo facilmente a divulgação para diferentes regiões e públicos-alvo. Desenvolvedores de ferramentas de aprendizado de idiomas podem usar o Fugatto para converter o conteúdo do curso em qualquer voz desejada pelo usuário, como a voz de um familiar ou amigo, tornando o aprendizado mais personalizado. Desenvolvedores de jogos podem usar o Fugatto para modificar em tempo real os recursos de áudio do jogo de acordo com o progresso do jogo, ou criar novos efeitos sonoros do jogo com base em instruções de texto e entrada de áudio.
A magia do Fugatto reside em sua capacidade de entender e gerar sons como um ser humano. Ele não apenas executa instruções específicas fornecidas pelo usuário, mas também cria novos sons inéditos. Por exemplo, ele pode fazer um trompete emitir um latido de cachorro, ou um saxofone miar como um gato – desde que o usuário consiga descrevê-lo, o Fugatto consegue criá-lo.
Nota da imagem: Imagem gerada por IA, fornecida pelo serviço de licenciamento de imagens Midjourney
Outra capacidade inovadora do Fugatto é sua habilidade de combinar instruções aprendidas separadamente durante o treinamento para gerar efeitos mais complexos. Por exemplo, o usuário pode pedir que ele gere uma fala com sotaque francês e tom triste. Mais impressionante ainda, o Fugatto permite que o usuário ajuste as instruções com precisão, como controlar a intensidade do sotaque ou a força da tristeza, permitindo que o usuário crie como um artista.
O Fugatto também pode gerar sons que mudam com o tempo, como uma tempestade se aproximando de longe, com o trovão aumentando gradualmente e depois desaparecendo lentamente no horizonte. O usuário pode controlar precisamente o processo de mudança de som, criando diversos efeitos sonoros vívidos.
O Fugatto é o resultado do trabalho conjunto de pesquisadores de todo o mundo, com membros da equipe vindos de países como Índia, Brasil, China, Jordânia e Coréia do Sul. Sua formação diversificada confere ao Fugatto uma capacidade mais robusta de lidar com múltiplos sotaques e idiomas.
O surgimento do Fugatto é o resultado de anos de pesquisa e desenvolvimento da NVIDIA em modelagem de voz, codificação de áudio e compreensão de áudio. Ele utiliza 2,5 bilhões de parâmetros e foi treinado em um cluster de sistemas NVIDIA DGX equipados com 32 GPUs NVIDIA H100 Tensor Core.
O surgimento do Fugatto marca uma nova era na tecnologia de processamento de áudio. Ele trará infinitas possibilidades para música, cinema, jogos, educação e outros campos, e esperamos ansiosamente que ele crie ainda mais maravilhosas experiências auditivas!
Blog oficial: https://blogs.nvidia.com/blog/fugatto-gen-ai-sound-model/