Com um simples hum ou batida rítmica, a IA pode gerar música ou efeitos sonoros de alta qualidade. Isso não é mais ficção científica. Uma pesquisa inovadora chamada Sketch2Sound apresenta um novo modelo de IA que gera áudio de alta qualidade por meio de imitação de som e prompts de texto, revolucionando a criação de áudio.
A tecnologia central do Sketch2Sound reside em sua capacidade de extrair três sinais de controle chave e variantes no tempo de qualquer imitação de som (como imitação vocal ou som de referência): volume, brilho (centro espectral) e altura. Esses sinais de controle são codificados e adicionados a um modelo de difusão latente para geração de texto para fala, guiando a IA para gerar sons que atendem a requisitos específicos.
O mais impressionante dessa tecnologia é sua leveza e eficiência. O Sketch2Sound é construído sobre modelos de difusão latente existentes de texto para áudio, requerendo apenas 40.000 etapas de ajuste fino, e cada sinal de controle precisa apenas de uma camada linear, tornando-o mais simples e eficiente que outros métodos (como ControlNet). Para permitir que o modelo sintetize a partir de imitações de som "esboçadas", os pesquisadores aplicaram um filtro mediano aleatório aos sinais de controle durante o treinamento, permitindo que ele se adaptasse a sinais de controle com características temporais flexíveis. Os resultados experimentais mostram que o Sketch2Sound não apenas sintetiza sons que correspondem aos sinais de controle de entrada, mas também mantém a conformidade com os prompts de texto e atinge uma qualidade de áudio comparável à linha de base de texto puro.
O Sketch2Sound oferece aos artistas de som uma nova forma de criação. Eles podem usar a flexibilidade semântica dos prompts de texto, combinada com a expressividade e precisão das poses ou imitações de som, para criar obras sonoras sem precedentes. Isso é semelhante à forma como os artistas de Foley tradicionais manipulam objetos para criar efeitos sonoros, mas o Sketch2Sound guia a geração de som por meio da imitação de som, adicionando um toque "humano" à criação de som e melhorando o valor artístico das obras sonoras.
Em comparação com os métodos tradicionais de interação de texto para áudio, o Sketch2Sound supera suas limitações. Anteriormente, os designers de som precisavam gastar muito tempo ajustando as características temporais do som gerado para sincronizá-lo com os efeitos visuais. O Sketch2Sound, no entanto, pode realizar essa sincronização naturalmente por meio da imitação de som, e não se limita apenas à imitação vocal; qualquer tipo de imitação de som pode ser usado para impulsionar este modelo gerador.
Os pesquisadores também desenvolveram uma técnica para ajustar os detalhes temporais dos sinais de controle aplicando filtros medianos de diferentes tamanhos de janela durante o treinamento. Isso permite que os artistas de som controlem o grau de conformidade do modelo gerador com a precisão temporal dos sinais de controle, melhorando assim a qualidade dos sons difíceis de imitar perfeitamente. Na prática, os usuários podem ajustar o tamanho do filtro mediano para encontrar um equilíbrio entre a conformidade estrita com a imitação de som e a garantia da qualidade de áudio.
O princípio de funcionamento do Sketch2Sound é o seguinte: primeiro, três sinais de controle são extraídos do sinal de áudio de entrada: volume, centro espectral e altura. Em seguida, esses sinais de controle são alinhados com os sinais latentes do modelo de texto para fala, e o modelo de difusão latente é ajustado por meio de uma simples camada de projeção linear, gerando finalmente o som desejado. Os resultados experimentais mostram que a modulação do modelo por sinais de controle variantes no tempo pode melhorar significativamente a conformidade com esse sinal, enquanto o impacto na qualidade de áudio e na conformidade com o texto é mínimo.
Vale ressaltar que os pesquisadores também descobriram que os sinais de controle podem manipular a semântica do sinal gerado. Por exemplo, ao usar o prompt de texto "atmosfera da floresta", se explosões de volume aleatórias forem adicionadas à imitação de som, o modelo pode sintetizar cantos de pássaros nessas explosões de volume, sem a necessidade de um prompt adicional "pássaros", indicando que o modelo aprendeu a associação entre explosões de volume e a presença de pássaros.
Claro, o Sketch2Sound também apresenta algumas limitações, como o controle do centroide que pode incorporar a tonalidade da sala da imitação de som de entrada no áudio gerado. Isso pode ser porque, quando não há eventos sonoros no áudio de entrada, a tonalidade da sala é codificada pelo centroide.
Em resumo, o Sketch2Sound é um poderoso modelo de geração de som que pode gerar som por meio de prompts de texto e controle variante no tempo (volume, brilho, altura). Ele pode gerar som por meio de imitação de som e curvas de controle "esboçadas", e possui características de leveza e alta eficiência, oferecendo aos artistas de som uma ferramenta controlável, expressiva e cheia de poses, capaz de gerar qualquer som com características temporais flexíveis. Tem um amplo potencial de aplicação em criação musical, design de efeitos sonoros para jogos e outros campos.
Endereço do artigo: https://arxiv.org/pdf/2412.08550