Ainda está se esforçando para encontrar dublagem e efeitos sonoros para seus vídeos curtos? Ainda está procurando pela trilha sonora perfeita, mas sempre fica insatisfeito? Agora, a ByteDance lança uma tecnologia de IA revolucionária que quebra o último feitiço do silêncio na criação de vídeos! Seu novo modelo de geração de efeitos sonoros SeedFoley é como injetar alma nos seus vídeos. Com apenas um clique, você pode combinar efeitos sonoros profissionais ao seu vídeo, transformando instantaneamente sua produção de filme mudo em um sucesso de bilheteria, com resultados impressionantes! Mais emocionante ainda, essa tecnologia de efeitos sonoros de IA já está disponível na plataforma de criação de vídeo da ByteDance, o JiMeng, permitindo que todos experimentem o poder mágico de adicionar efeitos sonoros com um único clique!
Como o SeedFoley consegue ser tão envolvente? O segredo está em sua arquitetura revolucionária de ponta a ponta. Como um mágico de som preciso, ele combina habilmente as características espaço-temporais do vídeo com um poderoso modelo de geração de difusão, alcançando uma sincronização perfeita e um casamento ideal entre o efeito sonoro e o conteúdo do vídeo. Simplificando, o SeedFoley primeiro analisa o vídeo quadro a quadro, como um exame de tomografia computadorizada, extraindo informações-chave de cada quadro. Em seguida, um codificador de vídeo interpreta profundamente o conteúdo, compreendendo o que está acontecendo. Essas informações são então projetadas para um espaço condicional, guiando a geração de efeitos sonoros. Na estrada expressa da geração de efeitos sonoros, o SeedFoley usa uma estrutura de modelo de difusão aprimorada, como um designer de som com criatividade ilimitada, gerando inteligentemente soluções de efeitos sonoros que combinam perfeitamente com o conteúdo do vídeo.
Para tornar a IA mais entendida da arte do som, o SeedFoley aprendeu com uma grande quantidade de tags relacionadas a fala e música durante o treinamento, como se tivesse uma enciclopédia de som, permitindo-lhe distinguir entre efeitos sonoros e não efeitos sonoros, resultando em uma geração de efeitos sonoros mais precisa. Ainda mais impressionante, o SeedFoley é um artista multifacetado, capaz de lidar com vídeos de vários comprimentos. Seja um momento de destaque de alguns segundos ou uma história completa de vários minutos, ele pode lidar com facilidade, atingindo níveis de precisão, sincronização e correspondência de conteúdo líderes do setor.
O codificador de vídeo do SeedFoley também esconde segredos. Ele usa uma técnica secreta de combinação de características rápidas e lentas. Em alta taxa de quadros, ele captura informações sutis de movimento local, como um olho de águia, focando nos detalhes do movimento. Em baixa taxa de quadros, ele se concentra na extração de informações semânticas, compreendendo a essência da história. A combinação de características rápidas e lentas preserva as características de movimento-chave e reduz o custo computacional, alcançando um equilíbrio perfeito entre baixo consumo de energia e alto desempenho.
Essa abordagem de combinação rápida e lenta permite que o SeedFoley realize uma impressionante extração de características de vídeo de nível de quadro de 8 fps com recursos computacionais baixos, localizando precisamente cada movimento sutil no vídeo. Finalmente, a estrutura Transformer combina características rápidas e lentas, explorando profundamente os mistérios espaço-temporais do vídeo. Para melhorar ainda mais a eficiência e os resultados do treinamento, o SeedFoley introduz habilmente várias amostras difíceis em um lote, como se estivesse definindo desafios avançados para a IA, melhorando significativamente o alinhamento semântico. Ao usar a perda sigmóide em vez da perda softmax, ele alcança resultados comparáveis ao treinamento em grandes lotes com menor consumo de recursos.
No que diz respeito ao modelo de representação de áudio, o SeedFoley também é inovador. Diferentemente dos modelos VAE tradicionais que normalmente usam o espectro mel (mel-spectrum) como codificação de características de áudio, o SeedFoley usa ousadamente a forma de onda bruta (rawwaveform) como entrada, como ouvir diretamente a forma original do som. Após a codificação, ele obtém uma representação de áudio 1D. Essa abordagem é mais vantajosa em termos de reconstrução e modelagem de geração de áudio em comparação com o modelo mel-VAE tradicional. Para garantir a preservação completa das informações de alta frequência, a taxa de amostragem de áudio do SeedFoley é de 32k, extraindo 32 representações latentes de áudio por segundo, melhorando efetivamente a resolução temporal do áudio e tornando os efeitos sonoros gerados mais delicados e realistas, como uma música celestial.
O modelo de representação de áudio do SeedFoley também emprega uma estratégia de treinamento conjunto em duas etapas. Na primeira etapa, usando uma estratégia de mascaramento, ele remove informações de fase da representação de áudio, usando a representação latente desfasada como o objetivo de otimização do modelo de difusão. É como decompor a estrutura do som antes de reconstruí-lo. Na segunda etapa, um decodificador de áudio reconstrói as informações de fase a partir da representação desfasada, como uma recuperação milagrosa, restaurando o som ao seu estado mais real. Essa estratégia gradual reduz a dificuldade de previsão da representação pelo modelo de difusão, resultando na geração e restauração de representações latentes de áudio de alta qualidade.
No que diz respeito ao modelo de difusão, o SeedFoley escolheu a estrutura DiffusionTransformer. Otimizando as relações de mapeamento contínuo no caminho probabilístico, ele alcança um casamento probabilístico preciso da distribuição de ruído gaussiano para o espaço de representação de áudio alvo. É como encontrar o caminho certo para o som alvo em meio ao ruído. Em comparação com os modelos de difusão tradicionais que dependem do amostragem em cadeia de Markov, o SeedFoley constrói um caminho de transformação contínuo, reduzindo efetivamente o número de etapas de inferência e diminuindo significativamente o custo de inferência, tornando a geração de efeitos sonoros mais rápida e eficiente. Durante o treinamento, o SeedFoley codifica as características do vídeo e as tags semânticas de áudio em vetores de espaço latente, como traduzir as informações de vídeo e áudio em uma linguagem que a IA possa entender. Em seguida, por meio da concatenação no canal (Channel-wise Concatenation), eles são combinados com a incorporação de tempo (Time Embedding) e o sinal de ruído, formando uma entrada condicional conjunta. É como combinar informações de vídeo, áudio e tempo, permitindo que a IA compreenda mais completamente o conteúdo do vídeo e gere efeitos sonoros mais precisos.
Esse design inteligente, modelando explicitamente a correlação temporal intermodal, melhora a consistência temporal entre os efeitos sonoros e as imagens de vídeo e a capacidade de compreensão de conteúdo. Na etapa de inferência, os usuários podem ajustar o coeficiente CFG para ajustar flexivelmente o equilíbrio entre a intensidade de controle das informações visuais e a qualidade de geração, como se tivessem uma mesa de mixagem de efeitos sonoros, permitindo que eles ajustem o estilo dos efeitos sonoros conforme necessário. Otimizando iterativamente a distribuição de ruído, o SeedFoley converte gradualmente o ruído em uma distribuição de dados de destino, gerando finalmente efeitos sonoros de áudio de alta qualidade. Para evitar que vozes ou músicas de fundo desnecessárias sejam misturadas nos efeitos sonoros, o SeedFoley pode definir tags de voz e música, como definir limites para os efeitos sonoros, melhorando efetivamente a clareza e a textura dos efeitos sonoros. Finalmente, inserindo a representação de áudio no decodificador de áudio, o efeito sonoro perfeito é obtido.
Em resumo, o nascimento do SeedFoley marca a profunda integração entre conteúdo de vídeo e geração de áudio. Ele pode extrair com precisão informações visuais de nível de quadro de vídeo, entender informações de vários quadros, identificar com precisão o assunto e o cenário de emissão de som no vídeo. Seja um momento musical cheio de ritmo ou uma cena tensa em um filme, o SeedFoley pode sincronizar com precisão, criando uma experiência imersiva e realista. Mais surpreendente ainda, o SeedFoley também pode distinguir inteligentemente entre efeitos sonoros de ação e efeitos sonoros ambientais, como um artista do mundo do som, melhorando significativamente a tensão narrativa e a eficiência de transmissão emocional do vídeo, tornando suas obras de vídeo mais atraentes.
Agora, o recurso de efeitos sonoros de IA foi oficialmente lançado na plataforma JiMeng. Os usuários precisam apenas gerar vídeos usando o JiMeng, selecionar o recurso de efeitos sonoros de IA e podem gerar três opções de efeitos sonoros profissionais com um único clique, livrando-se facilmente do constrangimento do silêncio em vídeos de IA. Em cenários de alta frequência, como criação de vídeos de IA, vlogs da vida, produção de curtas-metragens e produção de jogos, você pode facilmente criar vídeos de alta qualidade com efeitos sonoros profissionais, tornando seus vídeos instantaneamente vibrantes!