A Tencent anunciou o lançamento em código aberto de sua nova estrutura de geração de vídeo a partir de imagem — HunyuanVideo-I2V. O lançamento deste modelo representa mais um importante avanço após o sucesso do lançamento em código aberto do HunyuanVideo, com o objetivo de impulsionar a exploração aprofundada da comunidade de código aberto.
O HunyuanVideo-I2V combina tecnologias avançadas de geração de vídeo, permitindo transformar imagens estáticas em conteúdo de vídeo dinâmico, oferecendo aos criadores mais possibilidades.
O HunyuanVideo-I2V utiliza um modelo de linguagem grande multimodal pré-treinado como codificador de texto, melhorando significativamente a capacidade do modelo de compreender o conteúdo semântico da imagem de entrada. Isso significa que a imagem inserida pelo usuário pode gerar tags de imagem semânticas através do modelo, que são combinadas com as tags potenciais do vídeo, permitindo um cálculo de atenção completo mais abrangente. Dessa forma, o sistema maximiza a sinergia entre as modalidades de imagem e texto, garantindo que o conteúdo de vídeo gerado a partir de imagens estáticas seja mais coerente e realista.
Para aqueles que desejam usar o HunyuanVideo-I2V para gerar vídeos, a Tencent fornece um guia de instalação e instruções de uso detalhados. São necessários requisitos de hardware específicos; recomenda-se o uso de uma GPU NVIDIA com pelo menos 80 GB de memória de vídeo para obter a melhor qualidade de geração de vídeo. Além disso, o sistema suporta a geração de vídeos com resolução de até 720P e duração de 129 frames (aproximadamente 5 segundos).
Para ajudar os usuários a utilizar melhor o modelo, a Tencent também compartilha algumas dicas, como manter as instruções concisas ao escrever prompts e garantir que os elementos principais sejam incluídos, incluindo o tema principal do vídeo, as ações e o cenário.
Projeto: https://github.com/Tencent/HunyuanVideo-I2V?tab=readme-ov-file