9 de março de 2025, Califórnia, EUA — Modelos de código aberto estão tornando a tecnologia de geração de vídeo a partir de texto cada vez mais interessante. O desenvolvedor de IA Ostris (@ostrisai) recentemente compartilhou no X a criação de seu modelo Wan2.1LoRA treinado com suas próprias fotos, alcançando resultados impressionantes de geração de vídeo com apenas cerca de 20 fotos e uma placa gráfica RTX4090 doméstica. Este feito não apenas demonstra o potencial da tecnologia de código aberto, mas também gerou discussões animadas na comunidade X sobre ferramentas de treinamento de vídeo LoRA.
O experimento impressionante de Ostris
Em uma publicação no X em 7 de março, Ostris apresentou os resultados do treinamento do Wan2.114B LoRA. Ele escreveu: "O treinamento do Wan2.114B LoRA foi executado com sucesso em 24 GB! Na 4090, a velocidade média por etapa é de 1,7 segundos em resolução de 480p." Ele também compartilhou um vídeo inicial, demonstrando a viabilidade deste modelo em hardware doméstico. Em 9 de março, ele publicou um "vídeo musical conceitual de baixo custo", com letras de sua autoria e música gerada por @SunoMusic, onde o personagem digital é baseado em suas próprias fotos.
Ostris afirmou ter usado apenas cerca de 20 fotos pessoais, utilizando sua ferramenta de treinamento de vídeo LoRA para concluir o processo. Em sua publicação, ele exclamou: "Eu não esperava que o resultado fosse tão bom! Me diverti muito." Este experimento não apenas valida o desempenho poderoso do Wan2.1LoRA, mas também demonstra a possibilidade de usuários comuns utilizarem ferramentas de código aberto para criar vídeos de alta qualidade a partir de texto.
Compartilhamento de código aberto da ferramenta de treinamento A ferramenta de treinamento de vídeo LoRA desenvolvida por Ostris se tornou um destaque deste lançamento. O usuário @sundyme postou em 9 de março: "O treinamento de vídeo LoRA chegou, tornando você o protagonista de vídeos de IA!" e compartilhou o link da ferramenta de Ostris. Esta ferramenta suporta o modelo Wan2.1, permitindo que os usuários treinem modelos de vídeo personalizados com poucas fotos, reduzindo significativamente a barreira de entrada técnica.
Usuários do X demonstraram grande interesse nesta ferramenta. @sundyme disse: "A ferramenta de treinamento LoRA desenvolvida por @ostrisai, que suporta Wan2.1, tem resultados impressionantes." O feedback da comunidade indica que a execução eficiente desta ferramenta em placas gráficas de consumo como a RTX4090 permite que mais criadores experimentem a geração de vídeos de IA em casa.
Reação da comunidade e significado técnico
As reações no X mostram que os resultados de Ostris geraram grande entusiasmo. Um usuário comentou: "Treinar um personagem digital tão realista com apenas 20 fotos é incrível!" Outro usuário elogiou o potencial dos modelos de código aberto: "A geração de vídeo a partir de texto está ficando cada vez mais interessante, e o código aberto permite que pessoas comuns dominem a IA."
Especialistas da indústria acreditam que o experimento de Ostris destaca os avanços dos modelos de código aberto na área de geração de vídeo. O Wan2.1LoRA, combinado com a técnica de treinamento com poucos exemplos, não apenas reduz as necessidades de hardware, mas também aumenta a acessibilidade da criação personalizada. Em comparação com modelos tradicionais que exigem grandes conjuntos de dados e servidores de alto desempenho, este método abre novas possibilidades para desenvolvedores independentes e pequenas equipes.
Endereço do projeto: https://github.com/ostris/ai-toolkit