A tecnologia de geração de vídeo impulsionada por inteligência artificial (IA) está se desenvolvendo rapidamente. Recentemente, um modelo de vídeo de código aberto chamado Pusa chamou a atenção da indústria. Este modelo, baseado no sistema de geração de vídeo de código aberto líder Mochi, foi ajustado finamente, exibindo resultados satisfatórios. Mais importante ainda, todo o processo de ajuste fino, incluindo as ferramentas de treinamento e o conjunto de dados, foi totalmente aberto, e o custo de treinamento foi de apenas cerca de US$ 100, abrindo novas possibilidades para pesquisa e aplicações na área de geração de vídeo.
Ajuste fino baseado em Mochi, demonstrando capacidade inicial de geração de vídeo
Pusa-V0.5 é uma versão de visualização inicial do modelo Pusa, sendo seu modelo base o sistema de geração de vídeo de código aberto líder Mochi1-Preview do Artificial Analysis Leaderboard. Através do ajuste fino do Mochi, o Pusa pode suportar várias tarefas de geração de vídeo, incluindo geração de texto para vídeo, conversão de imagem para vídeo, interpolação de quadros, transição de vídeo, loop contínuo e geração de vídeo estendida. Embora a resolução dos vídeos gerados atualmente seja relativamente baixa (480p), ele mostra potencial em termos de fidelidade de movimento e conformidade com as instruções.
Processo de ajuste fino totalmente aberto, impulsionando o desenvolvimento conjunto da comunidade
Uma das características mais notáveis do projeto Pusa é sua total abertura. Os desenvolvedores não apenas podem acessar o repositório de código completo e as especificações de arquitetura detalhadas, mas também podem entender os métodos de treinamento completos. Isso significa que pesquisadores e desenvolvedores podem entender profundamente o processo de ajuste fino do Pusa, reproduzir experimentos e, com base nisso, fazer inovações e melhorias adicionais. Essa atitude aberta certamente promoverá enormemente a cooperação e o desenvolvimento da comunidade.
Custo de treinamento surpreendentemente baixo
Em comparação com os grandes modelos de vídeo que costumam custar dezenas de milhares ou até mesmo centenas de milhares de dólares para treinamento, o custo de treinamento do Pusa é extremamente notável. Segundo informações, o Pusa usou apenas 16 GPUs H800, concluindo o treinamento após cerca de 500 iterações, com um tempo total de treinamento de apenas 0,1k horas de GPU H800, e um custo total de cerca de US$ 0,1k (ou seja, US$ 100). Esse baixo custo de treinamento oferece oportunidades para mais instituições de pesquisa e desenvolvedores individuais participarem da pesquisa e desenvolvimento de modelos de vídeo. A equipe do projeto também afirma que a eficiência pode ser ainda mais aprimorada por meio de treinamento de nó único e tecnologias de paralelismo mais avançadas.
O Pusa adotou um novo paradigma de difusão de controle de ruído em nível de quadro e passo de tempo vetorial, método inicialmente proposto no artigo FVDM, trazendo flexibilidade e escalabilidade sem precedentes para a modelagem de difusão de vídeo. Além disso, os ajustes feitos no modelo base do Pusa são não destrutivos, o que significa que ele mantém a capacidade de geração de texto para vídeo do Mochi original, exigindo apenas um ajuste fino leve.
Projeto:https://top.aibase.com/tool/pusa