Recentemente, a empresa de vídeo de IA Genmo anunciou o lançamento do Mochi1, um novo modelo de geração de vídeo de código aberto que permite aos usuários gerar vídeos de alta qualidade a partir de prompts de texto. O desempenho do Mochi1 é considerado comparável, ou até mesmo superior, aos principais concorrentes proprietários do mercado, como Runway, Dream Machine da Luma AI, o Ke Ling da Kuaishou, o Hailuo da Minimax, etc.

image.png

O modelo é disponibilizado sob a licença Apache2.0, permitindo que os usuários acessem tecnologia de ponta de geração de vídeo sem nenhum custo, enquanto outros produtos concorrentes cobram preços que variam de planos gratuitos limitados a até US$ 94,99 por mês.

Os usuários podem baixar gratuitamente os pesos do modelo e o código do Mochi1 no Hugging Face. No entanto, para executar este modelo em um dispositivo pessoal, são necessárias pelo menos quatro GPUs Nvidia H100. Para permitir que os usuários experimentem os recursos do Mochi1, a Genmo também oferece uma plataforma online de teste, permitindo que todos experimentem esta nova tecnologia.

Exemplos de vídeos gerados pelo Mochi1:

De acordo com a Genmo, o Mochi1 é excelente em seguir instruções detalhadas do usuário, permitindo controle preciso sobre os personagens, cenários e ações no vídeo gerado. A Genmo afirma que, em testes internos, o Mochi1 superou a maioria dos outros modelos de IA de vídeo, incluindo concorrentes proprietários como Runway e Luna, em termos de aderência rápida e qualidade de movimento.

image.png

image.png

O Mochi1 alcançou avanços significativos na área de geração de vídeo, incluindo desempenho de movimento de alta fidelidade e capacidade precisa de seguir prompts. O CEO da Genmo, Paras Jain, disse que seu objetivo é reduzir a diferença entre modelos de geração de vídeo de código aberto e proprietários. Ele enfatizou que o vídeo é a forma mais importante de comunicação, e por isso eles desejam disponibilizar essa tecnologia para mais pessoas.

Simultaneamente, a Genmo também anunciou que concluiu uma rodada de financiamento Série A de US$ 28,4 milhões, com investidores incluindo a NEA e várias empresas de capital de risco. Jain apontou que a geração de vídeo não é apenas entretenimento ou criação de conteúdo, mas também uma ferramenta importante para robôs e sistemas autônomos do futuro.

A arquitetura do Mochi1 é baseada no transformador de difusão assimétrico (AsymmDiT) exclusivo da Genmo, o maior modelo de geração de vídeo de código aberto lançado até hoje, com até 10 bilhões de parâmetros. Este modelo se concentra no raciocínio visual, o que o torna mais eficiente no processamento de dados de vídeo.

Exemplos de vídeos gerados pelo Mochi1:

Apesar do Mochi1 já apresentar recursos poderosos, ainda existem algumas limitações, como a resolução atual de 480p e possível leve distorção visual em cenas de movimento complexo. A Genmo planeja lançar uma versão Mochi1HD com resolução de 720p ainda este ano para melhorar a experiência do usuário.

Acesso para teste:https://www.genmo.ai/play

Download do modelo:https://huggingface.co/genmo/mochi-1-preview

Destaques:

🌟 Mochi1 é um modelo de geração de vídeo de código aberto lançado pela Genmo, disponível gratuitamente para os usuários e com desempenho comparável a vários produtos proprietários.

💰 A Genmo concluiu uma rodada de financiamento Série A de US$ 28,4 milhões, com o objetivo de promover a democratização da tecnologia de vídeo de IA.

🎥 Uma versão Mochi1HD será lançada no futuro, resolvendo as limitações atuais de resolução de 480p e alguns problemas em cenas de movimento complexo.