Uma grande inovação no campo da geração de vídeo! A Genmo lançou o seu mais recente modelo de geração de vídeo, o Mochi1, um novo marco na área. O Mochi1 utiliza a inovadora arquitetura Asymmetric Diffusion Transformer (AsymmDiT), com impressionantes 10 bilhões de parâmetros, sendo o maior modelo de geração de vídeo lançado publicamente até hoje.

Mais importante ainda, ele foi treinado do zero, com uma arquitetura simples e modificável, oferecendo grande conveniência aos desenvolvedores da comunidade open source.

O maior destaque do Mochi1 é sua excelente qualidade de movimento e sua precisão na interpretação de prompts de texto. Ele consegue gerar vídeos fluidos de até 5,4 segundos, com taxa de quadros de 30 fps, com uma incrível coerência temporal e realismo nos movimentos.

O Mochi1 também consegue simular diversos fenômenos físicos, como dinâmica de fluidos e simulação de cabelo, e os movimentos dos personagens gerados são tão naturais e fluidos que se comparam a atuações reais.

Para facilitar o uso pelos desenvolvedores, a Genmo também lançou em código aberto seu VAE de vídeo, que pode comprimir vídeos para 1/128 do tamanho original, reduzindo significativamente a carga computacional e as necessidades de memória do modelo.

A arquitetura AsymmDiT, por sua vez, processa eficientemente as instruções do usuário e os marcadores de vídeo comprimidos por meio de um mecanismo de atenção multi-modal, aprendendo camadas MLP separadas para cada modalidade, melhorando ainda mais a eficiência e o desempenho do modelo.

image.png

O lançamento do Mochi1 representa um grande passo no campo da geração de vídeo de código aberto. A Genmo afirma que lançará a versão completa do Mochi1 até o final do ano, incluindo o Mochi1HD, que suportará a geração de vídeos em 720p, melhorando ainda mais a fidelidade e a fluidez dos vídeos.

Para que mais pessoas possam experimentar os poderosos recursos do Mochi1, a Genmo também lançou um playground gratuito em genmo.ai/play. Os pesos e a arquitetura do Mochi1 também estão disponíveis para download na plataforma HuggingFace.

A Genmo é composta por membros-chave de projetos como DDPM, DreamFusion e Emu Video, e seu conselho consultivo inclui líderes do setor como Ion Stoica, presidente executivo e cofundador da Databricks e Anyscale; Pieter Abbeel, cofundador da Covariant e membro da equipe inicial da OpenAI; e Joey Gonzalez, pioneiro em sistemas de modelos de linguagem e cofundador da Turi.

A missão da Genmo é desbloquear o cérebro direito da inteligência artificial geral, e o Mochi1 é o primeiro passo na construção de um simulador mundial que pode imaginar tudo (seja possível ou impossível).

A Genmo recentemente concluiu uma rodada de financiamento Série A liderada pela NEA, no valor de US$ 28,4 milhões, o que fornecerá amplo suporte financeiro para suas futuras pesquisas e desenvolvimento.

Embora o Mochi1 já tenha alcançado resultados notáveis, ainda apresenta algumas limitações. Por exemplo, a versão inicial atualmente só consegue gerar vídeos em 480p, e pode apresentar leves distorções e deformações em casos de movimento extremo. Além disso, o Mochi1 atualmente é otimizado principalmente para o estilo fotorealista, e seu desempenho em conteúdo de animação ainda precisa ser melhorado.

A Genmo afirma que continuará aprimorando o Mochi1 e incentiva a comunidade a ajustar finamente o modelo para atender a diferentes preferências estéticas. Ao mesmo tempo, eles estão implementando fortes protocolos de revisão de segurança no playground para garantir que todas as gerações de vídeo estejam em conformidade com os princípios éticos.

Download do modelo: https://huggingface.co/genmo/mochi-1-preview

Experiência online: https://www.genmo.ai/play

Apresentação oficial: https://www.genmo.ai/blog