Genmo lança o modelo de geração de vídeo Mochi 1 de código aberto: Alta qualidade, super fluido, criação de filmes de Hollywood em computadores domésticos!

AIbase基地

Publicado emNotícias e Informações de IA · 6 minutos de leitura · Oct 23, 2024

538

Uma grande inovação no campo da geração de vídeo! A Genmo lançou o seu mais recente modelo de geração de vídeo, o Mochi1, um novo marco na área. O Mochi1 utiliza a inovadora arquitetura Asymmetric Diffusion Transformer (AsymmDiT), com impressionantes 10 bilhões de parâmetros, sendo o maior modelo de geração de vídeo lançado publicamente até hoje.

Mais importante ainda, ele foi treinado do zero, com uma arquitetura simples e modificável, oferecendo grande conveniência aos desenvolvedores da comunidade open source.

O maior destaque do Mochi1 é sua excelente qualidade de movimento e sua precisão na interpretação de prompts de texto. Ele consegue gerar vídeos fluidos de até 5,4 segundos, com taxa de quadros de 30 fps, com uma incrível coerência temporal e realismo nos movimentos.

O Mochi1 também consegue simular diversos fenômenos físicos, como dinâmica de fluidos e simulação de cabelo, e os movimentos dos personagens gerados são tão naturais e fluidos que se comparam a atuações reais.

Para facilitar o uso pelos desenvolvedores, a Genmo também lançou em código aberto seu VAE de vídeo, que pode comprimir vídeos para 1/128 do tamanho original, reduzindo significativamente a carga computacional e as necessidades de memória do modelo.

A arquitetura AsymmDiT, por sua vez, processa eficientemente as instruções do usuário e os marcadores de vídeo comprimidos por meio de um mecanismo de atenção multi-modal, aprendendo camadas MLP separadas para cada modalidade, melhorando ainda mais a eficiência e o desempenho do modelo.

O lançamento do Mochi1 representa um grande passo no campo da geração de vídeo de código aberto. A Genmo afirma que lançará a versão completa do Mochi1 até o final do ano, incluindo o Mochi1HD, que suportará a geração de vídeos em 720p, melhorando ainda mais a fidelidade e a fluidez dos vídeos.

Para que mais pessoas possam experimentar os poderosos recursos do Mochi1, a Genmo também lançou um playground gratuito em genmo.ai/play. Os pesos e a arquitetura do Mochi1 também estão disponíveis para download na plataforma HuggingFace.

A Genmo é composta por membros-chave de projetos como DDPM, DreamFusion e Emu Video, e seu conselho consultivo inclui líderes do setor como Ion Stoica, presidente executivo e cofundador da Databricks e Anyscale; Pieter Abbeel, cofundador da Covariant e membro da equipe inicial da OpenAI; e Joey Gonzalez, pioneiro em sistemas de modelos de linguagem e cofundador da Turi.

A missão da Genmo é desbloquear o cérebro direito da inteligência artificial geral, e o Mochi1 é o primeiro passo na construção de um simulador mundial que pode imaginar tudo (seja possível ou impossível).

A Genmo recentemente concluiu uma rodada de financiamento Série A liderada pela NEA, no valor de US$ 28,4 milhões, o que fornecerá amplo suporte financeiro para suas futuras pesquisas e desenvolvimento.

Embora o Mochi1 já tenha alcançado resultados notáveis, ainda apresenta algumas limitações. Por exemplo, a versão inicial atualmente só consegue gerar vídeos em 480p, e pode apresentar leves distorções e deformações em casos de movimento extremo. Além disso, o Mochi1 atualmente é otimizado principalmente para o estilo fotorealista, e seu desempenho em conteúdo de animação ainda precisa ser melhorado.

A Genmo afirma que continuará aprimorando o Mochi1 e incentiva a comunidade a ajustar finamente o modelo para atender a diferentes preferências estéticas. Ao mesmo tempo, eles estão implementando fortes protocolos de revisão de segurança no playground para garantir que todas as gerações de vídeo estejam em conformidade com os princípios éticos.

Download do modelo: https://huggingface.co/genmo/mochi-1-preview

Experiência online: https://www.genmo.ai/play

Apresentação oficial: https://www.genmo.ai/blog

Alibaba lança o modelo de geração de vídeo Wan2.1-FLF2V-14B de alta definição 720p com frames iniciais e finais

A Alibaba anunciou recentemente o lançamento em código aberto de seu mais novo modelo de geração de vídeo com frames iniciais e finais, o Wan2.1-FLF2V-14B, que suporta a geração de vídeos HD de 720p com 5 segundos de duração. Este modelo, com sua inovadora tecnologia de controle de frames iniciais e finais, tem gerado grande interesse, abrindo novas possibilidades para o campo da geração de vídeo com IA. De acordo com o AIbase, o modelo foi lançado em fevereiro de 2025 nas plataformas GitHub e Hugging Face, disponível gratuitamente para desenvolvedores, pesquisadores e instituições comerciais em todo o mundo, marcando um marco na construção do ecossistema de IA de código aberto da Alibaba.

ByteDance lança o modelo de vídeo Seaweed-7B: IA para geração de vídeo atinge novas alturas

A geração de vídeo por inteligência artificial alcança um novo marco. A AIbase soube pelas redes sociais que a ByteDance lançou recentemente o artigo e a demonstração de seu novo modelo de geração de vídeo, Seaweed-7B, mostrando uma série de recursos inovadores, incluindo geração sincronizada de áudio e vídeo, narrativa em longas tomadas e geração em tempo real de alta resolução. Este lançamento marca a aceleração do investimento da ByteDance em tecnologia de vídeo de IA. Abaixo, a AIbase apresenta uma reportagem aprofundada sobre o Seaweed-7B, analisando seus destaques tecnológicos e seu impacto no setor. Seaweed-7B impressiona.

Laboratório Alibaba Tongyi lança novo modelo de geração de humanos digitais: síntese de áudio e vídeo mais realista!

O Laboratório Alibaba Tongyi lançou recentemente um novo modelo de geração de vídeo de humanos digitais chamado "OmniTalker". O cerne deste modelo inovador é sua capacidade de imitar precisamente as expressões, a voz e o estilo de fala de uma pessoa em um vídeo de referência carregado. Em comparação com os processos tradicionais de criação de humanos digitais, o OmniTalker reduz significativamente os custos de produção, ao mesmo tempo em que melhora o realismo e a experiência interativa do conteúdo gerado, atendendo a uma ampla gama de necessidades de aplicação. O OmniTalker é muito fácil de usar; os usuários apenas...

Veo 2 chega em peso à API Gemini: a revolução da geração de vídeo com IA começa agora

Recentemente, a equipe de inteligência artificial do Google anunciou que seu aguardado modelo de geração de vídeo, Veo 2, está oficialmente disponível para desenvolvedores por meio da API Gemini. Essa notícia causou grande impacto no mundo da tecnologia, marcando uma nova era na tecnologia de geração de vídeo com IA. A partir de agora, todos os desenvolvedores que ativarem a cobrança e atingirem o nível Tier 1 ou superior poderão usar a API para acessar o Veo 2 e experimentar sua poderosa capacidade de conversão de texto em vídeo (Text-to-Video) e imagem em vídeo (Image-to-Video).

Lançamento do novo framework de geração de vídeo SkyReels-A2: inovação na tecnologia de geração de vídeo controlável

Recentemente, a equipe de pesquisa da Skywork AI lançou um novo framework de geração de vídeo chamado SkyReels-A2, marcando um novo nível na tecnologia de geração de vídeo controlável. Este framework, chamado de "Elemento para vídeo (E2V)", pode sintetizar vídeos naturais a partir de prompts de texto, combinando vários elementos visuais (como personagens, objetos, fundos) e mantendo alta consistência com imagens de referência. O cerne do SkyReels-A2 reside em seu complexo processo de tratamento de dados. A equipe de pesquisa projetou um pipeline abrangente de construção de dados.

Alibaba lança OmniTalker: Avanço na geração de vídeo com IA – sincronização de fala e expressões com apenas um vídeo de referência

Recentemente, a equipe de pesquisa da Alibaba lançou um novo projeto de tecnologia de IA chamado "OmniTalker", que rapidamente chamou a atenção da indústria por sua impressionante capacidade de geração de vídeo. O OmniTalker, segundo informações, precisa apenas de um vídeo de referência para capturar com precisão o estilo de fala e as expressões faciais da pessoa no vídeo e, com base nisso, gerar um vídeo dinâmico com sincronização labial e expressões naturais. O lançamento dessa tecnologia não apenas demonstra a sólida capacidade da Alibaba na IA generativa, mas também traz possibilidades revolucionárias para a criação de conteúdo de vídeo.

Notícias de IA

IA Diário

Linha do Tempo da IA

Al hardware

Casos Recentes

Coleção de Imagens

Coleção de Vídeos

Coleção de Áudios

Coleção de Conteúdo

Tutoriais Recentes

Ranking de Produtos de IA

Ranking de Crescimento de Tráfego de IA

Ranking de Queda de Tráfego de IA

Ranking Semanal de IA

Estados Unidos

China

Índia

Brasil

Geração de Imagens

Assistente Pessoal

Geração de Personagens

Geração de Vídeos

Ranking de Projetos de IA

Ranking de Crescimento de Projetos de IA

Ranking de Desenvolvedores de IA

Ranking de Organizações de IA

Deepseek

TTS

LLM

ChatGPT

Visão Geral

Genmo lança o modelo de geração de vídeo Mochi 1 de código aberto: Alta qualidade, super fluido, criação de filmes de Hollywood em computadores domésticos!

AIbase基地

Este artigo é do AIbase Daily

Notícias de IA Relacionadas Recomendadas

Moonvalley anuncia investimento da Série B de US$ 43 milhões e lança o inovador modelo de geração de vídeo Marey

Modelo de vídeo de quadro inicial e final de geração de vídeo do Alibaba Tongyi Wanxiang Wan2.1-FLF2V-14B de código aberto