Modelo de geração de vídeo de código aberto Allegro da Rhymes AI: texto transformado em vídeo HD em segundos

AIbase基地

Publicado emNotícias e Informações de IA · 6 minutos de leitura · Oct 22, 2024

403

Recentemente, a empresa de inteligência artificial Rhymes AI lançou oficialmente o código aberto de seu modelo avançado de geração de vídeo a partir de texto, o Allegro. O Allegro permite que os usuários transformem descrições textuais simples em clipes de vídeo curtos de alta qualidade, abrindo novas possibilidades para criadores, desenvolvedores e pesquisadores na área de geração de vídeo por IA.

O Allegro pode gerar vídeos de alta qualidade de 6 segundos, a 15 quadros por segundo e com resolução de 720p, com base em prompts de texto fornecidos pelo usuário. Ele abrange uma variedade de temas cinematográficos, desde close-ups de pessoas e animais até ações em vários cenários, podendo praticamente realizar qualquer cena baseada em descrição textual.

A tecnologia central do Allegro inclui o processamento de dados de vídeo em larga escala, a compressão de vídeos brutos em tokens visuais e o Transformer de difusão de vídeo expandido.

Em relação ao processamento de dados de vídeo em larga escala, a Rhymes AI projetou um pipeline de processamento e filtragem de dados do sistema, extraindo vídeos de treinamento a partir de dados brutos e desenvolvendo um sistema de dados estruturados para classificar e agrupar dados multidimensionalmente, facilitando o treinamento e o ajuste fino do modelo.

Quanto à compressão de vídeo em tokens visuais, o Allegro usa um autoencoder variacional de vídeo (VideoVAE) para comprimir vídeos brutos em tokens visuais menores, mantendo os detalhes necessários e permitindo uma geração de vídeo mais suave e eficiente. O VideoVAE é construído sobre um VAE de imagem pré-treinado e expande as camadas de modelagem espaço-temporal, utilizando eficientemente a capacidade de compressão espacial.

No que diz respeito ao Transformer de difusão de vídeo expandido, o núcleo do Allegro é sua arquitetura Transformer de difusão expandida. Ele aplica modelos de difusão para gerar quadros de vídeo de alta resolução, garantindo a qualidade e a suavidade do movimento do vídeo. A rede principal do Allegro é baseada na arquitetura DiT (Diffusion Transformer), com incorporação de posição 3D RoPE e mecanismo de atenção total 3D. Em comparação com os modelos de difusão tradicionais que usam a arquitetura UNet, a estrutura Transformer é mais favorável à expansão do modelo. Ao utilizar o mecanismo de atenção 3D, o DiT pode processar simultaneamente a dimensão espacial dos quadros de vídeo e sua evolução temporal, permitindo uma compreensão mais detalhada do movimento e do contexto.

A Rhymes AI afirma que o Allegro é apenas o começo, e a equipe está ativamente desenvolvendo recursos mais avançados, incluindo geração de imagem para vídeo, controle de movimento e suporte para geração de vídeos mais longos, baseados em narrativas e no estilo de storyboard.

Para tornar a criação de vídeos impulsionada por IA mais acessível a uma gama mais ampla de usuários, a Rhymes AI tornou totalmente de código aberto os pesos do modelo e o código do Allegro, incentivando a comunidade a explorar, liberar a criatividade e construir sobre essa base, a fim de alcançar um progresso colaborativo na tecnologia de geração de vídeo por IA.

Endereço do projeto: https://github.com/rhymes-ai/Allegro

RhymesAI Allegro texto para vídeo inteligência artificial

Este artigo é do AIbase Daily

Bem-vindo à coluna [AI Daily]! Este é o seu guia para explorar o mundo da inteligência artificial todos os dias. Todos os dias apresentamos os destaques da área de IA, com foco nos desenvolvedores, para o ajudar a obter insights sobre as tendências tecnológicas e a compreender as aplicações inovadoras de produtos de IA.

—— Criado pelo Grupo AIbase Daily

Notícias de IA Relacionadas Recomendadas

Guangdong lança novas políticas para a indústria de inteligência artificial e robótica: impulsionando a inovação em aplicações AI+ e robótica+

Em 1º de abril, o governo provincial de Guangdong realizou em Guangzhou uma coletiva de imprensa sobre as "Várias medidas políticas para promover a inovação e o desenvolvimento da indústria de inteligência artificial e robótica em Guangdong" (doravante denominadas "medidas políticas"), anunciando oficialmente uma série de políticas de apoio destinadas a acelerar o desenvolvimento da inteligência artificial (IA) e da indústria de robótica. A coletiva de imprensa revelou que Guangdong usará a criação de cenários de aplicação típicos como núcleo, focando na profunda integração da inteligência artificial e da robótica em áreas-chave, e lançará totalmente os planos de ação "Inteligência Artificial+" e "Robótica+". Esta política não apenas demonstra o compromisso de Guangdong com as novas tecnologias...

Apr 1, 2025

Escala da indústria central de inteligência artificial de Guangdong em 2024 ultrapassa 220 bilhões de yuans

Prevê-se que a escala da indústria central de inteligência artificial da província de Guangdong ultrapasse 220 bilhões de yuans em 2024, mostrando um crescimento significativo no setor de tecnologia da região.

Apr 1, 2025

Miyazaki furioso? Tendência do ChatGPT com o estilo Ghibli gera controvérsia sobre direitos autorais; OpenAI pode enfrentar desafios legais!

O uso do estilo artístico do Studio Ghibli pelo ChatGPT gerou uma onda de criações de fãs, mas também levantou preocupações sobre direitos autorais. O lendário diretor Hayao Miyazaki expressou sua indignação, e a OpenAI pode enfrentar ações legais.

Mar 29, 2025

Novas normas para segurança e aplicação de inteligência artificial: Administração Estatal de Mercado acelera desenvolvimento de padrões

Mar 28, 2025

Fundo da Amazon Alexa expande investimentos, focando em startups de inteligência artificial

Mar 27, 2025

Chengdu: Busca atingir escala de 130 bilhões de yuans na indústria de inteligência artificial até 2025

A Agência Municipal de Economia e Informação de Chengdu realizou recentemente uma coletiva de imprensa para divulgar os 'Pontos de Trabalho para o Desenvolvimento da Cadeia Industrial de Inteligência Artificial de Chengdu em 2025'. De acordo com o plano, Chengdu promoverá ativamente o desenvolvimento da indústria de inteligência artificial e robótica, buscando atingir uma escala de 130 bilhões de yuans em seu setor principal até 2025, com uma taxa de crescimento anual superior a 30%. Este plano visa acelerar o desenvolvimento de Chengdu como um centro nacional de desenvolvimento da indústria de inteligência artificial e robótica. Para atingir esse objetivo, Chengdu focará nos 'três elementos da IA', ou seja, poder computacional, algoritmos e dados. Primeiro, no quesito poder computacional...

Mar 26, 2025

Robô Rápido estabelece empresa de tecnologia em Zigong, incluindo negócios relacionados à IA

O aplicativo Tianyancha mostra que, recentemente, a Robô Transporte (Zigong) Tecnologia Co., Ltd. foi estabelecida, com Bi Ran como representante legal e capital registrado de 1 milhão de yuans. O escopo de negócios inclui desenvolvimento de software, serviços de sistemas de computadores, serviços de dados de internet, processamento e armazenamento de dados, desenvolvimento de software de aplicativos de inteligência artificial e desenvolvimento de software básico de inteligência artificial, sendo totalmente controlada pela Robô Transporte (Pequim) Tecnologia Co., Ltd., empresa afiliada à Robô Rápido.

Mar 26, 2025

Famoso templo hindu introduzirá inteligência artificial para melhorar a experiência dos peregrinos

O famoso Templo de Tirupati (Tirumala Tirupati Devasthanams, ou TTD) na Índia anunciou recentemente que será o primeiro templo hindu a adotar a tecnologia de inteligência artificial (IA). O conselho administrativo do templo assinou um acordo com o Google para implementar um sistema de IA com o objetivo de melhorar a experiência dos peregrinos, garantindo uma jornada mais tranquila para os devotos. A decisão foi tomada em uma reunião do conselho de diretores do TTD, presidida por BR Naidu e outros membros.

Mar 25, 2025

Boletim de IA: Homem é condenado a 10 meses de prisão por escrever romance erótico com IA; equipe do 360 Zhi Nao reproduz o efeito de aprendizado por reforço do DeepSeek; o modelo de geração de efeitos sonoros de IA SeedFoley da ByteDance é lançado imediatamente

Bem-vindo ao boletim diário de IA! Aqui está seu guia diário para explorar o mundo da inteligência artificial. Todos os dias, apresentamos os destaques do campo da IA, focando em desenvolvedores e ajudando você a entender as tendências tecnológicas e os aplicativos inovadores de produtos de IA. Descubra novos produtos de IA clicando aqui: https://top.aibase.com/1. Um homem foi condenado a 10 meses de prisão por usar IA para escrever romances eróticos e lucrar mais de 20.000 yuans. O Tribunal Popular do município de Daye, na província de Hubei, recentemente decidiu sobre um caso de uso de inteligência artificial para escrever romances eróticos e lucrar com isso. Softbank

Mar 14, 2025

Homem condenado a dez meses de prisão por usar IA para escrever romances pornográficos e lucrar mais de 20 mil yuans

Recentemente, o Tribunal Popular do Município de Daye, na província de Hubei, proferiu uma sentença em um caso pioneiro envolvendo a utilização de tecnologia de inteligência artificial (IA) para escrever romances pornográficos e lucrar com eles. O réu, Ke Mou, foi condenado a dez meses de prisão e multado em 5.000 yuans chineses por produção, venda e disseminação de material obsceno para fins lucrativos, com ordem de restituição dos ganhos ilícitos. De acordo com a acusação, entre novembro de 2022 e março de 2023, Ke Mou, um autor de literatura online com educação de nível superior técnico, usou um programa de IA para escrever romances pornográficos e publicá-los em sites pornográficos estrangeiros, além de...

Mar 14, 2025

Notícias de IA

IA Diário

Linha do Tempo da IA

Casos Recentes

Coleção de Imagens

Coleção de Vídeos

Coleção de Áudios

Coleção de Conteúdo

Tutoriais Recentes

Ranking de Produtos de IA

Ranking de Crescimento de Tráfego de IA

Ranking de Queda de Tráfego de IA

Ranking Semanal de IA

Estados Unidos

China

Índia

Brasil

Geração de Imagens

Assistente Pessoal

Geração de Personagens

Geração de Vídeos

Ranking de Projetos de IA

Ranking de Crescimento de Projetos de IA

Ranking de Desenvolvedores de IA

Ranking de Organizações de IA

Deepseek

TTS

LLM

ChatGPT

Visão Geral