Desafiando o Sora? A Luocheng Technology lança o modelo de vídeo Open-Sora 2.0 de código aberto, reduzindo custos e acelerando o processo

Já ouviu falar do OpenAI Sora, o modelo de geração de vídeo absurdamente caro? Com custos de treinamento que chegam a milhões de dólares, é como o "Rolls-Royce" do mundo da geração de vídeo. Agora, a Luocheng Technology anuncia o lançamento do modelo de geração de vídeo de código aberto Open-Sora2.0!

Com apenas US$ 200.000 (equivalente a 224 GPUs), eles conseguiram treinar um grande modelo de geração de vídeo de nível comercial com 11 bilhões de parâmetros.

Desempenho que se equipara ao "OpenAI Sora"

Apesar do baixo custo, o Open-Sora2.0 não deixa a desejar em termos de desempenho. Ele é um concorrente de peso para modelos como o HunyuanVideo e o Step-Video (com 30 bilhões de parâmetros). Em avaliações de referência como o VBench e testes de preferência do usuário, o Open-Sora2.0 surpreendeu, alcançando resultados comparáveis a modelos fechados que custam milhões de dólares em treinamento.

Ainda mais emocionante: a diferença de desempenho entre o Open-Sora2.0 e o OpenAI Sora no VBench caiu de 4,52% para apenas 0,69%! Isso significa praticamente uma igualdade de desempenho!

Além disso, o Open-Sora2.0 superou o HunyuanVideo da Tencent no VBench, mostrando que a inovação de baixo custo e alto desempenho está revolucionando o setor e estabelecendo um novo padrão para a tecnologia de geração de vídeo de código aberto!

Nos testes de preferência do usuário, o Open Sora superou o modelo de código aberto SOTA HunyuanVideo e o modelo comercial Runway Gen-3Alpha em pelo menos dois dos três indicadores-chave: desempenho visual, consistência de texto e desempenho de movimento.

O segredo por trás do baixo custo e alto desempenho

Você deve estar se perguntando como o Open-Sora2.0 conseguiu alcançar um desempenho tão alto com um custo tão baixo. Há alguns segredos por trás disso. Primeiro, a equipe do Open Sora manteve a arquitetura do Open-Sora1.2, usando o codificador automático 3D e a estrutura de treinamento Flow Matching. Eles também introduziram o mecanismo de atenção total 3D, melhorando ainda mais a qualidade da geração de vídeo.

Para otimizar ainda mais os custos, o Open-Sora2.0 utilizou várias estratégias:

Seleção rigorosa de dados, garantindo dados de treinamento de alta qualidade e aumentando a eficiência desde o início.
Treinamento prioritário em baixa resolução, aprendendo informações de movimento de forma eficiente e reduzindo o custo computacional. O treinamento em alta resolução é dezenas de vezes mais caro!
Treinamento prioritário de tarefas de imagem para vídeo, acelerando a convergência do modelo e reduzindo ainda mais os custos de treinamento. Na fase de inferência, é possível usar a conversão de texto para imagem e depois para vídeo (T2I2V) para obter efeitos visuais mais refinados.
Utilização de um esquema de treinamento paralelo eficiente, combinando ColossalAI e otimizações de nível de sistema para aumentar significativamente a utilização de recursos computacionais. Recursos como paralelismo de sequência eficiente e ZeroDP, Gradient Checkpointing de granularidade fina, e mecanismos de recuperação automática de treinamento contribuíram para um aumento significativo da eficiência do treinamento.

Estima-se que o custo de treinamento de modelos de vídeo de código aberto com mais de 10 bilhões de parâmetros pode chegar a milhões de dólares, enquanto o Open Sora2.0 reduziu esse custo em 5 a 10 vezes. Isso é uma ótima notícia para o campo de geração de vídeo, permitindo que mais pessoas participem do desenvolvimento de vídeos de alta qualidade.

Código aberto e compartilhamento para um ecossistema próspero

O que é ainda mais louvável é que o Open-Sora não apenas abriu o código e os pesos do modelo, mas também o código de treinamento completo, o que certamente impulsionará o desenvolvimento do ecossistema de código aberto. Como apontado por plataformas de tecnologia de terceiros, o Open-Sora recebeu quase cem citações em artigos acadêmicos em seis meses, ocupando uma posição de destaque no ranking de influência de código aberto global e se tornando um dos maiores projetos de geração de vídeo de código aberto do mundo.

A equipe do Open-Sora também está explorando o uso de codificadores automáticos de vídeo com alta taxa de compressão para reduzir significativamente os custos de inferência. Eles treinaram um codificador automático de vídeo com alta taxa de compressão (4×32×32), reduzindo o tempo de inferência para gerar um vídeo de 768px e 5 segundos em uma única GPU de quase 30 minutos para menos de 3 minutos, um aumento de velocidade de 10 vezes! Isso significa que, no futuro, poderemos gerar conteúdo de vídeo de alta qualidade mais rapidamente.

O modelo de geração de vídeo de código aberto Open-Sora2.0, lançado pela Luocheng Technology, com suas características de baixo custo, alto desempenho e código totalmente aberto, certamente trará uma onda de "preços acessíveis" para o campo de geração de vídeo. Sua chegada não apenas reduz a diferença em relação aos principais modelos proprietários, mas também reduz a barreira de entrada para a geração de vídeos de alta qualidade, permitindo que mais desenvolvedores participem e impulsionem o desenvolvimento da tecnologia de geração de vídeo.

🔗 Repositório GitHub de código aberto:https://github.com/hpcaitech/Open-Sora

📄Relatório técnico:https://github.com/hpcaitech/Open-Sora-Demo/blob/main/paper/Open_Sora_2_tech_report.pdf

Notícias de IA

IA Diário

Linha do Tempo da IA

Al hardware

Casos Recentes

Coleção de Imagens

Coleção de Vídeos

Coleção de Áudios

Coleção de Conteúdo

Tutoriais Recentes

Ranking de Produtos de IA

Ranking de Crescimento de Tráfego de IA

Ranking de Queda de Tráfego de IA

Ranking Semanal de IA

Estados Unidos

China

Índia

Brasil

Geração de Imagens

Assistente Pessoal

Geração de Personagens

Geração de Vídeos

Ranking de Projetos de IA

Ranking de Crescimento de Projetos de IA

Ranking de Desenvolvedores de IA

Ranking de Organizações de IA

Deepseek

TTS

LLM

ChatGPT

Visão Geral

Desafiando o Sora? A Luocheng Technology lança o modelo de vídeo Open-Sora 2.0 de código aberto, reduzindo custos e acelerando o processo

AIbase基地

O segredo por trás do baixo custo e alto desempenho

Código aberto e compartilhamento para um ecossistema próspero

Este artigo é do AIbase Daily

Notícias de IA Relacionadas Recomendadas

O modelo de geração de vídeo da OpenAI, Sora, agora está disponível na Europa

Alibaba lança modelo de geração de vídeo a partir de texto de código aberto, Wanxiang 2.1: versões de 14B e 1,3B disponíveis

Boletim Diário de IA: Incrível! DeepSeek lançará cinco projetos de código aberto na próxima semana; O modelo de geração de vídeo WanX 2.1 do Alibaba Tongyi Wanxiang será de código aberto; Usuários ativos semanais do ChatGPT ultrapassam 400 milhões

Alibaba anuncia o lançamento de código aberto do modelo de geração de vídeo WanX 2.1

Luma AI lança o modelo de geração de vídeo Ray2, oferecendo movimento mais rápido e natural

Alimama lança o grande modelo de geração de vídeo Taobao Star e aplicativo de imagem para vídeo

Luocheng Technology lança o novo Video Ocean V2.0: modelo de geração de vídeo gratuito evolui, criando vídeos HD de 20 segundos com um clique

Google aprimora o modelo de geração de vídeo com IA, Veo2, com resolução 4K e pontuação de preferência humana superior à Sora

Gigante Network lança o grande modelo de geração de jogos sonoros "QianYing"

Adobe e MIT criam o modelo de geração de vídeo CausVid, com atraso de apenas 1,3 segundos no primeiro quadro!