Já ouviu falar do OpenAI Sora, o modelo de geração de vídeo absurdamente caro? Com custos de treinamento que chegam a milhões de dólares, é como o "Rolls-Royce" do mundo da geração de vídeo. Agora, a Luocheng Technology anuncia o lançamento do modelo de geração de vídeo de código aberto Open-Sora2.0!

Com apenas US$ 200.000 (equivalente a 224 GPUs), eles conseguiram treinar um grande modelo de geração de vídeo de nível comercial com 11 bilhões de parâmetros.

QQ_1741846201943.png

Desempenho que se equipara ao "OpenAI Sora"

Apesar do baixo custo, o Open-Sora2.0 não deixa a desejar em termos de desempenho. Ele é um concorrente de peso para modelos como o HunyuanVideo e o Step-Video (com 30 bilhões de parâmetros). Em avaliações de referência como o VBench e testes de preferência do usuário, o Open-Sora2.0 surpreendeu, alcançando resultados comparáveis a modelos fechados que custam milhões de dólares em treinamento.

Ainda mais emocionante: a diferença de desempenho entre o Open-Sora2.0 e o OpenAI Sora no VBench caiu de 4,52% para apenas 0,69%! Isso significa praticamente uma igualdade de desempenho!

Além disso, o Open-Sora2.0 superou o HunyuanVideo da Tencent no VBench, mostrando que a inovação de baixo custo e alto desempenho está revolucionando o setor e estabelecendo um novo padrão para a tecnologia de geração de vídeo de código aberto!

Nos testes de preferência do usuário, o Open Sora superou o modelo de código aberto SOTA HunyuanVideo e o modelo comercial Runway Gen-3Alpha em pelo menos dois dos três indicadores-chave: desempenho visual, consistência de texto e desempenho de movimento.

QQ_1741846235912.png

O segredo por trás do baixo custo e alto desempenho

Você deve estar se perguntando como o Open-Sora2.0 conseguiu alcançar um desempenho tão alto com um custo tão baixo. Há alguns segredos por trás disso. Primeiro, a equipe do Open Sora manteve a arquitetura do Open-Sora1.2, usando o codificador automático 3D e a estrutura de treinamento Flow Matching. Eles também introduziram o mecanismo de atenção total 3D, melhorando ainda mais a qualidade da geração de vídeo.

Para otimizar ainda mais os custos, o Open-Sora2.0 utilizou várias estratégias:

  • Seleção rigorosa de dados, garantindo dados de treinamento de alta qualidade e aumentando a eficiência desde o início.
  • Treinamento prioritário em baixa resolução, aprendendo informações de movimento de forma eficiente e reduzindo o custo computacional. O treinamento em alta resolução é dezenas de vezes mais caro!
  • Treinamento prioritário de tarefas de imagem para vídeo, acelerando a convergência do modelo e reduzindo ainda mais os custos de treinamento. Na fase de inferência, é possível usar a conversão de texto para imagem e depois para vídeo (T2I2V) para obter efeitos visuais mais refinados.
  • Utilização de um esquema de treinamento paralelo eficiente, combinando ColossalAI e otimizações de nível de sistema para aumentar significativamente a utilização de recursos computacionais. Recursos como paralelismo de sequência eficiente e ZeroDP, Gradient Checkpointing de granularidade fina, e mecanismos de recuperação automática de treinamento contribuíram para um aumento significativo da eficiência do treinamento.

Estima-se que o custo de treinamento de modelos de vídeo de código aberto com mais de 10 bilhões de parâmetros pode chegar a milhões de dólares, enquanto o Open Sora2.0 reduziu esse custo em 5 a 10 vezes. Isso é uma ótima notícia para o campo de geração de vídeo, permitindo que mais pessoas participem do desenvolvimento de vídeos de alta qualidade.

Código aberto e compartilhamento para um ecossistema próspero

O que é ainda mais louvável é que o Open-Sora não apenas abriu o código e os pesos do modelo, mas também o código de treinamento completo, o que certamente impulsionará o desenvolvimento do ecossistema de código aberto. Como apontado por plataformas de tecnologia de terceiros, o Open-Sora recebeu quase cem citações em artigos acadêmicos em seis meses, ocupando uma posição de destaque no ranking de influência de código aberto global e se tornando um dos maiores projetos de geração de vídeo de código aberto do mundo.

A equipe do Open-Sora também está explorando o uso de codificadores automáticos de vídeo com alta taxa de compressão para reduzir significativamente os custos de inferência. Eles treinaram um codificador automático de vídeo com alta taxa de compressão (4×32×32), reduzindo o tempo de inferência para gerar um vídeo de 768px e 5 segundos em uma única GPU de quase 30 minutos para menos de 3 minutos, um aumento de velocidade de 10 vezes! Isso significa que, no futuro, poderemos gerar conteúdo de vídeo de alta qualidade mais rapidamente.

O modelo de geração de vídeo de código aberto Open-Sora2.0, lançado pela Luocheng Technology, com suas características de baixo custo, alto desempenho e código totalmente aberto, certamente trará uma onda de "preços acessíveis" para o campo de geração de vídeo. Sua chegada não apenas reduz a diferença em relação aos principais modelos proprietários, mas também reduz a barreira de entrada para a geração de vídeos de alta qualidade, permitindo que mais desenvolvedores participem e impulsionem o desenvolvimento da tecnologia de geração de vídeo.

🔗 Repositório GitHub de código aberto:https://github.com/hpcaitech/Open-Sora

📄Relatório técnico:https://github.com/hpcaitech/Open-Sora-Demo/blob/main/paper/Open_Sora_2_tech_report.pdf