Ainda está hesitante em relação aos modelos de geração de vídeo que custam milhões de dólares? Ainda acha que a criação de vídeo com IA é apenas um jogo para gigantes? Hoje, a comunidade de código aberto mostra sua força e diz: "Não!" Um novo modelo de código aberto chamado Open-Sora 2.0 surgiu, revolucionando completamente as regras de "pagamento" para geração de vídeo.
Inacreditavelmente, este grande modelo de 11 bilhões de parâmetros, com desempenho próximo ao nível comercial, foi treinado com apenas US$ 200.000 (224 GPUs)! Para se ter uma ideia, os modelos fechados que custam milhões de dólares parecem extremamente caros em comparação com o Open-Sora 2.0!
Repositório GitHub de código aberto: https://github.com/hpcaitech/Open-Sora
1. Potência Bruta: A prova está nos dados
1.1 Efeitos surpreendentes! Demonstração de vídeo do Open-Sora 2.0
Ações falam mais alto que palavras! Quão impressionante é o resultado da geração do Open-Sora 2.0? Assista à demonstração de vídeo para conferir:
Movimentação de câmera impecável! Precisão nos movimentos: Seja nos movimentos delicados dos personagens ou na grandiosidade da cena, o Open-Sora 2.0 consegue controlar a amplitude dos movimentos com precisão, como um diretor profissional, elevando a expressividade da imagem ao máximo!
Qualidade de imagem excepcional! Fluidez impecável: Com resolução HD de 720p e taxa de quadros estável de 24 FPS, os vídeos gerados pelo Open-Sora 2.0 possuem nitidez e fluidez impecáveis, superando completamente os produtos similares do mercado. A experiência visual é simplesmente incrível!
Cenários versáteis! Capacidade abrangente: Paisagens rurais, paisagens noturnas urbanas, universos de ficção científica... O Open-Sora 2.0 domina todos os tipos de cenários complexos, com detalhes impressionantes e movimentação de câmera suave e natural. É o verdadeiro "Da Vinci da IA"!
1.2 Escala de parâmetros "pequena mas poderosa", desempenho próximo aos gigantes de código fechado
O Open-Sora 2.0 não é apenas aparência, mas sim uma "tecnologia robusta". Com apenas 11 bilhões de parâmetros, ele libera uma energia surpreendente, obtendo resultados excepcionais em plataformas de avaliação como o VBench e em avaliações subjetivas de usuários, rivalizando com gigantes de código fechado como o HunyuanVideo e o Step-Video de 30B, um verdadeiro exemplo de "pequeno mas poderoso"!
O usuário decide! Avaliação de preferência superior: Em três dimensões: efeito visual, consistência de texto e desempenho de movimento, o Open-Sora 2.0 superou o modelo de código aberto SOTA HunyuanVideo em pelo menos duas métricas, e até mesmo superou modelos comerciais como o Runway Gen-3Alpha, provando que "é possível ter qualidade com baixo custo"!
Classificação VBench "certificação de desempenho", desempenho próximo ao limite: Na classificação VBench, a mais autoritária na área de geração de vídeo, a velocidade de progresso do Open-Sora 2.0 é impressionante. Da versão 1.2 para a 2.0, a diferença de desempenho em relação ao modelo de código fechado OpenAI Sora caiu de 4,52% para 0,69%, praticamente insignificante! Mais emocionante ainda é que a pontuação do Open-Sora 2.0 no VBench já superou a do Tencent HunyuanVideo, provando mais uma vez sua enorme vantagem de "baixo investimento, alto retorno", estabelecendo um novo marco para a tecnologia de geração de vídeo de código aberto!
2. Treinamento de baixo custo: O segredo por trás do código aberto
Desde seu lançamento como código aberto, o Open-Sora se tornou rapidamente um sucesso na comunidade de código aberto, graças à sua capacidade eficiente e de alta qualidade de gerar vídeos. No entanto, o desafio era: como quebrar o feitiço de "alto custo" na geração de vídeos de alta qualidade e permitir que mais pessoas participem? A equipe Open-Sora enfrentou o desafio e, por meio de uma série de inovações tecnológicas, conseguiu reduzir o custo de treinamento do modelo em 5 a 10 vezes! O custo de treinamento de milhões de dólares no mercado foi concluído pelo Open-Sora 2.0 com apenas US$ 200.000, tornando-o o "rei do custo-benefício no mundo de código aberto"!
O Open-Sora não apenas lançou o código e os pesos do modelo como código aberto, mas também generosamente divulgou o código de treinamento do processo completo, construindo um ecossistema de código aberto vibrante. Em apenas seis meses, as citações de artigos acadêmicos do Open-Sora chegaram a quase cem, ocupando uma posição de destaque na lista de influência global de código aberto, superando todos os projetos de geração de vídeo I2V/T2V de código aberto e se tornando o "líder indiscutível na geração de vídeo de código aberto".
2.1 Arquitetura do modelo: Herança e inovação
O Open-Sora 2.0 herda a essência da versão 1.2 em sua arquitetura de modelo, mas também faz inovações ousadas: continua usando o framework de treinamento de codificador automático 3D e correspondência de fluxo, e mantém o mecanismo de treinamento multi-bucket para garantir que o modelo possa "absorver" vídeos de vários comprimentos e resoluções. Ao mesmo tempo, várias "tecnologias de ponta" foram introduzidas para melhorar ainda mais a capacidade de geração de vídeo:
Mecanismo de atenção 3D completo: Captura informações de tempo e espaço nos vídeos com maior precisão, tornando as imagens geradas mais coerentes e ricas em detalhes.
Arquitetura MMDiT "assistente": Compreende com maior precisão a relação entre as instruções de texto e o conteúdo do vídeo, tornando a expressão semântica do vídeo gerado a partir de texto mais precisa e eficaz.
Escala do modelo expandida para 11B: Uma maior capacidade do modelo significa uma maior capacidade de aprendizado e potencial de geração, e a qualidade do vídeo aumenta naturalmente.
Modelo FLUX "base", eficiência de treinamento "decola": Referenciando a experiência bem-sucedida do modelo de geração de vídeo a partir de imagens FLUX de código aberto, a inicialização do modelo é realizada, reduzindo significativamente o tempo e o custo de treinamento, e a eficiência de treinamento do modelo "decola".
2.2 Segredos de treinamento eficiente: Processo completo de código aberto, ajudando a reduzir drasticamente os custos
Para reduzir o custo de treinamento ao "mínimo", o Open-Sora 2.0 fez todo o trabalho possível em dados, poder computacional e estratégia, tornando-se um "especialista em economia no mundo de código aberto":
Dados "cuidadosamente selecionados", qualidade "selecionada entre milhares": A equipe Open-Sora entende o princípio de "lixo entra, lixo sai", e faz uma triagem "completa" dos dados de treinamento para garantir que cada dado seja de "alta qualidade", melhorando a eficiência do treinamento do modelo desde a fonte. Mecanismos de filtragem de dados multiestágio e multinível, combinados com vários filtros de "tecnologia de ponta", melhoram ainda mais a qualidade dos dados de vídeo e fornecem o "combustível" de melhor qualidade para o treinamento do modelo.
Poder computacional "bem calculado", treinamento de baixa resolução "na vanguarda": O custo de treinamento de vídeo de alta resolução é muito maior do que o de baixa resolução, e a diferença de poder computacional entre os dois pode chegar a 40 vezes! O Open-Sora 2.0 habilmente evita o "conflito direto", dando prioridade ao treinamento de baixa resolução, aprendendo informações de movimento nos vídeos de forma eficiente, reduzindo significativamente os custos e garantindo que o modelo possa dominar as "habilidades essenciais" da geração de vídeo, o que é realmente "o dobro do trabalho com a metade do esforço".
Estratégias "flexíveis e variadas", geração de vídeo a partir de imagens "estratégia indireta": O Open-Sora 2.0 não "insiste" no treinamento de vídeo de alta resolução desde o início, mas sim adota uma estratégia mais inteligente de "manobra" - dando prioridade ao treinamento do modelo de geração de vídeo a partir de imagens para acelerar a velocidade de convergência do modelo. Os fatos provam que o modelo de geração de vídeo a partir de imagens tem uma velocidade de convergência mais rápida e um custo de treinamento mais baixo ao aumentar a resolução, o que é realmente "dois coelhos com uma só cajadada". Na fase de inferência, o Open-Sora 2.0 também suporta o modo "texto para imagem para vídeo" (T2I2V), os usuários podem gerar imagens de alta qualidade a partir de texto e depois converter as imagens em vídeos para obter efeitos visuais mais refinados, "todos os caminhos levam a Roma".
Treinamento paralelo "a todo vapor", taxa de utilização do poder computacional "espremendo até a última gota": O Open-Sora 2.0 entende o princípio de "uma corda não faz um nó, uma árvore não faz uma floresta", e adota um esquema de treinamento paralelo eficiente, "armando até os dentes" com ColossalAI e tecnologias de otimização de nível de sistema, melhorando ao máximo a taxa de utilização dos recursos de computação, permitindo que o cluster de GPUs "trabalhe a todo vapor" e realize um treinamento de geração de vídeo mais eficiente. Com uma série de tecnologias de "ponta", a eficiência de treinamento do Open-Sora 2.0 "decola", e o custo é reduzido significativamente:
Paralelismo de sequência + ZeroDP: Otimiza a eficiência de computação distribuída de modelos em grande escala, realizando "união faz a força".
Ponto de verificação de gradiente de granularidade fina: Mantém a eficiência de computação ao reduzir o uso de memória, realizando "economia e eficiência".
Mecanismo de recuperação automática de treinamento: Garante mais de 99% do tempo de treinamento eficaz, reduzindo o desperdício de recursos e realizando "estabilidade e confiabilidade".
Carregamento de dados eficiente + gerenciamento de memória: Otimiza E/S, previne bloqueios de treinamento e acelera o processo de treinamento, realizando "aceleração completa".
Salvar modelo assíncrono: Reduz a interferência do armazenamento do modelo no treinamento, melhora a taxa de utilização da GPU e realiza "multitarefa".
Otimização do operador: Otimiza profundamente os módulos de cálculo essenciais, acelera o processo de treinamento e realiza "aumento de velocidade e eficiência".
Com essas medidas de otimização "combinadas", o Open-Sora 2.0 encontrou um equilíbrio perfeito entre alto desempenho e baixo custo, reduzindo significativamente o limite de treinamento de modelos de geração de vídeo de alta qualidade e permitindo que mais pessoas participem dessa festa tecnológica.
2.3 AE de alta taxa de compressão "assistente", velocidade de inferência "aumentada novamente"
Reduzir o custo de treinamento não é suficiente, a velocidade de inferência também precisa acompanhar! O Open-Sora 2.0 visa o futuro, explorando o uso de codificadores automáticos de vídeo (AE) de alta taxa de compressão para reduzir ainda mais o custo de inferência e melhorar a velocidade de geração de vídeo. Os modelos de vídeo atuais usam codificadores automáticos de 4×8×8, e leva quase 30 minutos para gerar um vídeo de 768px e 5 segundos em uma única placa gráfica, e a eficiência de inferência precisa ser melhorada. O Open-Sora 2.0 treinou um codificador automático de vídeo de alta taxa de compressão (4×32×32), reduzindo o tempo de inferência para menos de 3 minutos em uma única placa gráfica, um aumento de velocidade de 10 vezes! É simplesmente geração em "velocidade da luz"!
Embora o codificador de alta taxa de compressão seja bom, a dificuldade de treinamento é muito grande. A equipe Open-Sora enfrentou o desafio e introduziu conexões residuais no módulo de amostragem de vídeo para treinar com sucesso um VAE com qualidade de reconstrução comparável ao modelo de compressão de vídeo SOTA e uma taxa de compressão ainda maior, estabelecendo uma base sólida para a inferência eficiente. Para resolver os problemas de grande demanda de dados de treinamento e alta dificuldade de convergência do codificador automático de alta taxa de compressão, o Open-Sora também propôs uma estratégia de otimização baseada em destilação e utilizou modelos de alta qualidade já treinados para inicialização, reduzindo a demanda de dados e tempo. Ao mesmo tempo, o foco é o treinamento de tarefas de geração de vídeo a partir de imagens, usando recursos de imagem para orientar a geração de vídeo e acelerar a convergência do codificador automático de alta compressão, finalmente alcançando uma "vitória dupla" em velocidade de inferência e qualidade de geração.
A equipe Open-Sora acredita que o codificador automático de vídeo de alta taxa de compressão será uma direção crucial para o desenvolvimento futuro da tecnologia de geração de vídeo. Os resultados experimentais preliminares já mostraram um efeito surpreendente de aceleração de inferência, e eles esperam atrair mais força da comunidade para explorar juntos o potencial do codificador automático de vídeo de alta taxa de compressão, promover o desenvolvimento mais rápido da tecnologia de geração de vídeo eficiente e de baixo custo, e permitir que a criação de vídeo de IA realmente "chegue à casa de todos".
3. Chamada para código aberto! Juntos para uma nova jornada de revolução de vídeo de IA
Hoje, o Open-Sora 2.0 foi oficialmente lançado como código aberto! Convidamos sinceramente desenvolvedores globais, instituições de pesquisa e entusiastas de IA a se juntarem à comunidade Open-Sora, trabalhar juntos e promover juntos a onda de revolução de vídeo de IA, tornando o futuro da criação de vídeo mais aberto, acessível e emocionante!
Repositório GitHub de código aberto: https://github.com/hpcaitech/Open-Sora
Relatório técnico:
https://github.com/hpcaitech/Open-Sora-Demo/blob/main/paper/Open_Sora_2_tech_report.pdf