Recentemente, a equipe do Luocheng Open-Sora alcançou avanços inovadores na qualidade de vídeo texto-para-vídeo em alta definição de 720p e no tempo de geração. Eles não apenas fizeram um grande anúncio na qualidade e tempo de geração de vídeo em HD 720p, mas também tornaram esse tesouro de código aberto, causando grande entusiasmo em toda a comunidade!

image.png

Sem exagero, seu projeto de código aberto tornou a geração de vídeo tão simples quanto pedir comida por delivery. Desde sua estreia em março, ele acumulou 17,5 mil estrelas no GitHub, um sucesso estrondoso!

Endereço do código aberto: https://github.com/hpcaitech/Open-Sora

O Open-Sora pode gerar vídeos em HD de 720p com 16 segundos com um único clique. Seja um retrato de pessoa sofisticado, um filme de ficção científica incrível ou uma animação divertida e animada, com efeitos de zoom suaves, ele consegue lidar com tudo isso facilmente. Inclusive, a Lambda Labs, empresa de IA com participação da Nvidia, criou um universo digital de Lego baseado nos pesos do modelo Open-Sora, oferecendo aos entusiastas de Lego um novo espaço criativo.

A equipe da Luocheng não apenas tornou os pesos do modelo de código aberto, mas também publicou a rota tecnológica no GitHub, permitindo que cada usuário se torne o mestre do grande modelo de vídeo. Este relatório técnico analisa profundamente o núcleo e os pontos-chave do treinamento do modelo, desde a rede de compressão de vídeo e o algoritmo de modelo de difusão até a controlabilidade. Com um modelo de geração de difusão de 1,1B, eles resolveram os pontos problemáticos do treinamento do modelo de vídeo.

image.png

Endereço do relatório: https://github.com/hpcaitech/Open-Sora/blob/main/docs/report_03.md

A introdução da rede de compressão de vídeo é um método semelhante ao Sora da OpenAI. Ele pode comprimir 4 vezes na dimensão do tempo sem precisar de amostragem de quadros, podendo gerar vídeos com FPS original. A equipe também propôs uma rede de compressão de vídeo simples (ou seja, VAE), que pode primeiro realizar uma compressão de 8x8 vezes na dimensão espacial e depois uma compressão de 4 vezes na dimensão do tempo.

O modelo de difusão mais recente do Stable Diffusion 3, através da tecnologia de fluxo retificado, melhorou a qualidade de geração. A equipe da Luocheng fornece tecnologias incluindo treinamento retificado, amostragem de passo de tempo Logit-norm, etc., acelerando a velocidade de treinamento do modelo e reduzindo o tempo de espera de inferência.

O relatório também revela detalhes essenciais do treinamento do modelo, incluindo limpeza de dados, técnicas de ajuste fino do modelo e construção de um sistema de avaliação do modelo. Eles até fornecem um aplicativo Gradio de implantação com um único clique, suportando vários ajustes de parâmetros.

O código aberto do Luocheng Open-Sora quebrou o ciclo fechado, injetando vitalidade na inovação e no desenvolvimento de vídeo texto-para-vídeo. Os usuários passam de consumidores de conteúdo para criadores, e os usuários corporativos desbloqueiam novas habilidades de desenvolvimento independente.