Na recente conferência de tecnologia de nuvem de vídeo, a Volcano Engine lançou uma inovação importante: uma solução de pré-processamento de vídeo para treinamento de modelos grandes. Essa tecnologia já foi aplicada com sucesso ao modelo de geração de vídeo Doubao, marcando um avanço significativo na tecnologia de geração de vídeo de IA.
O presidente da Volcano Engine, Tan Dai, enfatizou que a AIGC e a tecnologia multimodal estão mudando profundamente a experiência do usuário. Com base na experiência prática do Douyin, a Volcano Engine está explorando ativamente a integração de modelos grandes de IA com tecnologia de vídeo, fornecendo soluções abrangentes para empresas.
Wang Yue, chefe de arquitetura de vídeo do grupo Douyin, apontou que o treinamento de modelos grandes enfrenta muitos desafios, incluindo altos custos de processamento de grandes quantidades de dados, qualidade inconsistente das amostras, complexidade da cadeia de processamento e problemas de alocação de vários recursos de computação heterogêneos.
Para enfrentar esses desafios, a solução de pré-processamento desenvolvida pela Volcano Engine é baseada no framework de processamento multimídia autodesenvolvido BMF e utiliza os diversos recursos de computação da Intel. Essa solução foi otimizada em termos de algoritmo e engenharia, podendo processar eficientemente grandes quantidades de dados de vídeo e melhorar significativamente a eficiência do treinamento do modelo.
Além disso, a Volcano Engine também lançou em código aberto a versão lite do BMF, uma solução de pós-processamento para dispositivos móveis, que suporta a integração de modelos grandes em dispositivos móveis e aceleração de operadores, sendo mais leve e versátil.
Vale ressaltar que o modelo de geração de vídeo Doubao PixelDance, lançado em 24 de setembro, já utiliza essa solução tecnológica. Esse modelo emprega a arquitetura DiT, superando os desafios de interação complexa de movimentos de múltiplos sujeitos e consistência de conteúdo em múltiplas mudanças de câmera. Atualmente, o modelo de geração de vídeo Doubao está disponível para testes beta para empresas através da Volcano Engine.