A Beijing Tusensfuture Technology Co., Ltd. lançou oficialmente seu primeiro modelo de grande linguagem de vídeo “Tu Sheng Video” – “Ruyi” – em 17 de dezembro de 2024, e lançou o código-fonte da versão Ruyi-Mini-7B para que os usuários possam baixar e usar na plataforma Hugging Face. Fundada em 2015, a Tusensfuture tem sede em San Diego, Califórnia, EUA, e foca na aplicação de tecnologia de IA em vários setores, incluindo animação, jogos e transporte.

O modelo de grande linguagem Ruyi foi projetado especificamente para rodar em placas de vídeo de consumo, com instruções de implementação detalhadas e fluxos de trabalho ComfyUI para facilitar o uso pelos usuários. O modelo se destaca por sua excelente performance em consistência entre frames, fluidez de movimento, representação de cores e composição, abrindo novas possibilidades para a narração visual. Com treinamento profundo em cenários de anime e jogos, ele se torna o parceiro ideal para criadores de conteúdo ACG.

微信截图_20241217140324.png

O modelo Ruyi suporta geração de vídeos em múltiplas resoluções e durações, podendo processar resoluções de 384×384 a 1024×1024, com proporções de aspecto arbitrárias e geração de vídeos de até 120 frames/5 segundos. Ele também suporta a geração controlada de frames iniciais e finais, controle da amplitude de movimento e cinco tipos de controle de câmera. Ruyi é baseado na arquitetura DiT, composto por um módulo Casual VAE e um Transformador de Difusão, com um total de aproximadamente 7,1 bilhões de parâmetros e treinado com cerca de 200 milhões de clipes de vídeo.

Apesar dos avanços significativos em termos tecnológicos, o Ruyi ainda apresenta algumas falhas, como deformações nas mãos, deterioração de detalhes faciais em cenas com múltiplas pessoas e transições incontroláveis. A Tusensfuture está trabalhando para melhorar e corrigir esses problemas em atualizações futuras.

No futuro, a Tusensfuture pretende continuar a aprimorar o modelo para atender às demandas específicas de cada cena, alcançando a capacidade de gerar cortes diretamente. Na próxima versão, serão oferecidos dois modelos para atender às necessidades de diferentes criadores. A empresa visa utilizar modelos de grande linguagem para reduzir o tempo e o custo de desenvolvimento de conteúdo de anime e jogos. O modelo Ruyi já é capaz de gerar 5 segundos de conteúdo a partir de frames-chave de entrada, ou gerar transições intermediárias entre dois frames-chave de entrada, reduzindo assim o tempo de desenvolvimento.

Link do Hugging Face :

https://huggingface.co/IamCreateAI/Ruyi-Mini-7B