La société Beijing Tusen Future Technology Co., Ltd. a officiellement lancé le 17 décembre 2024 son premier grand modèle de « vidéo générative » : « Ruyi ». La version Ruyi-Mini-7B est open source et disponible au téléchargement sur la plateforme Hugging Face. Fondée en 2015 et basée à San Diego, en Californie, Tusen Future se concentre sur l'application de l'IA dans divers secteurs, notamment l'animation, les jeux vidéo et le transport.
Le grand modèle Ruyi est conçu pour fonctionner sur des cartes graphiques grand public. Il est fourni avec des instructions de déploiement détaillées et un workflow ComfyUI pour une prise en main rapide. Il se distingue par son excellente cohérence inter-images, la fluidité de ses mouvements, la qualité de ses couleurs et sa composition, ouvrant de nouvelles possibilités pour la narration visuelle. Profondément entraîné sur des scènes d'anime et de jeux vidéo, il est le partenaire créatif idéal pour les amateurs d'ACG.
Ruyi prend en charge la génération multi-résolution et multi-durée, traitant des résolutions de 384×384 à 1024×1024, avec des rapports hauteur/largeur arbitraires, et une génération vidéo maximale de 120 images/5 secondes. Il permet également le contrôle de l'image clé initiale et finale, le contrôle de l'amplitude du mouvement, ainsi que cinq types de contrôles de caméra. Ruyi est basé sur l'architecture DiT, composé d'un module Casual VAE et d'un Diffusion Transformer, avec un total d'environ 7,1 milliards de paramètres, entraîné sur environ 200 millions de clips vidéo.
Malgré ses progrès techniques significatifs, Ruyi présente encore quelques défauts, tels que des déformations des mains, des défauts de détails du visage pour les scènes à plusieurs personnages et des transitions incontrôlables. Tusen Future travaille activement à l'amélioration et à la correction de ces problèmes dans les futures mises à jour.
À l'avenir, Tusen Future prévoit de continuer à approfondir les besoins des différents scénarios, de réaliser une percée dans la génération directe de CUT et de proposer deux versions lors de la prochaine publication afin de répondre aux besoins des différents créateurs. L'entreprise s'engage à utiliser les grands modèles pour réduire les délais et les coûts de développement de contenu d'animation et de jeux vidéo. Ruyi permet déjà de générer 5 secondes de contenu à partir d'images clés, ou de générer des transitions intermédiaires entre deux images clés, réduisant ainsi le temps de développement.
Lien Hugging Face :
https://huggingface.co/IamCreateAI/Ruyi-Mini-7B