Lumina-T2X est un framework avancé de génération de texte vers n'importe quel mode, capable de convertir des descriptions textuelles en images vivantes, vidéos dynamiques, images 3D multivues détaillées et synthèse vocale. Ce framework utilise un grand transformateur de diffusion basé sur le flux (Flag-DiT), prenant en charge jusqu'à 700 millions de paramètres et pouvant étendre la longueur de la séquence jusqu'à 128 000 jetons. Lumina-T2X intègre les images, les vidéos, les vues multiples d'objets 3D et les spectrogrammes vocaux dans un espace latent spatio-temporel, permettant de générer des sorties de résolution, de ratio hauteur/largeur et de durée arbitraires.