Lumina-T2X es un marco avanzado de generación de texto a cualquier modalidad, capaz de convertir descripciones de texto en imágenes vívidas, videos dinámicos, imágenes 3D multivista detalladas y voz sintética. El marco utiliza un transformador de difusión grande basado en flujo (Flag-DiT), admite hasta 700 millones de parámetros y puede extender la longitud de la secuencia hasta 128.000 tokens. Lumina-T2X integra imágenes, videos, vistas múltiples de objetos 3D y espectrogramas de voz en un espacio latente espacio-temporal, permitiendo generar salidas de cualquier resolución, relación de aspecto y duración.