Sora es un modelo de difusión de generación de video controlado por texto, entrenado con un conjunto de datos a gran escala. Es capaz de generar videos de alta definición de hasta un minuto de duración, abarcando una amplia gama de tipos de datos visuales y resoluciones. Sora logra la generación de video escalable mediante el entrenamiento en un espacio latente comprimido de videos e imágenes, descomponiéndolo en parches de posición espacio-temporales. Sora también muestra capacidades para simular aspectos del mundo físico y digital, como la consistencia y la interacción tridimensional, lo que revela el potencial de escalar aún más los modelos de generación de video para desarrollar simuladores de alta capacidad.