Tora é um modelo de geração de vídeo baseado em transformadores de difusão (DiT), que permite o controle preciso da dinâmica do conteúdo de vídeo através da integração de condições de texto, visão e trajetória. O design da Tora aproveita a escalabilidade do DiT, permitindo a geração de conteúdo de vídeo de alta qualidade em diferentes durações, proporções e resoluções. O modelo apresenta excelente desempenho em fidelidade de movimento e simulação de movimento do mundo físico, oferecendo novas possibilidades para a criação de conteúdo de vídeo.