DiTCtrl
Explorar o controle de atenção em transformadores de difusão multimodais para gerar vídeos longos com múltiplas instruções sem ajuste fino.
Produto ComumVídeoGeração de vídeoMultimodal
DiTCtrl é um modelo de geração de vídeo baseado na arquitetura de transformadores de difusão multimodais (MM-DiT), focado na geração de vídeos de cenas coerentes com múltiplas instruções consecutivas sem treinamento adicional. O modelo alcança o controle semântico preciso e o compartilhamento de atenção entre diferentes instruções através da análise do mecanismo de atenção do MM-DiT, gerando vídeos com transições suaves e movimento de objetos consistente. As principais vantagens do DiTCtrl incluem a ausência de necessidade de treinamento, a capacidade de lidar com tarefas de geração de vídeo com múltiplas instruções e a capacidade de exibir efeitos de transição em estilo cinematográfico. Além disso, o DiTCtrl fornece um novo benchmark, MPVBench, especificamente para avaliar o desempenho da geração de vídeo com múltiplas instruções.