En la Conferencia Mundial de Inteligencia Artificial (WAIC) de 2024, SenseTime presentó Vimi, un gran modelo de generación de video de personajes controlables. Vimi utiliza la avanzada tecnología de modelos grandes de SenseTime para generar videos de personajes con movimientos consistentes a partir de una sola foto, logrando un control preciso de las expresiones faciales y los movimientos corporales. Este modelo admite múltiples métodos de control, incluyendo video, animación, audio y texto, y cuenta con una tecnología de seguimiento facial de muchos años de desarrollo y una capacidad de control preciso de los detalles, capaz de generar contenido de video de alta coherencia y armonía lumínica.
La estabilidad de Vimi es particularmente destacada, pudiendo generar videos de personajes de un minuto o más de duración con una sola toma, sin que la calidad de la imagen se deteriore con el tiempo. También puede ajustar la escena del entorno según los movimientos del personaje, simular cambios en el ángulo de la cámara y el movimiento del cabello, ofreciendo efectos visuales realistas. Además, Vimi admite la simulación de cambios de luz y sombra, ofreciendo a los creadores de video una amplia libertad creativa.
Vimi Camera, como la primera aplicación para el consumidor final basada en el gran modelo Vimi, está dirigida principalmente a mujeres, satisfaciendo sus necesidades de creación y entretenimiento. Después de cargar imágenes de alta resolución del personaje desde diferentes ángulos, Vimi Camera puede generar automáticamente un avatar digital y videos de retratos de diferentes estilos, ofreciendo una variedad de estilos de generación. Vimi Camera también admite la generación de divertidos emoticonos de personajes a partir de una sola imagen, ofreciendo diversas opciones de juego y permitiendo la creación personalizada.
Actualmente, Vimi Camera está en fase de prueba interna. Los usuarios interesados pueden solicitar una prueba registrándose en la cuenta pública y completando el enlace de reserva.