Na Conferência Mundial de Inteligência Artificial de 2024 (WAIC), a SenseTime lançou o Vimi, um grande modelo de geração de vídeo de personagens controláveis. O modelo Vimi utiliza a tecnologia avançada de grandes modelos da SenseTime para gerar vídeos de personagens consistentes com os movimentos de destino a partir de uma única foto, permitindo controle preciso de expressões e movimentos corporais. O modelo suporta vários modos de direção, incluindo vídeo, animação, áudio e texto, possui tecnologia de rastreamento facial acumulada ao longo dos anos e capacidade de controle preciso de detalhes, podendo gerar conteúdo de vídeo de alta consistência e com harmonia de luz e sombra.
A estabilidade do Vimi é particularmente notável, podendo gerar vídeos de personagens de um único plano com mais de 1 minuto de duração, sem deterioração da qualidade da imagem com o tempo. Ele também pode ajustar a cena do ambiente de acordo com os movimentos da personagem, simulando mudanças no ângulo da câmera e movimento do cabelo, proporcionando efeitos visuais realistas. Além disso, o Vimi suporta a simulação de mudanças de luz e sombra, oferecendo aos criadores de vídeo uma ampla liberdade criativa.
A câmera Vimi, como o primeiro aplicativo C-end baseado no grande modelo Vimi, é voltada principalmente para o público feminino, atendendo às suas necessidades de criação e entretenimento. Após o upload de imagens de alta definição da personagem em diferentes ângulos, a câmera Vimi pode gerar automaticamente um avatar digital e vídeos de fotos em diferentes estilos, oferecendo uma variedade de estilos de geração. A câmera Vimi também suporta a geração de emojis de personagens divertidos a partir de uma única imagem, com diversas opções de jogo e personalização da criação.
Atualmente, a câmera Vimi está em fase de teste interno. Usuários interessados podem solicitar uma experiência seguindo a conta oficial e preenchendo o link de inscrição.