Recentemente, a equipe de pesquisa do Meta Reality Labs, em colaboração eficiente, lançou um modelo generativo inovador chamado "Pippo", capaz de gerar um vídeo denso de rotação de até 1K de resolução a partir de uma única foto casualmente tirada. Essa tecnologia inovadora representa mais um avanço significativo no campo da visão computacional e da geração de imagens.
O núcleo do modelo Pippo reside em seu design de transformador de difusão multi-visão. Diferentemente dos modelos generativos tradicionais, o Pippo não requer nenhuma entrada adicional, como modelos de parâmetros ajustados ou parâmetros de câmera usados para capturar a imagem. O usuário precisa apenas fornecer uma foto comum, e o sistema gera automaticamente um efeito de vídeo multi-perspectiva, apresentando uma imagem mais vívida e tridimensional do assunto.
Para facilitar o uso pelos desenvolvedores, o Pippo foi lançado desta vez como uma versão somente de código, sem pesos pré-treinados. A equipe de pesquisa forneceu os modelos necessários, arquivos de configuração, código de inferência e o código de treinamento de amostra do conjunto de dados Ava-256. Os desenvolvedores podem clonar e configurar o repositório de código com comandos simples, permitindo um rápido início do treinamento e aplicação.
Os planos futuros para o projeto Pippo incluem a organização e limpeza do código, além do lançamento de scripts de inferência para modelos pré-treinados. Essas melhorias irão melhorar ainda mais a experiência do usuário e impulsionar o uso generalizado dessa tecnologia em aplicações práticas.
Projeto:https://github.com/facebookresearch/pippo
Destaques:
🌟 O modelo Pippo pode gerar vídeos multi-visão de alta resolução a partir de uma única foto comum, sem necessidade de entradas adicionais.
💻 Somente o código foi lançado, sem pesos pré-treinados. Os desenvolvedores podem treinar o modelo por conta própria e aplicá-lo.
🔍 A equipe planeja lançar mais recursos e melhorias no futuro para melhorar a experiência do usuário.