Recentemente, a equipe de pesquisa do Meta Reality Labs, em colaboração eficiente, lançou um modelo generativo inovador chamado "Pippo", capaz de gerar um vídeo denso de rotação de até 1K de resolução a partir de uma única foto casualmente tirada. Essa tecnologia inovadora representa mais um avanço significativo no campo da visão computacional e da geração de imagens.

QQ_1739759486317.png

O núcleo do modelo Pippo reside em seu design de transformador de difusão multi-visão. Diferentemente dos modelos generativos tradicionais, o Pippo não requer nenhuma entrada adicional, como modelos de parâmetros ajustados ou parâmetros de câmera usados para capturar a imagem. O usuário precisa apenas fornecer uma foto comum, e o sistema gera automaticamente um efeito de vídeo multi-perspectiva, apresentando uma imagem mais vívida e tridimensional do assunto.

Para facilitar o uso pelos desenvolvedores, o Pippo foi lançado desta vez como uma versão somente de código, sem pesos pré-treinados. A equipe de pesquisa forneceu os modelos necessários, arquivos de configuração, código de inferência e o código de treinamento de amostra do conjunto de dados Ava-256. Os desenvolvedores podem clonar e configurar o repositório de código com comandos simples, permitindo um rápido início do treinamento e aplicação.

Os planos futuros para o projeto Pippo incluem a organização e limpeza do código, além do lançamento de scripts de inferência para modelos pré-treinados. Essas melhorias irão melhorar ainda mais a experiência do usuário e impulsionar o uso generalizado dessa tecnologia em aplicações práticas.

Projeto:https://github.com/facebookresearch/pippo

Destaques:

🌟 O modelo Pippo pode gerar vídeos multi-visão de alta resolução a partir de uma única foto comum, sem necessidade de entradas adicionais.

💻 Somente o código foi lançado, sem pesos pré-treinados. Os desenvolvedores podem treinar o modelo por conta própria e aplicá-lo.

🔍 A equipe planeja lançar mais recursos e melhorias no futuro para melhorar a experiência do usuário.