Recientemente, el equipo de investigación de Meta Reality Labs, en colaboración con otros, publicó un innovador modelo generativo llamado "Pippo", capaz de generar un video de alta resolución (1K) a partir de una sola fotografía. Este avance representa un salto significativo en el campo de la visión artificial y la generación de imágenes.
El núcleo de Pippo reside en su diseño de transformador de difusión multivista. A diferencia de los modelos generativos tradicionales, Pippo no requiere entradas adicionales, como modelos de parámetros ajustados o parámetros de cámara. Solo se necesita una fotografía; el sistema genera automáticamente un video multiperspectiva, ofreciendo una representación más vívida y tridimensional del sujeto.
Para facilitar su uso por parte de los desarrolladores, Pippo se lanza como una versión de código únicamente, sin pesos preentrenados. El equipo de investigación proporciona el modelo necesario, archivos de configuración, código de inferencia y código de ejemplo de entrenamiento con el conjunto de datos Ava-256. Los desarrolladores pueden clonar y configurar el repositorio con comandos sencillos para empezar a entrenar y aplicar el modelo rápidamente.
Los planes futuros para el proyecto Pippo incluyen la organización y limpieza del código, así como el lanzamiento de scripts de inferencia para modelos preentrenados. Estas mejoras mejorarán aún más la experiencia del usuario y promoverán el uso generalizado de esta tecnología en aplicaciones reales.
Proyecto:https://github.com/facebookresearch/pippo
Puntos clave:
🌟 Pippo genera videos multivista de alta resolución a partir de una sola foto, sin necesidad de entradas adicionales.
💻 Se publica solo el código, sin pesos preentrenados; los desarrolladores pueden entrenar el modelo y aplicarlo por sí mismos.
🔍 El equipo planea lanzar más funciones y mejoras para mejorar la experiencia del usuario.