Pippo foi desenvolvido em colaboração entre a Meta Reality Labs e várias universidades. Ele consegue gerar vídeos em alta resolução (1K) com múltiplas perspectivas a partir de uma única foto comum, sem necessidade de entradas adicionais, como modelos paramétricos ou parâmetros de câmera. Sua principal vantagem é a capacidade de gerar vídeos de alta qualidade sem entradas extras. Baseado em uma arquitetura de transformador de difusão multi-perspectiva, ele apresenta amplas aplicações em realidade virtual, produção cinematográfica e outros setores. O código-fonte do Pippo está disponível publicamente (open source), mas não inclui os pesos pré-treinados; os usuários precisam treinar o modelo por conta própria.