Kürzlich hat das Forschungsteam von Meta Reality Labs in Zusammenarbeit mit hocheffizienten Partnern ein innovatives generatives Modell namens „Pippo“ veröffentlicht, das aus einem einzigen Foto ein hoch auflösendes Video mit bis zu 1K Auflösung generieren kann. Dieser Durchbruch stellt einen bedeutenden Fortschritt im Bereich Computer Vision und Bilderzeugung dar.

QQ_1739759486317.png

Das Herzstück des Pippo-Modells ist sein Multi-View-Diffusions-Transformator. Im Gegensatz zu traditionellen generativen Modellen benötigt Pippo keine zusätzlichen Eingaben, wie beispielsweise angepasste Parametermodelle oder Kameraparameter. Der Benutzer benötigt lediglich ein einzelnes Foto, um ein mehrperspektivisches Video zu generieren, das eine lebendigere und räumlichere Darstellung des Motivs ermöglicht.

Um Entwicklern die Nutzung zu erleichtern, wird Pippo zunächst als Code-only-Version ohne vorab trainierte Gewichte veröffentlicht. Das Forschungsteam stellt die notwendigen Modelldateien, Konfigurationsdateien, Inferenzcodes und Beispieltrainingscodes für den Ava-256-Datensatz bereit. Entwickler können den Code einfach klonen und einrichten, um schnell mit dem Training und der Anwendung zu beginnen.

Die zukünftigen Pläne für das Pippo-Projekt umfassen die Bereinigung und Strukturierung des Codes sowie die Einführung von Inferenz-Skripten für vorab trainierte Modelle. Diese Verbesserungen werden die Benutzerfreundlichkeit weiter steigern und die breite Anwendung dieser Technologie fördern.

Projekt:https://github.com/facebookresearch/pippo

Wichtigste Punkte:

🌟 Das Pippo-Modell generiert aus einem einzelnen Foto ein hochauflösendes Multi-View-Video ohne zusätzliche Eingaben.

💻 Es wird nur der Code veröffentlicht, keine vorab trainierten Gewichte. Entwickler können das Modell selbst trainieren und einsetzen.

🔍 Das Team plant zukünftig weitere Funktionen und Verbesserungen zur Steigerung der Benutzerfreundlichkeit.