Kürzlich wurde Goku, ein von der Universität Hongkong und ByteDance gemeinsam entwickeltes, textbasiertes Video-Generierungsmodell, offiziell veröffentlicht. Dieses Modell nutzt fortschrittliche Algorithmen, um aus Textbeschreibungen hochwertige Videoinhalte zu generieren und bereichert so die Möglichkeiten der digitalen Kunst erheblich.
Um die Leistungsfähigkeit von Goku zu demonstrieren, hat das Forschungsteam eine Reihe beeindruckender Videobeispiele erstellt, die nicht nur die technischen Fähigkeiten des Modells, sondern auch sein kreatives Potenzial unterstreichen.
Goku zeichnet sich durch seine hohe Generierungsgeschwindigkeit und Bildqualität aus. Durch das Training mit umfangreichen Datenmengen kann Goku Videos mit verschiedenen Szenarien erstellen, darunter Animationen, Naturlandschaften und Tierverhalten. Die Forscher nutzten die originalen MovieGenBench-Prompts für Tests, um die Vergleichbarkeit und Fairness der Ergebnisse sicherzustellen.
Ein Videobeispiel zeigt beispielsweise eine stilvolle Frau, die selbstbewusst durch die Straßen Tokios schlendert. Die bunten Neonlichter der Stadt bilden einen warmen Kontrast zur Nacht, und die geschäftige Atmosphäre der Straße wird lebendig und realistisch dargestellt.
Ein weiteres Video zeigt mehrere riesige Mammuts, die gemächlich durch eine verschneite Landschaft ziehen. Die umliegenden schneebedeckten Berge und Wälder lassen den Betrachter in eine eisige Welt eintauchen. Diese lebendigen Szenen fesseln nicht nur die Zuschauer, sondern liefern auch Künstlern reichlich Inspiration.
Besonders beeindruckend ist, dass Goku auch die direkte Generierung von Videos mit virtuellen Avataren unterstützt. Goku+ wandelt Text in überrealistische menschliche Videos um und übertrifft deutlich bestehende Methoden. Insbesondere kann es Videos von über 20 Sekunden Länge mit stabilen Handbewegungen und ausdrucksstarken Gesichts- und Körperbewegungen menschlicher Probanden erzeugen.
Zusätzlich unterstützt es die Generierung von Produktpräsentationsvideos aus Produktbildern und die Erstellung von Videos mit Personeninteraktionen, wobei der Produktstil erhalten bleibt. Es ist auch möglich, Werbevideos aus Text zu generieren.
Wie die Abbildung zeigt: Goku+ verwandelt Produktbilder in fesselnde Videoclips und sorgt für eine durchgängige Optimierung. Dieser Prozess steigert die Attraktivität und Effektivität Ihres Marketingmaterials.
Wie die Abbildung zeigt: Erstellung von realistischen und äußerst ansprechenden Videos, die sich speziell auf bestimmte Produkte konzentrieren. Diese Videos erfassen effektiv das Wesen des Produkts und steigern das Engagement und Interesse der Zuschauer.
Darüber hinaus unterstützt das Modell die Erstellung von maßgeschneiderten HD-Videos aus Text zur Optimierung von Werbeszenarien und übertrifft deutlich die Video-Basismodelle der Konkurrenz.
Projektseite: https://saiyan-world.github.io/goku/
Highlights:
🌟 Das Goku-Modell wurde von der Universität Hongkong und ByteDance gemeinsam entwickelt und generiert aus Textbeschreibungen hochwertige Videoinhalte.
🎨 Das Modell zeigt verschiedene Szenarien, darunter eine stilvolle Frau, die durch Tokio schlendert, und riesige Mammuts in einer verschneiten Landschaft. Die Ergebnisse sind lebendig und realistisch.
💡 Die Veröffentlichung des Goku-Modells bietet neue Werkzeuge für die visuelle Kunst und hilft Künstlern, neue Möglichkeiten zu erkunden.