Das Team von Lu Cheng Open-Sora hat kürzlich bahnbrechende Fortschritte bei der Qualität und der Generierungsdauer von 720p HD-Videos aus Text erzielt. Sie haben nicht nur die 720p HD-Videoqualität und die Generierungsdauer revolutioniert, sondern auch den Code quelloffen bereitgestellt – die gesamte Community ist begeistert!

image.png

Ohne Übertreibung lässt sich sagen, dass ihr Open-Source-Projekt die Videogenerierung so einfach wie das Bestellen von Essen zum Mitnehmen macht. Seit seiner Vorstellung im März hat es auf GitHub bereits 17.500 Sterne gesammelt – ein riesiger Erfolg!

Open-Source-Adresse: https://github.com/hpcaitech/Open-Sora

Open-Sora kann mit einem Klick 16 Sekunden langes 720p HD-Video generieren. Ob detaillierte Porträts, beeindruckende Science-Fiction-Filme oder lebendige Animationen mit flüssigen Zoom-Effekten – alles ist problemlos möglich. Sogar Lambda Labs, ein von Nvidia finanziertes KI-Unternehmen, hat auf Basis der Open-Sora-Modellgewichte ein digitales Lego-Universum geschaffen, das Lego-Fans neue kreative Möglichkeiten bietet.

Das Lu Cheng-Team hat nicht nur die Modellgewichte quelloffen zur Verfügung gestellt, sondern auch auf GitHub die technische Roadmap veröffentlicht, damit jeder zum Experten für Videogroßmodelle werden kann. Dieser technische Bericht analysiert die Kernaspekte und die entscheidenden Punkte des Modelltrainings im Detail – von Videokompressionsnetzwerken über Diffusionsmodellalgorithmen bis hin zur Steuerbarkeit. Mit einem 1,1-Milliarden-Parameter-Diffusionsgenerierungsmodell wurden die Herausforderungen beim Training von Videomodellen gelöst.

image.png

Berichtsadresse: https://github.com/hpcaitech/Open-Sora/blob/main/docs/report_03.md

Die Einführung von Videokompressionsnetzwerken entspricht der Methode von OpenAIs Sora. Es ermöglicht eine 4-fache Komprimierung in der Zeitdimension, ohne Frames zu entfernen, sodass Videos mit der ursprünglichen FPS generiert werden können. Das Team hat auch ein einfaches Videokompressionsnetzwerk (VAE) vorgestellt, das zunächst eine 8x8-fache Komprimierung in der Raumdimension und dann eine 4-fache Komprimierung in der Zeitdimension erreicht.

Das neueste Diffusionsmodell von Stable Diffusion 3 verbessert die Generierungsqualität durch die „rectified flow“-Technologie. Das Lu Cheng-Team bietet Techniken wie das „rectified training“ und das „Logit-norm“-Zeitstufen-Sampling an, um die Modelltrainingsgeschwindigkeit zu erhöhen und die Inferenzzeit zu verkürzen.

Der Bericht enthüllt auch die Kerndetails des Modelltrainings, einschließlich Datenbereinigung, Modelloptimierungstechniken und den Aufbau eines Modellbewertungssystems. Sie bieten sogar eine Gradio-Anwendung für die einfache Bereitstellung mit Unterstützung für verschiedene Parametereinstellungen.

Die Open-Source-Veröffentlichung von Lu Cheng Open-Sora durchbricht den geschlossenen Kreislauf und belebt Innovation und Entwicklung im Bereich der Text-zu-Video-Generierung. Benutzer wandeln sich von Konsumenten zu Schöpfern, und Unternehmen erschließen neue Möglichkeiten der Eigenentwicklung.