HPC-AI Tech hat kürzlich Open-Sora2.0 vorgestellt, ein bahnbrechendes Video-KI-System, das mit nur etwa einem Zehntel der typischen Trainingskosten kommerzielle Qualität erreicht. Dieser Fortschritt markiert eine mögliche Paradigmenverschiebung im ressourcenintensiven Bereich der Video-KI, vergleichbar mit den Effizienzsteigerungen bei Sprachmodellen.
Während bestehende hochwertige Videosysteme wie Movie Gen und Step-Video-T2V Trainingskosten von mehreren Millionen Dollar verursachen können, belaufen sich die Trainingskosten von Open-Sora2.0 auf nur etwa 200.000 Dollar. Trotz der drastisch reduzierten Kosten zeigen Tests, dass die Ausgabequalität mit etablierten kommerziellen Systemen wie Runway Gen-3Alpha und HunyuanVideo vergleichbar ist. Das System wurde mit 224 Nvidia H200-GPUs trainiert.
Hinweis: „Zwei Frauen sitzen auf einem beigen Sofa in einem gemütlichen, warm eingerichteten Raum mit Ziegelwand im Hintergrund. Sie unterhalten sich fröhlich, lächeln und stoßen in einer intimen Halbnahaufnahme mit ihren Gläsern auf Rotwein an.“ | Video: HPC-AI Tech
Open-Sora2.0 erreicht seine Effizienz durch einen neuartigen dreistufigen Trainingsprozess, der mit Videos niedriger Auflösung beginnt und diese schrittweise auf höhere Auflösungen verfeinert. Die Integration vorab trainierter Bildmodelle wie Flux optimiert die Ressourcennutzung weiter. Der Kern ist ein Video-DC-AE-Autoencoder, der im Vergleich zu traditionellen Methoden eine überragende Kompressionsrate bietet. Diese Innovation führt zu einer bemerkenswerten 5,2-fach schnelleren Trainingsgeschwindigkeit und einer über zehnfach schnelleren Videogenerierungsgeschwindigkeit. Obwohl die höhere Kompressionsrate zu geringfügig weniger Details in der Ausgabe führt, beschleunigt sie den Videokreationsprozess erheblich.
Hinweis: „Eine Tomate surft auf einem Salatblatt einen Ranch-Sauce-Wasserfall hinunter. Übertriebene Surfbewegungen und weiche Wellen betonen den Spaß der 3D-Animation.“ | Video: HPC-AI Tech
Das Open-Source-System kann Videos aus Textbeschreibungen und einzelnen Bildern generieren und ermöglicht Benutzern mithilfe einer Bewegungsbewertungsfunktion die Steuerung der Bewegungsintensität in den generierten Clips. Die von HPC-AI Tech bereitgestellten Beispiele zeigen verschiedene Szenarien, darunter realistische Dialoge und fantasievolle Animationen.
Open-Sora2.0 ist jedoch derzeit in Bezug auf Auflösung (768x768 Pixel) und maximale Videolänge (5 Sekunden oder 128 Frames) eingeschränkt und fällt hinter den Funktionen führender Modelle wie OpenAIs Sora zurück. Dennoch nähert sich seine Leistung in Schlüsselbereichen wie visueller Qualität, Genauigkeit der Eingabeaufforderungen und Bewegungsverarbeitung dem kommerziellen Standard an. Bemerkenswert ist, dass der VBench-Score von Open-Sora2.0 jetzt nur noch 0,69 % hinter OpenAIs Sora liegt, eine deutliche Verbesserung gegenüber der vorherigen Differenz von 4,52 %.
Hinweis: „Eine Gruppe anthropomorpher Pilze veranstaltet eine Disco-Party in einem dunklen Zauberwald mit blinkenden Neonlichtern und übertriebenen Tanzbewegungen. Ihre glatten Texturen und reflektierenden Oberflächen betonen das komische 3D-Aussehen.“ | Video: HPC-AI Tech
Die kosteneffiziente Strategie von Open-Sora2.0 erinnert an den „Deepseek-Moment“ bei Sprachmodellen, als verbesserte Trainingsmethoden es Open-Source-Systemen ermöglichten, kommerzielle Leistung zu deutlich geringeren Kosten als kommerzielle Systeme zu erzielen. Diese Entwicklung könnte den Preis im Bereich der Video-KI, der derzeit aufgrund des hohen Rechenbedarfs nach Sekunden berechnet wird, nach unten drücken.
Vergleich der Trainingskosten: Open-Sora2.0 benötigt etwa 200.000 Dollar, Movie Gen 2.500.000 Dollar und Step-Video-T2V 1.000.000 Dollar. | Bild: HPC-AI Tech
Trotz dieses Fortschritts ist die Leistungslücke zwischen Open-Source- und kommerziellen Video-KIs immer noch größer als bei Sprachmodellen, was die anhaltenden technologischen Herausforderungen in diesem Bereich verdeutlicht. Open-Sora2.0 ist jetzt als Open-Source-Projekt auf GitHub verfügbar.