Noch immer schrecken die Millionen-Dollar-Kosten für Videogenerierungsmodelle ab? Glauben Sie, dass KI-Videoproduktion nur etwas für Großkonzerne ist? Die Open-Source-Community beweist heute das Gegenteil: „Nein!“. Ein neues Open-Source-Modell namens Open-Sora 2.0 erobert den Markt und revolutioniert die „kostenintensive“ Videogenerierung.
Unglaublich, aber wahr: Dieses 11-Milliarden-Parameter-Modell, dessen Leistung an kommerzielle Standards heranreicht, wurde mit nur 200.000 US-Dollar (224 GPUs) trainiert! Im Vergleich dazu wirken die geschlossenen Modelle mit ihren Millionen-Dollar-Entwicklungskosten geradezu unwirtschaftlich!
Die Veröffentlichung von Open-Sora 2.0 ist eine „Revolution für jedermann“ im Bereich der Videogenerierung. Es bietet nicht nur eine Leistung, die mit – oder sogar über – Millionen-Dollar-Modellen liegt, sondern veröffentlicht auch Modellgewichte, Inferenzcode und den gesamten Trainingsprozess völlig offen. Dies öffnet die „Büchse der Pandora“ für qualitativ hochwertige Videoproduktion. Die einst unerreichbare KI-Videogenerierungstechnologie ist jetzt für jeden zugänglich, und jeder kann an dieser aufregenden Welle der Kreativität teilhaben!
GitHub Open-Source-Repository: https://github.com/hpcaitech/Open-Sora
1. Leistungsstarke Fähigkeiten: Bilder sprechen mehr als tausend Worte – Daten belegen es
1.1 Beeindruckende Ergebnisse! Open-Sora 2.0 Video-Demo
Taten statt Worte! Wie beeindruckend sind die Ergebnisse von Open-Sora 2.0? Sehen Sie selbst die Demo-Videos:
Perfekte Kameraführung! Präzise Bewegungssteuerung: Ob detaillierte Personenbewegungen oder die Inszenierung groß angelegter Szenen – Open-Sora 2.0 steuert die Bewegungsabläufe wie ein professioneller Regisseur präzise, die Bildqualität ist hervorragend!
Atemberaubende Bildqualität! Flüssige Wiedergabe: Mit einer Auflösung von 720p und einer stabilen Bildrate von 24 FPS sind die von Open-Sora 2.0 generierten Videos in Bezug auf Schärfe und flüssige Wiedergabe makellos und übertreffen vergleichbare Produkte auf dem Markt – ein visuelles Erlebnis der Extraklasse!
Vielseitige Szenen! Umfassende Fähigkeiten: Idyllische Landschaften, nächtliche Stadtansichten, Science-Fiction-Welten… Open-Sora 2.0 meistert mühelos komplexe Szenen mit unglaublich detaillierten Bildern und einer flüssigen, natürlichen Kameraführung – ein wahrer „Da Vinci der KI-Welt“!
1.2 „David gegen Goliath“ der Parameter: Leistung auf Augenhöhe mit Closed-Source-Giganten
Open-Sora 2.0 ist kein „Schönheitsfehler“, sondern verfügt über echte technische Substanz. Mit nur 11 Milliarden Parametern entfaltet es eine erstaunliche Leistung und erzielt in den Benchmark-Tests von VBench und in subjektiven Benutzerbewertungen herausragende Ergebnisse, die mit denen von HunyuanVideo und 30B Step-Video mithalten können – ein Paradebeispiel für „David gegen Goliath“!
Benutzer entscheiden! Präferenzbewertungen setzen sich durch: In den drei Dimensionen visuelle Effekte, Textkonsistenz und Bewegungsdarstellung übertrifft Open-Sora 2.0 in mindestens zwei Bereichen das Open-Source-SOTA-Modell HunyuanVideo und schlägt sogar kommerzielle Modelle wie Runway Gen-3Alpha. Es beweist, dass „günstige Qualität“ möglich ist!
VBench-Ranking „Bestätigung der Leistung“, Leistung nähert sich der Spitze: Im VBench-Ranking, dem wichtigsten Ranking im Bereich der Videogenerierung, zeigt Open-Sora 2.0 eine beeindruckende Entwicklung. Vom 1.2 zum 2.0-Release verringerte sich die Leistungsdifferenz zum geschlossenen OpenAI Sora-Modell von 4,52 % auf 0,69 %, was praktisch vernachlässigbar ist! Noch beeindruckender ist, dass Open-Sora 2.0 im VBench-Test die Punktzahl von Tencent HunyuanVideo übertrifft und damit erneut seinen großen Vorteil in Bezug auf „geringe Investition, hoher Ertrag“ unter Beweis stellt. Es setzt einen neuen Meilenstein für Open-Source-Videogenerierungstechnologie!
2. Die Entstehungsgeschichte mit niedrigen Kosten: Der technische Code hinter Open Source
Seit seiner Open-Source-Veröffentlichung hat sich Open-Sora aufgrund seiner effizienten und hochwertigen Videogenerierungsfähigkeiten schnell zu einem „Liebling“ der Open-Source-Community entwickelt. Die damit verbundene Herausforderung bestand darin, den „hohen Kosten“ der qualitativ hochwertigen Videogenerierung zu begegnen und mehr Menschen die Teilnahme zu ermöglichen. Das Open-Sora-Team hat diese Herausforderung angenommen und durch eine Reihe von technischen Innovationen die Modelltrainingkosten um das 5- bis 10-fache gesenkt! Die Millionen-Dollar-Trainingskosten auf dem Markt wurden von Open-Sora 2.0 mit nur 200.000 US-Dollar bewältigt – der „König des Preis-Leistungs-Verhältnisses“ in der Open-Source-Welt!
Open-Sora hat nicht nur den Modellcode und die Gewichte veröffentlicht, sondern auch großzügig den gesamten Trainingscode veröffentlicht und so ein lebendiges Open-Source-Ökosystem geschaffen. In nur einem halben Jahr hat Open-Sora fast hundert Zitate in wissenschaftlichen Arbeiten erhalten und belegt einen Spitzenplatz in der weltweiten Open-Source-Einflussrangliste. Es übertrifft alle Open-Source-I2V/T2V-Videogenerierungsprojekte und ist der unbestrittene „Spitzenreiter“ der Open-Source-Videogenerierung.
2.1 Modellarchitektur: Tradition und Innovation
Die Modellarchitektur von Open-Sora 2.0 baut auf den Stärken der Version 1.2 auf und integriert gleichzeitig mutige Innovationen: Der 3D-Autoencoder und das Flow-Matching-Trainingsframework wurden beibehalten, ebenso wie der Multi-Bucket-Trainingsmechanismus, um sicherzustellen, dass das Modell Videos unterschiedlicher Länge und Auflösung verarbeiten kann. Gleichzeitig wurden mehrere „Hightech“-Funktionen eingeführt, um die Videogenerierungsfähigkeit weiter zu verbessern:
3D-Voll-Aufmerksamkeitsmechanismus: Präzisere Erfassung von Zeit- und Raum-Informationen in Videos, für flüssigere und detailliertere Videos.
MMDiT-Architektur „Unterstützung“: Genauere Interpretation des Zusammenhangs zwischen Textanweisungen und Videoinhalten, für präzisere und passendere Text-zu-Video-Ergebnisse.
Modellgröße auf 11 Milliarden erweitert: Eine größere Modellkapazität bedeutet eine höhere Lernfähigkeit und ein größeres Potenzial für die Generierung, was sich in einer verbesserten Videoqualität niederschlägt.
FLUX-Modell „Basis“, Trainings-Effizienz „verbessert“: Durch die Übernahme der erfolgreichen Erfahrungen des Open-Source-Bild-zu-Video-Modells FLUX bei der Modellinitialisierung werden Trainingszeit und -kosten erheblich reduziert, wodurch die Trainingseffizienz des Modells „in die Höhe schießt“.
2.2 Effizientes Trainings-Geheimnis: Open-Source-Gesamtprozess, Kostenreduzierung
Um die Trainingskosten auf ein „Minimum“ zu drücken, hat Open-Sora 2.0 in Bezug auf Daten, Rechenleistung und Strategien umfassende Vorbereitungen getroffen und gilt als „Experte für Kosteneinsparung“ im Open-Source-Bereich:
Daten „sorgfältig ausgewählt“, Qualität „ausgezeichnet“: Das Open-Sora-Team weiß, dass „Müll rein, Müll raus“ ist, und hat die Trainingsdaten gründlich gesichtet, um sicherzustellen, dass jede einzelne Datenquelle von höchster Qualität ist und die Effizienz des Modelltrainings von Grund auf verbessert wird. Mehrstufige Datenfilterungsmechanismen in Kombination mit verschiedenen „Hightech“-Filtern verbessern die Qualität der Videodaten und liefern dem Modelltraining den besten „Brennstoff“.
Rechenleistung „ökonomisch eingesetzt“, Training mit niedriger Auflösung „Vorreiter“: Das Training von Videos mit hoher Auflösung ist weitaus teurer als das Training von Videos mit niedriger Auflösung, wobei die Rechenleistung um bis zu 40-mal höher sein kann! Open-Sora 2.0 umgeht geschickt den „direkten Vergleich“ und führt zunächst ein Training mit niedriger Auflösung durch, um die Bewegungsinformationen in Videos effizient zu lernen. Dies reduziert die Kosten erheblich und stellt gleichzeitig sicher, dass das Modell die „Kernfähigkeiten“ der Videogenerierung beherrscht – ein wahres „Mehr mit weniger“.
Strategien „flexibel und vielseitig“, Bild-zu-Video-„Umweg“: Open-Sora 2.0 hat nicht von Anfang an versucht, das Training von Videos mit hoher Auflösung zu „knacken“, sondern hat eine intelligentere „Umgehungsstrategie“ gewählt – zunächst Bild-zu-Video-Modelle zu trainieren, um die Konvergenzgeschwindigkeit des Modells zu beschleunigen. Es hat sich gezeigt, dass Bild-zu-Video-Modelle bei der Erhöhung der Auflösung eine schnellere Konvergenzgeschwindigkeit und geringere Trainingskosten aufweisen – ein „zweifacher Gewinn“. In der Inferenzphase unterstützt Open-Sora 2.0 auch den Modus „Text-zu-Bild-zu-Video“ (T2I2V), bei dem Benutzer zunächst hochwertige Bilder aus Text generieren und diese dann in Videos umwandeln können, um feinere visuelle Effekte zu erzielen – „viele Wege führen nach Rom“.
Parallelisierung des Trainings „volle Kraft voraus“, Auslastung der Rechenleistung „bis zum letzten Tropfen“: Open-Sora 2.0 weiß, dass „ein Faden kein Netz macht“ und verwendet eine effiziente Parallelisierungsstrategie für das Training. Es wird mit ColossalAI und Systemoptimierungstechnologien „bis an die Zähne bewaffnet“, um die Auslastung der Rechenressourcen zu maximieren, die GPU-Cluster „auf Hochtouren“ laufen zu lassen und ein effizienteres Videogenerierungstraining zu ermöglichen. Eine Reihe von „Hightech“-Funktionen verbessert die Trainingseffizienz von Open-Sora 2.0 und senkt die Kosten erheblich:
Sequentielle Parallelisierung + ZeroDP: Optimierung der verteilten Rechenleistung für große Modelle, um „viele Hände machen schnell ein Ende“ zu erreichen.
Feinkörniges Gradienten-Checkpointing: Reduzierung des Speicherbedarfs bei gleichzeitiger Aufrechterhaltung der Rechenleistung, um „sparen und effizient sein“ zu erreichen.
Automatischer Wiederherstellungsmechanismus für das Training: Sicherung von mehr als 99 % der effektiven Trainingszeit, Reduzierung von Ressourcenverschwendung, um „Stabilität und Zuverlässigkeit“ zu gewährleisten.
Effizientes Datenladen + Speicherverwaltung: Optimierung der E/A-Operationen, Vermeidung von Trainingsblockaden, Beschleunigung des Trainingsprozesses, um „schnelles Vorankommen“ zu erreichen.
Asynchrone Modell-Speicherung: Reduzierung von Störungen des Trainings durch die Modell-Speicherung, Erhöhung der GPU-Auslastung, um „Multitasking“ zu erreichen.
Operator-Optimierung: Tiefe Optimierung wichtiger Rechenmodule, um den Trainingsprozess zu beschleunigen und „Geschwindigkeit und Effizienz“ zu erzielen.
Durch diese kombinierten Optimierungsmaßnahmen findet Open-Sora 2.0 die perfekte Balance zwischen hoher Leistung und niedrigen Kosten und senkt die Einstiegshürde für das Training von qualitativ hochwertigen Videogenerierungsmodellen erheblich, sodass mehr Menschen an diesem technischen Fest teilnehmen können.
2.3 Hochkomprimierter AE „Assistent“, Inferenzgeschwindigkeit „weiter beschleunigt“
Niedrige Trainingskosten allein reichen nicht aus, die Inferenzgeschwindigkeit muss ebenfalls verbessert werden! Open-Sora 2.0 zielt auf die Zukunft und erforscht die Anwendung von hochkomprimierten Video-Autoencodern (AE), um die Inferenzkosten weiter zu senken und die Geschwindigkeit der Videogenerierung zu erhöhen. Derzeit verwenden gängige Videomodelle 4×8×8-Autoencoder. Die Generierung eines 768px-Videos mit einer Länge von 5 Sekunden dauert auf einer einzelnen Karte fast 30 Minuten. Die Inferenzeffizienz muss dringend verbessert werden. Open-Sora 2.0 trainierte einen hochkomprimierten (4×32×32) Video-Autoencoder, der die Inferenzzeit auf weniger als 3 Minuten pro Karte verkürzt – eine 10-fache Geschwindigkeitssteigerung! Eine „Lichtgeschwindigkeit“-Generierung!
Hochkomprimierte Encoder sind zwar gut, aber ihr Training ist sehr schwierig. Das Open-Sora-Team hat diese Herausforderung angenommen und durch die Einführung von Residualverbindungen in das Video-Upsampling- und -Downsampling-Modul erfolgreich einen VAE trainiert, dessen Rekonstruktionsqualität mit der von SOTA-Videokompressionsmodellen vergleichbar ist und der eine höhere Kompressionsrate aufweist. Dies bildet die Grundlage für eine effiziente Inferenz. Um die Probleme des hohen Datenbedarfs und der hohen Konvergenzschwierigkeiten beim Training von hochkomprimierten Autoencodern zu lösen, schlug Open-Sora auch eine optimierte Strategie basierend auf Destillation vor und verwendete bereits trainierte hochwertige Modelle zur Initialisierung, um den Daten- und Zeitaufwand zu reduzieren. Gleichzeitig wird der Schwerpunkt auf das Training von Bild-zu-Video-Aufgaben gelegt, wobei die Bildmerkmale die Videogenerierung leiten, um die Konvergenz von hochkomprimierten Autoencodern zu beschleunigen und schließlich ein „Win-Win“ für Inferenzgeschwindigkeit und Generierungsqualität zu erzielen.
Das Open-Sora-Team ist davon überzeugt, dass hochkomprimierte Video-Autoencoder ein wichtiger zukünftiger Entwicklungsschwerpunkt der Videogenerierungstechnologie sein werden. Die ersten experimentellen Ergebnisse zeigen bereits eine erstaunliche Beschleunigung der Inferenz. Sie hoffen, damit mehr Community-Mitglieder zu gewinnen, um gemeinsam das Potenzial von hochkomprimierten Video-Autoencodern zu erforschen, die Entwicklung effizienter und kostengünstiger Videogenerierungstechnologien voranzutreiben und die KI-Videoproduktion für jedermann zugänglich zu machen.
3. Open-Source-Sammelruf! Gemeinsam auf eine neue Reise in die KI-Videorevolution
Heute wird Open-Sora 2.0 offiziell als Open Source veröffentlicht! Wir laden Entwickler, Forschungseinrichtungen und KI-Enthusiasten weltweit herzlich ein, sich der Open-Sora-Community anzuschließen, gemeinsam aufzubauen und die Welle der KI-Videorevolution voranzutreiben, damit die Zukunft der Videoproduktion offener, zugänglicher und spannender wird!
GitHub Open-Source-Repository: https://github.com/hpcaitech/Open-Sora
Technischer Bericht:
https://github.com/hpcaitech/Open-Sora-Demo/blob/main/paper/Open_Sora_2_tech_report.pdf