MiniMax hat kürzlich still und heimlich sein erstes großes Video-Generierungsmodell veröffentlicht und gleichzeitig das mit diesem Modell erstellte 2-minütige Video „Magischer Münze“ vorgestellt. Obwohl das Unternehmen die genauen Parameter und technischen Details des Modells noch nicht öffentlich gemacht hat, erklärte Gründer Yan Junjie in einem Medieninterview, dass die Ergebnisse der Videogenerierung besser seien als die von Runway.
Yan Junjie verriet, dass es sich bei der aktuellen Veröffentlichung nur um die erste Version des Modells handelt und dass in Zukunft kontinuierliche Iterationen in Bezug auf Daten, Algorithmen und Nutzungsdetails erfolgen werden. Neben der bestehenden Funktion zur Text-zu-Video-Generierung sollen in Zukunft auch Funktionen zur Bild-zu-Video-Generierung und zur kombinierten Text-Bild-Video-Generierung hinzugefügt werden. Zu den Plänen zur Kommerzialisierung sagte Yan Junjie, dass diese erst in Betracht gezogen würden, wenn eine zufriedenstellende Version erreicht sei.
Im Vergleich zu Kuaishou Keling erscheint das Video-Generierungsmodell von MiniMax ein bis zwei Monate später. Yan Junjie erklärte dies damit, dass das Team sich mit besonders herausfordernden technischen Problemen beschäftigt habe, insbesondere mit der Frage, wie man ressourcenintensive Inhalte trainiert. Er betonte, dass die Kernidee der MiniMax-Forschung auf der Suche nach signifikanten Leistungssteigerungen und nicht nur nach kleinen Verbesserungen beruhe.
Bildquelle: Das Bild wurde mit KI generiert, Bildrechte liegen bei Midjourney.
Yan Junjie ist der Ansicht, dass die Hauptmotivation für die Entwicklung der Video-Generierungsfähigkeit darin besteht, die Benutzerreichweite und -akzeptanz zu erhöhen. Er wies darauf hin, dass der tägliche Medienkonsum von Menschen hauptsächlich aus Text und Bildern sowie Videos besteht, daher sei die Generierung multimodaler Inhalte ein unvermeidlicher Entwicklungspfad.
Die Entwicklung großer Video-Generierungsmodelle steht jedoch vor zahlreichen Herausforderungen. Yan Junjie erklärte, dass die Komplexität der Videogenerierung weit höher ist als die von Text, einschließlich der Verarbeitung langer Kontexte, des enormen Speicherbedarfs und der Notwendigkeit von Infrastruktur-Upgrades.
Wei Weiye, Leiter der MiniMax-Open-Plattform, wies darauf hin, dass die wichtigsten Herausforderungen für aktuelle große Modelle die unvermeidlichen Halluzinationen, die hohen Nutzungskosten und die Entwicklung multimodaler Anwendungen sind. Er ist der Ansicht, dass mit sinkenden API-Kosten mehr Anwendungsszenarien entstehen werden.
Zu den vielen Kontroversen in der Branche, wie z. B. der Frage nach B2B oder B2C, dem inländischen oder dem ausländischen Markt, erklärte Yan Junjie, dass MiniMax einen optimistischen Ausblick auf den technischen Fortschritt, die Nutzer und die Effizienz der Produktentwicklung hat.