Der diesjährige Jahresende hat die chinesischen Videoproduzenten in einen regelrechten Wettlauf versetzt! Gestern sorgte Tongyi Wanxiang mit der erstmaligen Generierung von Videos mit chinesischen Schriftzeichen für Aufsehen unter KI-Schöpfern. Heute legt Haoluo AI mit einer neuen Funktion zur Hauptreferenzierung nach und hebt die KI-Videoproduktion auf eine neue Stufe. Benutzer müssen lediglich ein Bild hochladen, um beliebige Charaktere in verschiedenen Szenen frei bewegen zu lassen. Dabei wird eine hohe Wiedergabetreue beibehalten, ohne die kreative Freiheit einzuschränken.
Wie die Beiträge von Schöpfern in sozialen Medien zeigen, bleiben die Charaktere – egal ob Spiderman auf einem Motorrad oder Daenerys Targaryen aus „Game of Thrones“, die mit einem Wolf im Wald interagiert – stets detailgetreu und stabil.
Im Vergleich zu herkömmlichen Bild-zu-Video-Technologien verfolgt „Hauptreferenzierung“ einen völlig anderen technischen Ansatz. Es werden nicht einfach nur lokale Bewegungen aus statischen Bildern generiert, sondern auf Basis von Textaufforderungen (Prompts) komplette Videoclips erstellt.
Wie in den vom Unternehmen bereitgestellten Videos zu sehen ist, kann das System nach dem Hochladen eines Fotos einer Person nicht nur die Gesichtszüge erhalten, sondern die Person auch in natürlichen, zusammenhängenden Bewegungen in der Szene darstellen lassen, z. B. Skateboard fahren, Rad fahren, die Augenbrauen hochziehen, die Stirn runzeln usw. Der Ausdruck der Gesichtsmimik ist dabei sehr lebendig und detailliert.
Auf technischer Ebene hat sich Haoluo AI für einen bildbasierten Ansatz entschieden, anstatt der herkömmlichen LoRA-Technologie. Dadurch benötigen Benutzer keine große Menge an Material; ein einzelnes Bild reicht aus, um die Merkmale einer Person präzise zu erkennen und wiederzugeben. Wichtiger noch: Die Generierungsgeschwindigkeit wurde deutlich verbessert und verkürzt sich von langer Wartezeit auf Sekundenantworten.
Der wirtschaftliche Wert dieser Technologie ist ebenfalls nicht zu unterschätzen. Laut Statista wird der Markt für generative KI-Produkte im Bereich Werbung und Marketing bis 2028 voraussichtlich 107,5 Milliarden US-Dollar erreichen. Die „Hauptreferenzierungs“-Funktion passt perfekt zu dieser Marktnachfrage, insbesondere bei der Erstellung von Produktwerbung: Ein einziges Foto eines Models genügt, um mehrere Versionen von Videoinhalten für verschiedene Produktszenarien zu generieren.
Als erst vor drei Jahren gegründetes Startup hat MiniMax mit Haoluo AI eine führende Position im globalen Bereich der KI-Videogenerierung eingenommen. Weltweit gibt es derzeit nur Haoluo AI, Keling AI und Jimeng AI, die echte technische Kompetenz und Entwicklungspotenzial zeigen. Dies markiert den Aufstieg chinesischer Unternehmen im globalen Bereich der KI-Videogenerierung.
Zukünftig plant Haoluo AI, die „Hauptreferenzierungs“-Funktion auf mehrere Personen, Objekte und Szenen auszuweiten, um das kreative Potenzial weiter zu entfalten. Mit dem bevorstehenden Übergang der KI-Videogenerierung in die zweite Hälfte bietet diese Technologie den Schöpfern zweifellos neue Möglichkeiten und lässt die Vision „Jeder Gedanke ist ein Blockbuster“ immer mehr Realität werden.
Testversion: https://hailuoai.com/video/create