OpenAI hat kürzlich eine bemerkenswerte Ankündigung gemacht: Neben der bereits verfügbaren Videogenerierungsfunktion wird in ihrem intern getesteten Projekt Sora auch intensiv an einer Bildgenerierungsfunktion gearbeitet. Diese neue Funktion ermöglicht Nutzern einen schnellen Wechsel zwischen Video- und Bildgenerierung und erhöht so die Flexibilität beim kreativen Arbeiten.
Inneren Informationen zufolge wird Sora einen versteckten Umschaltknopf erhalten. Nutzer können in der Eingabeaufforderung zwischen den beiden Modi wechseln. Bei Auswahl der Bildgenerierung wird das System den Nutzer automatisch zur Beschreibung eines Bildes auffordern. Dieses Design soll die Benutzerfreundlichkeit verbessern und die Relevanz und Qualität der generierten Inhalte erhöhen.
Neben der verbesserten Bildgenerierungsfunktion hat Sora auch seine Video-Empfehlungen neu kategorisiert. Die neuen Kategorien „Best“ und „Top“ helfen Nutzern, Inhalte besser zu filtern und zu finden. Die Kategorie „Best“ ähnelt den aktuellen Sonderkanälen, während die Kategorie „Top“ Videos möglicherweise nach der Anzahl der Likes oder nach bestimmten Zeiträumen sortiert. Diese Änderung der Kategorisierung lässt die Nutzer gespannt auf den neuen Empfehlungsmechanismus von Sora warten.
Für DALL-E3-Nutzer ist diese Nachricht sicherlich aufregend, da DALL-E3 seit seiner Veröffentlichung etwas veraltet erscheint, insbesondere im Vergleich zu Mitbewerbern wie Midjourney. Obwohl die Bildgenerierungsfunktion von Sora noch nicht offiziell veröffentlicht wurde, hat die Kategorie „Images Internal“ in der linken Navigationsleiste bereits die Neugier der Nutzer geweckt. Derzeit wird diese Kategorie hauptsächlich für Video-Empfehlungen verwendet, könnte aber zukünftig auch Inhalte zur Bildgenerierung anbieten.
Es wird spekuliert, dass das neue Bildgenerierungsmodell DALL-E4 heißen könnte, OpenAI hat dies jedoch noch nicht bestätigt. Branchenexperten vermuten, dass der Bildgenerator in Sora nicht direkt DALL-E4 verwenden wird, sondern auf dem bestehenden „sora-turbo“-Modell basieren könnte. Darüber hinaus weisen Brancheninsider darauf hin, dass ChatGPT noch keine multimodalen Bildgenerierungsfunktionen auf Basis von GPT-4o bietet, daher ist die Einführung des Sora-Projekts ein bemerkenswerter Fortschritt.
Bemerkenswert ist, dass der Text-zu-Bild-Generator in Sora den Codenamen „papaya“ trägt, was das Projekt noch geheimnisvoller und spannender macht. Ein Jahr und ein halbes nach der Veröffentlichung von DALL-E3 stellt sich die Frage, welche Innovationen das nächste Modell bringen wird – die Neugier ist geweckt.