Récemment, OpenAI a annoncé une nouvelle remarquable : en plus de sa fonction de génération de vidéos déjà lancée, son projet interne Sora développe activement une fonction de génération d’images. Cette nouvelle fonctionnalité permettra aux utilisateurs de basculer rapidement entre la génération de vidéos et d’images, améliorant ainsi la flexibilité de la création.
Selon des informations internes, Sora ajoutera un bouton de commutation caché, que les utilisateurs pourront sélectionner dans la barre de saisie pour passer d’un mode à l’autre. Lorsqu’ils sélectionnent la génération d’images, le système invitera automatiquement les utilisateurs à décrire une image. Cette conception vise à simplifier l’utilisation et à améliorer la pertinence et la qualité du contenu généré.
Outre l’amélioration de la fonction de génération d’images, Sora a également recatégorisé ses flux vidéo. Les nouvelles catégories « Best » et « Top » aideront les utilisateurs à mieux filtrer et trouver du contenu. La catégorie « Best » est similaire aux chaînes thématiques actuelles, tandis que la catégorie « Top » classera probablement les vidéos en fonction du nombre de likes ou de la période. Ce changement de classification suscite beaucoup d’attente quant au mécanisme de recommandation de contenu de Sora.
Pour les utilisateurs de DALL-E3, cette nouvelle est sans aucun doute excitante, car DALL-E3 semble quelque peu dépassé depuis son lancement, notamment par rapport à ses concurrents comme Midjourney. Bien que la fonction de génération d’images de Sora ne soit pas encore officiellement lancée, la catégorie « Images Internal » dans la barre de navigation de gauche a suscité la curiosité des utilisateurs. Bien que cette catégorie soit actuellement principalement utilisée pour les flux vidéo, elle pourrait également proposer du contenu lié à la génération d’images à l’avenir.
Certains supposent que ce nouveau modèle de génération d’images pourrait être appelé DALL-E4, mais OpenAI n’a pas encore confirmé cette information. Des experts du secteur estiment que le générateur d’images de Sora n’utilisera peut-être pas directement DALL-E4, mais s’appuiera plutôt sur le modèle « sora-turbo » existant. De plus, des spécialistes du secteur soulignent que ChatGPT n’a pas encore lancé de fonction de génération d’images multimodales basée sur GPT-4o. Le lancement du projet Sora représente donc une nouvelle avancée notable.
Il est à noter que le générateur d’images à partir de texte de Sora est désigné par le nom de code « papaya », ce qui suscite curiosité et attente. Un an et demi après le lancement de DALL-E3, on se demande quelles innovations apportera la prochaine génération de modèles.