Dans les dernières nouvelles du monde de la technologie, OpenAI vient d'annoncer l'intégration de son générateur d'images le plus avancé à ce jour dans son dernier modèle, GPT-4o. Sam Altman, PDG d'OpenAI, a exprimé son étonnement sur la plateforme de médias sociaux X en partageant son expérience de la première image générée par le modèle, la qualifiant d'incroyable et encourageant les utilisateurs à laisser libre cours à leur créativité.
Les points forts de cette nouvelle fonctionnalité incluent :
- Une capacité à restituer précisément le contenu textuel, offrant des images de haute qualité.
- La prise en charge de multiples modes d'entrée et de sortie, incluant le texte, les images et l'audio.
- La compréhension d'instructions complexes et l'intégration du contexte pour créer des images à la première personne réalistes.
Contrairement au modèle de génération d'images précédent, DALL-E, GPT-4o utilise un modèle autorégressif, intégré nativement à ChatGPT. Cela signifie qu'il peut gérer des instructions complexes impliquant jusqu'à 10 à 20 objets différents, tandis que les concurrents se limitent généralement à 5 à 8, démontrant ainsi des capacités supérieures.
Les utilisateurs n'ont qu'à décrire simplement leurs besoins, par exemple en spécifiant le ratio hauteur/largeur, les couleurs ou un fond transparent, et le modèle générera rapidement l'image. Bien que le rendu de détails complexes puisse prendre un peu plus de temps, le résultat final en vaut la peine.
Lors d'une présentation, un démonstrateur a montré plusieurs exemples concrets. Par exemple, il a transformé une photo de groupe en une image de style animé, le modèle réussissant non seulement à préserver les traits des personnages, mais aussi à intégrer parfaitement l'effet visuel de l'animation. De plus, le démonstrateur a demandé la génération d'une page de bande dessinée humoristique sur la relativité, et le résultat était une bande dessinée non seulement structurée, mais aussi vivante et amusante.
OpenAI accorde également une grande importance à la sécurité de cette fonctionnalité. Toutes les images générées portent une métadonnée C2PA, garantissant la traçabilité de l'origine du contenu et empêchant efficacement la génération de requêtes inappropriées.
Bien sûr, l'outil de génération d'images d'OpenAI n'est pas sans défauts. Il présente encore des lacunes dans le rognage, la compréhension du contexte et le rendu de textes non latins. Cependant, OpenAI affirme qu'il continuera à améliorer ces aspects à l'avenir.
Simultanément, Google a également lancé son puissant modèle d'IA Gemini 2.5 Pro Experimental, démontrant une amélioration significative en matière de raisonnement et de capacités de programmation. Cette série d'événements montre que la compétition dans le domaine de l'IA est de plus en plus féroce, les grandes entreprises technologiques lançant constamment des technologies plus avancées pour tenter de prendre la tête de cette « guerre de l'IA ».