Selon The Information, des sources proches du dossier révèlent qu'OpenAI prévoit de lancer GPT-Vision, un système d'IA multimodale, afin de concurrencer Gemini, le modèle multimodal récemment publié par Google pour les tests d'entreprise. OpenAI avait présenté un aperçu des fonctionnalités multimodales lors du lancement de GPT-4 en mars, mais celles-ci ne sont jusqu'à présent accessibles qu'à certaines entreprises. Six mois plus tard, OpenAI se prépare à déployer GPT-Vision à grande échelle. Ce retard est principalement dû aux préoccupations d'OpenAI concernant les risques de mauvaise utilisation de cette nouvelle fonctionnalité. Par ailleurs, OpenAI travaille sur un modèle multimodal encore plus puissant, dont le nom de code est Gobi. La volonté d'OpenAI de promouvoir activement l'application commerciale de l'IA multimodale marque une étape importante vers une utilisation concrète de cette technologie. Des experts du secteur estiment que les capacités visuelles, telles que la génération d'images, amélioreront la valeur commerciale des systèmes d'IA, et que GPT-Vision d'OpenAI a les moyens de rivaliser avec Google. La compétition entre ces deux géants de l'IA est bénéfique pour le progrès technologique.