Le système d'IA multimodale GPT-Vision d'OpenAI sur le point d'être lancé, en concurrence avec Gemini de Google

站长之家

Publié leActualités IA · 2 minutes de lecture · Sep 19, 2023

263

Selon The Information, des sources proches du dossier révèlent qu'OpenAI prévoit de lancer GPT-Vision, un système d'IA multimodale, afin de concurrencer Gemini, le modèle multimodal récemment publié par Google pour les tests d'entreprise. OpenAI avait présenté un aperçu des fonctionnalités multimodales lors du lancement de GPT-4 en mars, mais celles-ci ne sont jusqu'à présent accessibles qu'à certaines entreprises. Six mois plus tard, OpenAI se prépare à déployer GPT-Vision à grande échelle. Ce retard est principalement dû aux préoccupations d'OpenAI concernant les risques de mauvaise utilisation de cette nouvelle fonctionnalité. Par ailleurs, OpenAI travaille sur un modèle multimodal encore plus puissant, dont le nom de code est Gobi. La volonté d'OpenAI de promouvoir activement l'application commerciale de l'IA multimodale marque une étape importante vers une utilisation concrète de cette technologie. Des experts du secteur estiment que les capacités visuelles, telles que la génération d'images, amélioreront la valeur commerciale des systèmes d'IA, et que GPT-Vision d'OpenAI a les moyens de rivaliser avec Google. La compétition entre ces deux géants de l'IA est bénéfique pour le progrès technologique.

Le modèle o1 d'OpenAI dévoilé : capacités exceptionnelles, traitement de 200 000 jetons

Récemment, un utilisateur a révélé sur le réseau social X qu'OpenAI avait brièvement rendu accessible son nouveau modèle o1 via l'URL "chatgpt.com/?model=o1" à certains utilisateurs, avant de rapidement le désactiver. Selon les retours utilisateurs, ce dernier modèle peut traiter environ 200 000 mots de texte et possède la capacité d'analyser des images. OpenAI qualifie le modèle o1 de "son modèle le plus puissant", particulièrement adapté aux tâches nécessitant créativité et raisonnement de haut niveau.

OpenAI lance GPT-4O-Audio-Preview : la voix peut désormais "comprendre" les émotions !

OpenAI révolutionne une fois de plus le secteur de l'intelligence artificielle avec le lancement de son nouveau modèle gpt-4o-audio-preview. Ce modèle fait preuve de capacités étonnantes en matière de génération et d'analyse vocale, ouvrant de nouvelles perspectives pour l'interaction homme-machine. Découvrons ensemble les caractéristiques et les applications potentielles de ce modèle innovant. Les fonctionnalités principales de gpt-4o-audio-preview se répartissent en trois axes : premièrement, il est capable de générer des réponses vocales naturelles et fluides à partir de texte, ce qui est idéal pour les assistants vocaux et les services clients virtuels.

Nouveau modèle OpenAI gpt-4o-2024-08-06 et gpt-4o-mini prennent en charge la sortie structurée

OpenAI a ajouté une fonctionnalité de sortie structurée à son API, garantissant que la sortie générée est parfaitement conforme à la structure JSON prédéfinie, améliorant ainsi considérablement la fiabilité de l'API et la précision des applications. Cette fonctionnalité définit non seulement la structure du JSON, mais garantit également l'exactitude de la sortie. Simultanément, les prix ont été réduits : le coût d'entrée a été diminué de moitié et le coût de sortie de 1/3. L'introduction de la sortie structurée a résolu les limitations du schéma JSON en matière de garantie de conformité de la sortie à une structure spécifique, améliorant considérablement les performances du modèle en matière de sortie structurée. Grâce à des innovations techniques, telles que la limitation...

OpenAI lance le nouveau modèle gpt-4o-64k-output-alpha : l'API GPT-4o prend désormais en charge des sorties jusqu'à 64K

Le point fort du nouveau modèle gpt-4o-64k-output-alpha d'OpenAI est sa capacité à générer des sorties jusqu'à 64K tokens en une seule fois. Idéal pour créer du contenu riche et détaillé, il répond aux besoins de la rédaction, de la programmation et de l'analyse de données complexes. Cependant, cette fonctionnalité augmente le prix de l'API : 18 $ par million de tokens en sortie, contre 6 $ par million de tokens en entrée. Cette mesure vise à compenser les coûts de calcul élevés et à encourager une utilisation responsable de cet outil puissant. Ce modèle est une avancée majeure pour les domaines de la création et de la recherche.