OpenAI a officiellement lancé jeudi son modèle linguistique IA très attendu, "o1". Ce nouveau modèle, surnommé "Strawberry", affirme présenter des améliorations significatives en matière de "raisonnement" et de résolution de problèmes par rapport aux précédents grands modèles linguistiques. La série de modèles o1 est actuellement disponible sous deux formes, o1-preview et o1-mini, et est accessible aux utilisateurs de ChatGPT Plus et à certains utilisateurs de l'API.

QQ20240913-085457.jpg

La caractéristique la plus remarquable d'o1 est son processus de pensée anthropomorphique. Avant de répondre à une question, o1 entre dans un mode de réflexion particulier, décomposant les problèmes complexes en plusieurs petites étapes résolues successivement, générant ainsi une longue chaîne de pensée interne pour parvenir à une réponse plus précise.

image.png

Cette technique, que Google DeepMind appelle "calcul au moment du test" (Test-time computation), repose sur l'utilisation d'un modèle de récompense de vérification intensif et orienté processus, ainsi que sur la mise à jour adaptative de la distribution de probabilité des réponses du modèle.

Points clés :

  • Les versions o1-preview et o1-mini ont des temps de réponse plus longs, imitant la réflexion humaine progressive ;

  • La série o1 est en phase de test et ne prend en charge que les fonctions textuelles. D'autres fonctionnalités telles que la connexion au Web, la création d'images et l'importation de fichiers sont en cours de développement ;

  • Le développement de prototypes d'API est limité à 20 requêtes par minute ;

  • L'API ne prend pas en charge les appels de fonctions, la sortie en continu ni les informations système.

En quoi o1 est-il performant ?

OpenAI affirme qu'o1-preview surpasse son prédécesseur, GPT-4o, dans plusieurs tests de référence, notamment en programmation compétitive, en mathématiques et en "raisonnement scientifique".

image.png

En programmation, o1-preview se classe au 89e centile des problèmes de programmation compétitive sur Codeforces.

Lors des épreuves de sélection de l'Olympiade américaine de mathématiques, les performances d'o1 sont comparables à celles des 500 meilleurs étudiants américains. Les capacités mathématiques d'o1 sont remarquables : lors de l'examen de qualification pour l'Olympiade internationale de mathématiques, o1-preview a obtenu un score de 83 %, contre seulement 13 % pour GPT-4o.

Plus étonnant encore, o1 a surpassé pour la première fois le niveau d'un doctorant humain dans des tests de référence de physique, de biologie et de chimie, marquant une avancée révolutionnaire dans les capacités de raisonnement complexe de l'IA.

image.png

Pourquoi o1 est-il si performant en raisonnement ?

Les progrès d'o1 sont principalement dus à une nouvelle méthode d'entraînement par apprentissage par renforcement. Cette méthode apprend au modèle à prendre plus de temps pour "réfléchir" avant de répondre aux questions, de manière similaire aux invites de chaîne de pensée "pensons étape par étape" utilisées dans d'autres grands modèles linguistiques. Ce processus permet à o1 d'essayer différentes stratégies et de "détecter" ses propres erreurs.

OpenAI indique qu'il continuera à développer les modèles o1 et GPT, et prévoit d'ajouter à o1-preview des fonctionnalités telles que la navigation Web, la génération d'images et le téléchargement de fichiers.

Cependant, ces données impressionnantes ne sont pas sans controverse. Certains utilisateurs ont signalé qu'o1 n'était pas supérieur à GPT-4o sur tous les indicateurs.

De plus, le traitement en plusieurs étapes effectué en arrière-plan par le modèle entraîne des temps de réponse plus longs, ce qui a suscité des critiques. Joanne Jang, chef de produit chez OpenAI, a déclaré sur les réseaux sociaux : "o1 est le premier modèle de raisonnement à exceller dans des tâches extrêmement difficiles, et il ne fera que s'améliorer. Mais ce n'est pas un 'modèle miracle' supérieur aux modèles précédents sur tous les aspects."

QQ20240913-092226.jpg

Il est important de noter que les tests de référence de l'IA sont notoirement peu fiables et facilement manipulables. Les capacités réelles d'o1 doivent être confirmées par des vérifications et des expériences indépendantes des utilisateurs. Début d'année, une étude du MIT a révélé que certaines déclarations de référence d'OpenAI concernant GPT-4 l'année dernière étaient erronées ou exagérées.

Au-delà de l'amélioration des performances, o1 a suscité un débat sur les capacités de "raisonnement" de l'IA. Certains experts du secteur estiment qu'il est inapproprié d'attribuer des caractéristiques humaines telles que la "réflexion" ou le "raisonnement" aux modèles d'IA.

Informations officielles : https://openai.com/index/introducing-openai-o1-preview/

Accès officiel : https://top.aibase.com/tool/openai-o1