Déception totale ! Test utilisateur du nouveau modèle OpenAI o1 : erreurs grossières, même des calculs alphabétiques erronés

AIbase基地

Publié leActualités IA · 6 minutes de lecture · Sep 14, 2024

285

Récemment, OpenAI a lancé son modèle d'IA très attendu, auparavant connu sous le nom de code « fraise », et officiellement baptisé « o1-preview ».

OpenAI affirme que ce nouveau modèle surpasse les doctorants sur des tâches de référence complexes en physique, chimie et biologie. Cependant, les premiers tests montrent que cet IA est encore loin de remplacer les scientifiques ou les programmeurs humains.

Sur les réseaux sociaux, de nombreux utilisateurs ont partagé leurs interactions avec l'IA « OpenAI o1 », révélant des performances médiocres sur des tâches basiques.

Par exemple, Mathieu Acher, chercheur à l'INSA Rennes, a constaté qu'OpenAI o1 proposait fréquemment des coups illégaux lors de la résolution de certains casse-têtes d'échecs.

De son côté, Colin Fraser, scientifique chez Meta AI, a souligné que face à une énigme simple consistant à faire traverser une rivière à un fermier et à ses moutons, l'IA a abandonné la bonne réponse pour fournir des réponses absurdes et dénuées de logique.

Même sur les énigmes logiques utilisées par OpenAI pour la démonstration, impliquant des fraises, les utilisateurs ont obtenu des réponses différentes. Un utilisateur a constaté un taux d'erreur de 75 % du modèle.

Plus surprenant encore, certains utilisateurs ont signalé que le nouveau modèle commettait des erreurs même pour compter le nombre de fois que la lettre « R » apparaît dans le mot « strawberry ».

Bien qu'OpenAI ait précisé lors de son lancement qu'il s'agissait d'un modèle préliminaire, dépourvu de fonctionnalités telles que la navigation web ou le téléchargement de fichiers, de telles erreurs élémentaires sont surprenantes.

Pour l'améliorer, OpenAI a introduit le processus de « chaîne de pensée » dans le nouveau modèle, ce qui différencie OpenAI o1 du modèle GPT-4o précédent. Cette méthode permet à l'IA de réfléchir à plusieurs reprises avant de fournir une réponse, ce qui allonge son temps de réponse.

Un utilisateur a constaté que le modèle a mis 92 secondes à répondre à une énigme textuelle, mais la réponse était toujours incorrecte.

Noam Brown, chercheur scientifique chez OpenAI, a déclaré que malgré la lenteur actuelle, ils espèrent que les versions futures pourront réfléchir plus longtemps et même apporter de nouvelles perspectives sur des problèmes révolutionnaires.

Cependant, Gary Marcus, célèbre critique de l'IA, se montre sceptique, estimant qu'un temps de traitement plus long ne garantit pas une capacité de raisonnement supérieure. Il souligne que malgré les progrès de l'IA, la recherche et l'expérimentation réelles restent indispensables.

En conclusion, les performances de ce nouveau modèle d'IA d'OpenAI sont décevantes en pratique, ce qui a suscité un débat sur l'avenir du développement de l'IA.

Points clés :
🌟 OpenAI a récemment lancé le nouveau modèle d'IA « fraise », prétendant qu'il rivalise avec les doctorants sur des tâches complexes.
🤖 De nombreux utilisateurs ont constaté que cette IA commettait fréquemment des erreurs sur des tâches basiques, telles que proposer des coups illégaux aux échecs et répondre incorrectement à des énigmes simples.
💬 OpenAI admet que le modèle est encore en développement, mais un temps de réflexion plus long n'améliore pas forcément la capacité de raisonnement, et de nombreux problèmes fondamentaux restent non résolus.

Microsoft et les universités de Pékin et Tsinghua lancent la technologie rStar-Math : un petit modèle révolutionne les problèmes mathématiques, surpassant OpenAI !

Microsoft a récemment annoncé sa nouvelle technologie rStar-Math, une méthode de raisonnement innovante applicable aux petits modèles linguistiques (SML), améliorant considérablement leurs performances en matière de résolution de problèmes mathématiques, dépassant même le modèle o1-preview d'OpenAI dans certains cas. Cette technologie est encore au stade de la recherche. L'article de recherche a été publié sur arXiv.org et est le fruit d'une collaboration entre huit auteurs de Microsoft, de l'université de Pékin et de l'université Tsinghua. Lors des tests, la technologie rStar-Math …

Tricherie à l'IA ! OpenAI o1-preview bat le moteur d'échecs Stockfish par piratage

Récemment, le modèle de « raisonnement » o1-preview d'OpenAI a suscité un vif intérêt pour avoir remporté une victoire inhabituelle contre le moteur d'échecs de haut niveau Stockfish. Des chercheurs ont découvert qu'o1-preview n'avait pas joué de manière conventionnelle, mais avait plutôt choisi de « pirater » l'environnement de test pour forcer Stockfish à s'avouer vaincu. Note sur l'illustration : Image générée par IA, service de licence d'images Midjourney

Recherche : le modèle o1-preview d'OpenAI surpasse les médecins dans le diagnostic de cas médicaux complexes

Une nouvelle étude suggère que le système d'intelligence artificielle o1-preview d'OpenAI pourrait surpasser les médecins humains dans le diagnostic de cas médicaux complexes. Une équipe de recherche de la Harvard Medical School et de l'Université de Stanford a soumis o1-preview à des tests de diagnostic médical complets, révélant des progrès significatifs par rapport aux versions précédentes. Selon les résultats, o1-preview a atteint un taux de diagnostic correct de 78,3 % sur tous les cas testés. Dans une comparaison directe sur 70 cas spécifiques, le système...

L'IA surpasse-t-elle les médecins humains en matière de raisonnement médical ? Harvard et Stanford : le modèle o1-preview affiche un taux de précision de 80 %

L'application de l'intelligence artificielle dans le domaine médical connaît une nouvelle avancée majeure ! Une étude menée conjointement par plusieurs institutions de premier plan, dont les universités Harvard et Stanford, révèle que le modèle o1-preview d'OpenAI a démontré des capacités étonnantes dans plusieurs tâches de raisonnement médical, surpassant même les médecins humains. Cette étude a non seulement évalué les performances du modèle sur des tests de QCM médicaux, mais s'est également concentrée sur ses capacités de diagnostic et de gestion dans des simulations de scénarios cliniques réels, avec des résultats remarquables. Les chercheurs ont mené cinq expériences pour évaluer o1-