Actualités IA

Ne manquez aucun moment de l'innovation mondiale en IA

IA Quotidien

Tendances quotidiennes de l'industrie de l'IA en trois minutes

Chronologie de l'IA

Jalons de l'industrie de l'IA

Al hardware

liste tous les produits de matériel AI.

Guide de monétisation de l'IA

Derniers cas

Partage de cas de monétisation de l'IA

Collection d'images

Cas de monétisation de la création d'images par l'IA

Collection de vidéos

Cas de monétisation de la création de vidéos par l'IA

Collection audio

Cas de monétisation de la création audio par l'IA

Collection de contenu

Cas de monétisation de la rédaction de contenu par l'IA

Tutoriels IA

Derniers tutoriels

Partage gratuit des derniers tutoriels IA

Classements des produits IA

Classement des produits IA

Affiche le classement du nombre total de visites des sites web d'IA

Classement de la croissance du trafic IA

Suit les sites web d'IA à la croissance la plus rapide en termes de trafic

Classement de la baisse du trafic IA

Se concentre sur les sites web d'IA avec des baisses de trafic importantes

Classement hebdomadaire de l'IA

Affiche le classement hebdomadaire des visites des sites web d'IA

Classements des pays populaires

États-Unis

Sites web d'IA les plus populaires auprès des utilisateurs américains

Chine

Sites web d'IA les plus populaires auprès des utilisateurs chinois

Inde

Sites web d'IA les plus populaires auprès des utilisateurs indiens

Brésil

Sites web d'IA les plus populaires auprès des utilisateurs brésiliens

Classements des catégories populaires

Génération d'images

Classement du nombre total de visites des sites web de génération d'images par l'IA

Assistant personnel

Classement du nombre total de visites des sites web d'assistants personnels d'IA

Génération de personnages

Classement du nombre total de visites des sites web de génération de personnages par l'IA

Génération de vidéos

Classement du nombre total de visites des sites web de génération de vidéos par l'IA

Classements des données Open Source populaires

Classement des projets IA

Projets IA populaires sur GitHub par nombre total d'étoiles

Classement de la croissance des projets IA

Projets IA populaires sur GitHub par taux de croissance

Classement des développeurs IA

Classement des développeurs IA populaires sur GitHub

Classement des organisations IA

Classement des organisations IA populaires sur GitHub

Catégories Open Source populaires

Deepseek

Projets Open Source Deepseek populaires sur GitHub

TTS

Projets Open Source TTS populaires sur GitHub

LLM

Projets Open Source LLM populaires sur GitHub

ChatGPT

Projets Open Source ChatGPT populaires sur GitHub

Bibliothèque de projets Open Source IA

Aperçu

Aperçu des projets Open Source IA populaires sur GitHub

Bibliothèque de produits Navigation de l'outil

Les résultats des tests du modèle o3 d'OpenAI remis en question : des performances bien inférieures aux attentes

AIbase基地

Publié leActualités IA · 5 minutes de lecture · Apr 21, 2025

Récemment, les performances du modèle d'intelligence artificielle o3 d'OpenAI lors de tests de référence ont suscité une vive controverse. Bien qu'OpenAI ait affirmé avec assurance en décembre dernier, lors du lancement initial de o3, que le modèle pouvait répondre correctement à plus d'un quart des problèmes du très difficile ensemble de problèmes mathématiques FrontierMath, cette affirmation contraste fortement avec les résultats de tests indépendants récents.

L'Epoch Institute a réalisé des tests indépendants du modèle o3, révélant un score réel de seulement 10 %, bien inférieur aux 25 % annoncés par OpenAI. Lors d'une démonstration publique du responsable de la recherche d'OpenAI, Mark Chen, il a indiqué que les résultats des tests internes du modèle o3 étaient excellents, surpassant de loin les concurrents dont le taux de réussite sur le même ensemble de problèmes était inférieur à 2 %. Cependant, ce score élevé et idéal a probablement été obtenu grâce à une version de o3 utilisant des ressources informatiques plus puissantes, et non la version officiellement lancée la semaine dernière.

OpenAI, ChatGPT, intelligence artificielle, IA

Dans son rapport, Epoch souligne que les différences de résultats peuvent provenir de plusieurs facteurs, notamment l'utilisation par OpenAI d'un cadre de calcul plus avancé et de conditions de test différentes. L'institut mentionne également que son évaluation est basée sur une version plus récente de FrontierMath, ce qui pourrait expliquer la différence de résultats.

Par ailleurs, la fondation ARC Prize a publié une déclaration indiquant que le modèle o3 publié publiquement diffère considérablement de la version préliminaire qu'elle avait testée précédemment. La version publique a été ajustée pour les conversations et l'utilisation de produits, et les niveaux de calcul sont généralement plus faibles. En général, plus le niveau de calcul est élevé, meilleur est le score aux tests de référence.

Bien que le modèle o3 n'ait pas entièrement atteint les standards de test d'OpenAI, cela ne semble pas affecter ses performances sur le marché, car les modèles o3-mini-high et o4-mini récemment lancés par OpenAI ont obtenu de meilleurs résultats sur FrontierMath. Plus prometteur encore, OpenAI devrait lancer prochainement une version plus puissante de o3 : o3-pro.

Cet événement rappelle une fois de plus au public qu'il ne faut pas faire entièrement confiance aux résultats des tests de référence de l'IA, en particulier ceux provenant d'entreprises soumises à la pression du lancement de produits. Dans le secteur concurrentiel de l'IA, les différents fabricants, afin de se disputer des parts de marché, ont souvent tendance à lancer rapidement de nouveaux modèles, ce qui accroît les controverses autour des tests de référence.

modèle d'intelligence artificielle o3 OpenAI FrontierMath Institut Epoch

Cet article provient d'AIbase Daily

Bienvenue dans la section [AI Quotidien] ! Voici votre guide pour explorer le monde de l'intelligence artificielle chaque jour. Chaque jour, nous vous présentons les points forts du domaine de l'IA, en mettant l'accent sur les développeurs, en vous aidant à comprendre les tendances technologiques et à découvrir des applications de produits IA innovantes.

—— Créé par le groupe AIbase Daily