Les nouveaux modèles d'IA d'OpenAI, o1-preview et o1-mini, obtiennent les meilleurs scores au classement des chatbots

AIbase基地

Publié leActualités IA · 3 minutes de lecture · Sep 20, 2024

115

Les nouveaux systèmes d'OpenAI ont obtenu d'excellents résultats lors de récentes évaluations, se classant premiers au classement des robots conversationnels. Cependant, le faible nombre de notes pourrait fausser les résultats de l'évaluation.

Selon le résumé publié, ces nouveaux systèmes ont excellé dans toutes les catégories d'évaluation, notamment les performances globales, la sécurité et les capacités techniques. Un système spécialement conçu pour les tâches STEM, lancé conjointement avec la version GPT-4o début septembre, s'est brièvement classé deuxième et a pris la tête dans le domaine technique.

Chatbot Arena, une plateforme de comparaison de différents systèmes, a évalué les nouveaux systèmes en utilisant plus de 6 000 notes de la communauté. Les résultats montrent que ces nouveaux systèmes ont excellé dans les tâches mathématiques, les invites complexes et la programmation.

Cependant, ces nouveaux systèmes ont reçu beaucoup moins de notes que d'autres systèmes établis, tels que GPT-4o ou Claude 3.5 d'Anthropic, avec moins de 3 000 commentaires par système. Un échantillon aussi petit pourrait fausser l'évaluation et limiter l'importance des résultats.

Les nouveaux systèmes d'OpenAI excellent en mathématiques et en codage, objectifs principaux de leur conception. En « réfléchissant » plus longtemps avant de répondre, ces systèmes visent à établir une nouvelle norme pour le raisonnement de l'IA. Cependant, ces systèmes ne surpassent pas les autres dans tous les domaines. De nombreuses tâches ne nécessitent pas de raisonnement logique complexe, et la rapidité de réponse d'autres systèmes suffit parfois.

Le graphique de Lmsys sur la puissance des modèles mathématiques montre clairement que ces nouveaux systèmes ont obtenu un score supérieur à 1360, dépassant de loin les performances des autres systèmes.

Les chatbots IA absorbent le trafic : les éditeurs confrontés à une baisse de 96 %

Les chatbots d’intelligence artificielle (IA) sont en train de révolutionner l’écosystème internet, et les éditeurs sont confrontés à des défis sans précédent. Les chatbots de sociétés comme OpenAI et Google semblent absorber le trafic dont les sites web ont désespérément besoin, causant des difficultés considérables aux créateurs de contenu et de nouvelles. Selon un article de Forbes, les dernières données de TollBit, une plateforme d’octroi de licences de contenu, montrent que le trafic généré par les chatbots IA vers les sites web des éditeurs est inférieur de 96 % à celui des moteurs de recherche traditionnels. Malgré OpenAI et Perp...

La fonction de recherche IA de WeChat redirige vers le chatbot "Yuanbao" en raison d'un volume de trafic trop important

Récemment, la fonction de recherche IA lancée par Tencent sur sa plateforme de médias sociaux WeChat est devenue indisponible en moins d'une journée de test bêta, en raison d'une surcharge du serveur. Selon Tencent, cette fonction utilise le méta-modèle HunYuan pour la recherche et intègre le modèle DeepSeek-R1 pour fournir des services de réflexion plus approfondis. Cependant, malgré le nombre très limité d'utilisateurs participant au test bêta, le volume d'appels a été exceptionnellement important, entraînant des messages d'erreur fréquents "Service occupé, veuillez réessayer plus tard". Dans ces conditions, Tencent a dû rapidement prendre des mesures...

Musk lance Grok 3, un chatbot IA super intelligent, qu'il qualifie de «l'IA la plus intelligente de la planète»

La société xAI de Musk a officiellement lancé aujourd'hui son dernier grand modèle, Grok 3. Musk est très confiant quant à ce lancement, affirmant que les capacités de Grok 3 surpassent celles de son prédécesseur, Grok 2, «d'un ordre de grandeur». Il a même osé le qualifier de «l'intelligence artificielle la plus intelligente de la planète». Grok 3 n'est pas un modèle unique, mais une famille diversifiée de modèles. Il est à noter qu'une version plus petite, Grok 3 mini, est conçue pour répondre rapidement aux questions, bien que certaines...

Actualités IA

Les nouveaux modèles d'IA d'OpenAI, o1-preview et o1-mini, obtiennent les meilleurs scores au classement des chatbots

AIbase基地

Recommandations d'actualités IA connexes

Les chatbots IA absorbent le trafic : les éditeurs confrontés à une baisse de 96 %

Meta prévoit de lancer une application de chatbot IA autonome pour élargir sa base d'utilisateurs

La fonction de recherche IA de WeChat redirige vers le chatbot "Yuanbao" en raison d'un volume de trafic trop important

Musk lance Grok 3, un chatbot IA super intelligent, qu'il qualifie de «l'IA la plus intelligente de la planète»