Le développement des modèles d'intelligence artificielle (IA) est fulgurant. Alors que les développeurs améliorent constamment leurs performances, les utilisateurs s'interrogent sur la fiabilité des résultats. Pour répondre à ces préoccupations, le Vector Institute, fondé par Geoffrey Hinton, a publié une étude d'évaluation de l'état de l'art de la recherche en IA. Cette étude évalue 11 modèles de pointe, open source et propriétaires, à travers un classement interactif basé sur 16 critères, incluant les mathématiques, les connaissances générales, le codage et la sécurité.
John Willes, responsable de l'infrastructure IA et de l'ingénierie de recherche au Vector Institute, explique : « Les chercheurs, les développeurs, les régulateurs et les utilisateurs finaux peuvent vérifier indépendamment les résultats, comparer les performances des modèles et construire leurs propres critères d'évaluation, favorisant ainsi l'amélioration et la responsabilisation. »
Source de l'image : Image générée par IA, fournie par Midjourney.
Parmi les modèles évalués, DeepSeek et o1 d'OpenAI se sont distingués, tandis que Command R+, le plus petit et le plus ancien modèle testé, a affiché des performances inférieures.
L'étude révèle que les modèles propriétaires surpassent généralement les modèles open source dans les tâches complexes de connaissance et de raisonnement. Cependant, les excellentes performances de DeepSeek démontrent que les modèles open source restent compétitifs. Willes souligne : « Ces modèles sont assez performants pour les tâches simples, mais leur capacité de raisonnement et de compréhension diminuent fortement avec la complexité des tâches. »
De plus, les 11 modèles ont rencontré des difficultés sur les « benchmarks procurationnels » évaluant la résolution de problèmes concrets, notamment en ingénierie logicielle et autres tâches nécessitant un raisonnement et une planification ouverts. Pour pallier cela, le Vector Institute a développé le benchmark MMMU (Multimodal Massive Multitask Understanding) qui évalue la capacité des modèles à traiter les images et le texte.
Dans l'évaluation de la compréhension multimodale, o1 a démontré des capacités « exceptionnelles », notamment avec des formats et des niveaux de difficulté variés. Cependant, Willes insiste sur la nécessité de poursuivre les efforts pour créer de véritables systèmes multimodaux capables de traiter uniformément les entrées textuelles, images et audio.
Concernant les défis de l'évaluation, Willes met l'accent sur le problème de la fuite de données d'évaluation : les modèles obtiennent de bons résultats sur les ensembles de données d'évaluation connus, mais moins bons sur de nouvelles données. Il estime que le développement de critères d'évaluation plus innovants et dynamiques est crucial pour résoudre ce problème.