Une étude récente publiée dans la revue Nature a mis en lumière un phénomène préoccupant dans le développement de l'intelligence artificielle : à mesure que les grands modèles linguistiques (LLM) sont améliorés, ils ont tendance à répondre aux questions avec une confiance excessive, même si leurs réponses sont incorrectes. Ce phénomène suscite un large débat sur la fiabilité et les risques liés à l'utilisation de l'IA.
L'équipe de recherche, dirigée par José Hernández-Orallo et ses collègues de l'Institut d'intelligence artificielle de Valence, en Espagne, a analysé en profondeur l'évolution des réponses erronées des modèles d'IA, la relation entre ces erreurs et la perception de la difficulté des questions par les humains, ainsi que la capacité des individus à identifier les réponses incorrectes.
Les résultats montrent que, malgré l'amélioration globale des performances de l'IA grâce à des méthodes d'ajustement précises comme l'apprentissage par renforcement avec rétroaction humaine, une découverte inattendue est apparue : l'augmentation du nombre de réponses correctes s'accompagne d'une augmentation simultanée du nombre de réponses erronées. Hernández-Orallo décrit cela de manière imagée : « Ils répondent à presque toutes les questions, ce qui signifie qu'un taux de réussite plus élevé s'accompagne d'un plus grand nombre de réponses erronées. »
Source de l'image : Image générée par IA, fournisseur de services d'autorisation d'images Midjourney
L'équipe de recherche s'est principalement concentrée sur les modèles d'IA dominants tels que GPT d'OpenAI, LMA de Meta et le modèle open source BLOOM. En comparant les versions antérieures et les versions raffinées de ces modèles, ils ont analysé leurs performances sur différents types de questions. Les résultats montrent que, bien que les modèles aient amélioré leurs performances sur les questions simples, ils n'ont pas montré de tendance à éviter les questions difficiles. GPT-4, par exemple, répond à presque toutes les questions, et dans de nombreux cas, le pourcentage de réponses erronées augmente, atteignant parfois plus de 60 %.
Plus inquiétant encore, l'étude a révélé que ces modèles peuvent parfois se tromper même sur des questions simples, ce qui signifie que les utilisateurs ont du mal à trouver une « zone de sécurité » où ils peuvent faire entièrement confiance aux réponses de l'IA. Lorsque l'équipe de recherche a demandé à des volontaires de juger de l'exactitude des réponses, les résultats ont été encore plus préoccupants : le taux de mauvaise classification des réponses erronées par les participants variait entre 10 % et 40 %, aussi bien pour les questions simples que complexes. Hernández-Orallo conclut : « Les humains ne peuvent pas surveiller efficacement ces modèles. »
Pour relever ce défi, Hernández-Orallo recommande aux développeurs d'IA de se concentrer sur l'amélioration des performances des modèles sur les questions simples et d'encourager les chatbots à exprimer leur incertitude ou à refuser de répondre aux questions difficiles. Il souligne : « Nous devons faire comprendre aux utilisateurs : je peux l'utiliser dans ce domaine, mais je ne devrais pas l'utiliser dans cet autre domaine. »
Bien que la capacité des IA à répondre à des questions complexes puisse sembler impressionnante, Hernández-Orallo souligne que cette approche n'est pas toujours bénéfique. Il se dit même perplexe face aux erreurs de certains modèles sur des problèmes de calcul simples, considérant qu'il s'agit de problèmes qui peuvent et doivent être résolus.
Vipula Rawte, informaticienne à l'université de Caroline du Sud, souligne que certains modèles indiquent effectivement « Je ne sais pas » ou « Je n'ai pas assez d'informations ». Les systèmes d'IA destinés à des utilisations spécifiques (comme la médecine) sont souvent ajustés de manière plus stricte pour éviter de dépasser leurs limites de connaissances. Cependant, pour les entreprises qui développent des chatbots polyvalents, admettre l'ignorance n'est pas toujours une fonctionnalité idéale.
Cette étude révèle un paradoxe important dans le développement de l'IA : à mesure que les modèles deviennent plus complexes et puissants, ils peuvent devenir plus peu fiables dans certains aspects. Cette découverte pose de nouveaux défis aux développeurs, aux utilisateurs et aux régulateurs de l'IA.
À l'avenir, le développement de l'IA devra trouver un équilibre entre l'amélioration des performances et le maintien de la prudence. Les développeurs devront peut-être reconsidérer la manière d'évaluer les performances des modèles d'IA, en tenant compte non seulement du nombre de réponses correctes, mais aussi du pourcentage et de l'impact des réponses erronées. Parallèlement, il est de plus en plus important de sensibiliser les utilisateurs aux limites de l'IA.
Pour les utilisateurs ordinaires, cette étude rappelle la nécessité de rester vigilant lors de l'utilisation d'outils d'IA. Bien que l'IA puisse offrir commodité et efficacité, il est essentiel de faire preuve d'esprit critique, en particulier lorsqu'il s'agit d'informations importantes ou sensibles.