Récemment, un simple problème de mathématiques — « 13,8 ou 13,11, lequel est le plus grand ? » — a non seulement déconcerté certains humains, mais aussi mis de nombreux grands modèles linguistiques (LLM) en difficulté. Ce problème a suscité un large débat sur la capacité de l'IA à traiter les problèmes de bon sens.

Dans une émission de télévision populaire, cette question a déclenché une vive discussion sur les réseaux sociaux. Beaucoup de gens pensaient que 13,11 % devait être supérieur à 13,8 %, mais en réalité, 13,8 % est plus grand.

1.jpg

Lin Yuchen, chercheur chez AI2, a découvert que même les grands modèles linguistiques, comme GPT-4o, pouvaient faire des erreurs sur ce simple problème de comparaison. GPT-4o a incorrectement estimé que 13,11 était supérieur à 13,8 et a donné une explication erronée.

2.jpg

La découverte de Lin Yuchen a rapidement suscité une discussion animée au sein de la communauté de l'IA. De nombreux autres grands modèles linguistiques, tels que Gemini, Claude 3.5 Sonnet, etc., ont également commis la même erreur sur ce simple problème de comparaison.

L'apparition de ce problème révèle les difficultés que l'IA peut rencontrer lorsqu'elle traite des tâches apparemment simples mais impliquant des comparaisons numériques précises.

Bien que l'intelligence artificielle ait fait des progrès remarquables dans de nombreux domaines, tels que la compréhension du langage naturel, la reconnaissance d'images et la prise de décision complexe, elle peut toujours faire des erreurs dans les opérations mathématiques de base et le raisonnement logique, ce qui montre les limites des technologies actuelles.

QQ截图20240717135712.jpg

Pourquoi l'IA commet-elle de telles erreurs ?

Biais des données d'entraînement : Les données d'entraînement des modèles d'IA peuvent ne pas contenir suffisamment d'exemples pour traiter correctement ce type de problème de comparaison numérique spécifique. Si les données auxquelles le modèle a été exposé pendant l'entraînement indiquent principalement que les nombres plus grands ont toujours plus de décimales, il peut interpréter à tort plus de décimales comme une valeur plus grande.

Problèmes de précision en virgule flottante : En informatique, la représentation et le calcul des nombres à virgule flottante comportent des problèmes de précision. Même de minuscules différences peuvent entraîner des résultats erronés lors de la comparaison, surtout en l'absence de spécification explicite de la précision.

Compréhension contextuelle insuffisante : Bien que la clarté du contexte ne soit probablement pas le problème principal dans ce cas, les modèles d'IA ont généralement besoin du contexte pour interpréter correctement les informations. Si la formulation de la question n'est pas suffisamment claire ou ne correspond pas aux schémas courants rencontrés par l'IA dans les données d'entraînement, cela peut entraîner une mauvaise interprétation.

Impact de la conception de l'invite : La façon dont une question est posée à l'IA est essentielle pour obtenir une réponse correcte. Différentes formulations peuvent influencer la compréhension de l'IA et l'exactitude de sa réponse.

Comment améliorer ?

Améliorer les données d'entraînement : En fournissant des données d'entraînement plus diversifiées et plus précises, on peut aider les modèles d'IA à mieux comprendre les comparaisons numériques et d'autres concepts mathématiques de base.

Optimiser la conception des invites : Une formulation de question soigneusement conçue peut augmenter les chances que l'IA donne une réponse correcte. Par exemple, l'utilisation d'une représentation numérique et d'une formulation de question plus claires peut réduire les ambiguïtés.

Améliorer la précision du traitement numérique : Développer et adopter des algorithmes et des techniques capables de traiter les opérations en virgule flottante avec plus de précision afin de réduire les erreurs de calcul.

Améliorer les capacités de raisonnement logique et de bon sens : En formant spécifiquement le raisonnement logique et le bon sens, on peut améliorer les capacités de l'IA dans ces domaines, lui permettant de mieux comprendre et de traiter les tâches liées au bon sens.