Des recherches récentes ont révélé que GPT-4 présentait de faibles performances lors d'un défi de reconnaissance visuelle. Cela serait dû au fait que les images utilisées dans ce défi étaient trop fréquentes dans l'ensemble de données d'entraînement. GPT-4 aurait donc répondu en se basant sur sa mémoire plutôt que sur une véritable capacité de reconnaissance visuelle. Ceci illustre que même si les grands modèles linguistiques affichent d'excellents résultats sur certaines tâches, il est nécessaire de rester prudent et de ne pas surestimer leurs capacités de généralisation sur la base de leur succès sur les données d'entraînement. L'amélioration de la capacité de généralisation des modèles et de leur robustesse face aux exemples contradictoires (attaques adversariales) est l'un des axes de recherche prioritaires actuels. Il est également crucial de se méfier des tests de modèles uniquement sur les données d'entraînement. Une évaluation de la capacité de généralisation sur un échantillon plus large est nécessaire pour une meilleure évaluation des performances du modèle.
GPT-4 confronté à de nouveaux défis dans les tâches de reconnaissance visuelle
