L'avènement des grands modèles linguistiques (LLM), et notamment la popularisation d'applications comme ChatGPT, a révolutionné l'interaction homme-machine. Ces modèles sont capables de générer des textes cohérents et complets, ce qui est impressionnant. Cependant, malgré leur puissance, les LLM sont sujets à des « hallucinations », c'est-à-dire qu'ils peuvent générer du contenu qui semble réel mais qui est en fait fictif, absurde ou ne correspond pas à la requête.
Des chercheurs de l'université Harvard ont mené une étude approfondie sur le phénomène des « hallucinations » des LLM, découvrant que leur origine réside dans leur fonctionnement même. Les LLM construisent des modèles probabilistes en apprenant sur d'immenses quantités de données textuelles, et prédisent le mot suivant en fonction de la probabilité de co-occurrence des mots. En d'autres termes, les LLM ne comprennent pas vraiment le sens du langage, mais font des prédictions basées sur des probabilités statistiques.
Les chercheurs comparent les LLM à une forme de « crowdsourcing », considérant que les LLM produisent en fait un « consensus du web ». Comme Wikipédia ou Reddit, les LLM extraient des informations d'une masse de données textuelles et génèrent la réponse la plus fréquente. Puisque la plupart des utilisations du langage servent à décrire le monde, les réponses générées par les LLM sont généralement précises.
Cependant, lorsque les LLM rencontrent des sujets ambigus, controversés ou faisant défaut de consensus, des « hallucinations » apparaissent. Pour vérifier cette hypothèse, les chercheurs ont conçu une série d'expériences testant les performances de différents LLM sur différents sujets. Les résultats ont montré que les LLM fonctionnent bien sur les sujets courants, mais que leur précision diminue nettement lorsqu'ils traitent des sujets ambigus ou controversés.
Cette recherche montre que, bien que les LLM soient des outils puissants, leur précision dépend de la qualité et de la quantité des données d'entraînement. Lors de l'utilisation de LLM, en particulier pour traiter des sujets ambigus ou controversés, il faut faire preuve de prudence quant aux résultats obtenus. Cette étude ouvre également des perspectives pour le développement futur des LLM, notamment l'amélioration de leur capacité à traiter les sujets ambigus et controversés, et l'augmentation de l'explicabilité de leurs résultats.
Adresse de l'article : https://dl.acm.org/doi/pdf/10.1145/3688007