L'évaluation par les pairs est la pierre angulaire du progrès scientifique, mais ce système est soumis à une pression énorme en raison de l'augmentation exponentielle du nombre de soumissions. Pour atténuer ce problème, on explore l'utilisation de grands modèles de langage (LLM) pour assister à l'évaluation.
Cependant, une étude récente met en lumière les risques importants liés à l'évaluation par LLM, suggérant que nous ne sommes peut-être pas prêts pour une adoption généralisée.
Une équipe de chercheurs de l'Université Jiao Tong de Shanghai a découvert, par le biais d'expériences, que les auteurs peuvent influencer les résultats de l'évaluation par LLM en intégrant des éléments de manipulation subtils dans leurs articles. Cette manipulation peut être explicite, par exemple en ajoutant du texte blanc minuscule et difficilement perceptible à la fin de l'article, pour inciter le LLM à mettre l'accent sur les points forts et à minimiser les faiblesses.
Les expériences montrent que cette manipulation explicite peut entraîner une augmentation significative des notes attribuées par le LLM, voire des évaluations positives pour tous les articles, la note moyenne passant de 5,34 à 7,99. Plus inquiétant encore, la concordance entre les résultats de l'évaluation par LLM manipulé et ceux de l'évaluation humaine diminue considérablement, ce qui met en évidence une fiabilité fortement compromise.
De plus, l'étude a révélé une méthode de manipulation plus insidieuse : la manipulation implicite. Les auteurs peuvent induire le LLM à répéter les défauts mineurs en les mentionnant activement dans l'article.
Comparés aux évaluateurs humains, les LLM sont plus sensibles à cette méthode, répétant les limites déclarées par les auteurs 4,5 fois plus souvent. Cette pratique permet aux auteurs de répondre plus facilement aux commentaires lors de la phase de défense, leur conférant ainsi un avantage injuste.
L'étude révèle également des défauts inhérents à l'évaluation par LLM :
Problème d'hallucination : même en l'absence de contenu, les LLM génèrent des évaluations fluides. Par exemple, lorsqu'un article vide est soumis, le LLM peut affirmer que « cet article propose une méthode novatrice ». Même avec seulement le titre de l'article, le LLM peut donner une note similaire à celle d'un article complet.
Préférence pour les longs articles : le système d'évaluation par LLM a tendance à attribuer des notes plus élevées aux articles plus longs, ce qui suggère un biais potentiel basé sur la longueur de l'article.
Biais de l'auteur : dans le cadre d'une évaluation à simple insu, si l'auteur provient d'une institution renommée ou est un chercheur connu, le système d'évaluation par LLM est plus enclin à donner une évaluation positive, ce qui peut aggraver les inégalités dans le processus d'évaluation.
Pour vérifier ces risques, les chercheurs ont mené des expériences avec différents LLM, notamment Llama-3.1-70B-Instruct, DeepSeek-V2.5 et Qwen-2.5-72B-Instruct. Les résultats montrent que ces LLM sont tous sujets à un risque de manipulation implicite et présentent des problèmes d'hallucination similaires. Les chercheurs ont constaté que les performances du LLM sont corrélées positivement à leur cohérence avec l'évaluation humaine, mais même le modèle le plus performant, GPT-4o, n'a pas pu éviter complètement ces problèmes.
Les chercheurs ont utilisé un grand nombre de données d'évaluation publiques d'ICLR2024 pour leurs expériences. Les résultats montrent que la manipulation explicite peut rendre les évaluations du LLM presque entièrement contrôlées par le contenu manipulé, avec une cohérence atteignant 90 %, et conduire à des retours positifs pour tous les articles. De plus, la manipulation de 5 % des évaluations peut entraîner la perte de position dans les 30 % premiers pour 12 % des articles.
Les chercheurs soulignent que la robustesse actuelle des LLM est insuffisante pour qu'ils remplacent les évaluateurs humains dans l'évaluation scientifique. Ils recommandent de suspendre l'utilisation des LLM pour l'évaluation par les pairs jusqu'à ce que les risques soient mieux compris et que des mesures de sécurité efficaces soient mises en place. Parallèlement, les éditeurs de revues et les organisateurs de conférences doivent mettre en place des outils de détection et des mesures de responsabilisation pour identifier et traiter les manipulations malveillantes des auteurs et l'utilisation des LLM par les évaluateurs pour remplacer le jugement humain.
Les chercheurs estiment que les LLM peuvent servir d'outils d'assistance, fournissant des commentaires et des informations supplémentaires aux évaluateurs, mais ne doivent en aucun cas remplacer le jugement humain. Ils appellent la communauté scientifique à continuer d'explorer des méthodes pour rendre les systèmes d'évaluation assistée par LLM plus robustes et plus sûrs, afin de maximiser le potentiel des LLM tout en prévenant les risques.
Adresse de l'article : https://arxiv.org/pdf/2412.01708