Récemment, des chercheurs de l'Université Stanford et d'autres institutions ont utilisé GPT-4 pour générer des commentaires d'évaluation à partir de milliers d'articles de conférences de premier plan comme Nature et ICLR. Ces commentaires ont ensuite été comparés à ceux d'évaluateurs humains. Les résultats montrent que les commentaires générés par GPT-4 concordent avec ceux des humains dans plus de 50 % des cas, et se sont avérés utiles pour 82 % des auteurs. L'étude a également révélé que, contrairement aux évaluateurs humains, GPT-4 se concentre davantage sur le facteur d'impact des articles et accorde moins d'importance aux détails tels que les expériences d'ablation supplémentaires. Les utilisateurs estiment généralement que les commentaires d'évaluation générés par GPT-4 peuvent améliorer la précision de l'évaluation et réduire les coûts de main-d'œuvre. Cette recherche démontre la faisabilité de l'utilisation des grands modèles linguistiques (LLM) pour assister à l'évaluation des articles scientifiques.
GPT-4, un relecteur pour Nature ? Une étude menée par des anciens élèves de Stanford et de Tsinghua le confirme, avec plus de la moitié des avis concordant avec ceux des humains
