Recentemente, pesquisadores da Universidade de Stanford e outras instituições inseriram milhares de artigos de conferências de ponta como Nature e ICLR no GPT-4 para gerar avaliações, comparando-as posteriormente com as avaliações de revisores humanos. Os resultados mostraram que as avaliações do GPT-4 concordaram com as avaliações humanas em mais de 50% dos casos e foram úteis para 82% dos autores. O estudo também descobriu que, em comparação com os revisores humanos, o GPT-4 se concentra mais no fator de impacto do artigo e menos em detalhes como experimentos de ablação suplementares. Os usuários geralmente acreditam que o feedback de revisão gerado pelo GPT-4 pode melhorar a precisão da revisão e reduzir os custos de mão de obra. Este estudo demonstra que o uso de LLM para auxiliar na revisão de artigos acadêmicos é viável.