Recientemente, investigadores de la Universidad de Stanford y otras instituciones introdujeron miles de artículos de conferencias de alto nivel como Nature e ICLR en GPT-4 para generar comentarios de revisión, y luego los compararon con los comentarios de revisores humanos. Los resultados mostraron que la concordancia entre los comentarios de revisión de GPT-4 y los humanos superó el 50%, y también fue útil para el 82% de los autores. El estudio también encontró que, en comparación con los revisores humanos, GPT-4 se centra más en el factor de impacto de los artículos y presta menos atención a los detalles como experimentos de eliminación adicionales. Los usuarios generalmente creen que los comentarios de revisión generados por GPT-4 pueden mejorar la precisión de la revisión y reducir los costos de mano de obra. Este estudio demuestra que es factible utilizar LLM para ayudar en la revisión de artículos académicos.