La revisión por pares académicos es la piedra angular del progreso científico, pero este sistema se enfrenta a una enorme presión debido al aumento explosivo de las presentaciones. Para aliviar este problema, se están explorando los grandes modelos lingüísticos (LLM) como herramientas de ayuda en la revisión.
Sin embargo, un estudio reciente revela riesgos significativos en la revisión mediante LLM, sugiriendo que quizás no estemos preparados para su adopción generalizada.
Un equipo de investigación de la Universidad Jiao Tong de Shanghai descubrió mediante experimentos que los autores pueden influir en los resultados de la revisión del LLM insertando contenido manipulador sutil en sus artículos. Esta manipulación puede ser explícita, como añadir texto pequeño blanco casi invisible al final del artículo, instruyendo al LLM para que destaque los puntos fuertes y minimice las debilidades.
Los experimentos demostraron que esta manipulación explícita puede aumentar significativamente las puntuaciones otorgadas por el LLM, incluso logrando que todos los artículos reciban evaluaciones positivas, elevando la puntuación media de 5,34 a 7,99. Más preocupante aún, la concordancia entre los resultados de la revisión del LLM manipulado y los de los revisores humanos disminuyó notablemente, indicando una considerable pérdida de fiabilidad.
Además, el estudio identificó un método de manipulación más sutil: la manipulación implícita. Los autores pueden guiar al LLM a repetir las deficiencias mencionando sutilmente algunos defectos menores en el artículo.
Los LLM son más susceptibles a este tipo de manipulación que los revisores humanos, con una probabilidad 4,5 veces mayor de repetir las limitaciones declaradas por el autor. Esta táctica permite a los autores responder más fácilmente a las observaciones durante la fase de defensa, obteniendo así una ventaja injusta.
El estudio también reveló deficiencias inherentes a la revisión mediante LLM:
Alucinaciones: Incluso sin contenido, el LLM genera opiniones de revisión coherentes. Por ejemplo, al introducir un artículo en blanco, el LLM puede afirmar que "el artículo propone un método novedoso". Incluso con solo el título del artículo, el LLM puede dar una puntuación similar a la de un artículo completo.
Preferencias por artículos largos: El sistema de revisión por LLM tiende a otorgar puntuaciones más altas a los artículos más largos, lo que sugiere un posible sesgo basado en la longitud del artículo.
Sesgo del autor: En la revisión ciega simple, si el autor pertenece a una institución de renombre o es un académico conocido, el sistema de revisión por LLM tiende a dar evaluaciones positivas, lo que puede exacerbar la injusticia en el proceso de revisión.
Para verificar aún más estos riesgos, los investigadores realizaron experimentos con diferentes LLM, incluyendo Llama-3.1-70B-Instruct, DeepSeek-V2.5 y Qwen-2.5-72B-Instruct. Los resultados mostraron que todos estos LLM son susceptibles a la manipulación implícita y enfrentan problemas de alucinación similares. Los investigadores encontraron una correlación positiva entre el rendimiento del LLM y su consistencia con las revisiones humanas, pero incluso el modelo más potente, GPT-4, no pudo evitar completamente estos problemas.
Los investigadores utilizaron una gran cantidad de datos de revisión pública de ICLR2024 para sus experimentos. Los resultados mostraron que la manipulación explícita puede hacer que las opiniones de revisión del LLM estén casi completamente controladas por el contenido manipulado, con una consistencia del 90%, y provocar que todos los artículos reciban comentarios positivos. Además, la manipulación del 5% de las opiniones de revisión puede hacer que el 12% de los artículos pierdan su posición en el 30% superior del ranking.
Los investigadores destacan que la robustez actual de los LLM no es suficiente para sustituir a los revisores humanos en la revisión académica. Recomiendan que se suspenda el uso de LLM para la revisión por pares hasta que se comprendan mejor estos riesgos y se implementen medidas de seguridad efectivas. Asimismo, los organizadores de revistas y congresos deben implementar herramientas de detección y medidas de rendición de cuentas para identificar y abordar la manipulación maliciosa de los autores y el uso de LLM por parte de los revisores en lugar del juicio humano.
Los investigadores consideran que los LLM pueden servir como herramientas auxiliares, proporcionando retroalimentación y perspectivas adicionales a los revisores, pero nunca deben reemplazar el juicio humano. Hacen un llamado a la comunidad académica para que continúe explorando métodos para hacer que los sistemas de revisión asistidos por LLM sean más robustos y seguros, maximizando así el potencial de los LLM mientras se mitigan los riesgos.
Dirección del artículo: https://arxiv.org/pdf/2412.01708