¿Pasas noches enteras trabajando en la revisión de literatura? ¿Te rompes la cabeza escribiendo artículos científicos? ¡No te preocupes! ¡Los expertos en investigación de AI2 llegan al rescate con su última creación, OpenScholar! Esta herramienta para mejorar la eficiencia en la investigación hará que la revisión de literatura sea tan fácil y agradable como un paseo por el parque.
El arma secreta más poderosa de OpenScholar es OpenScholar-Datastore (OSDS), una base de datos con 450 millones de artículos de acceso abierto y 237 millones de fragmentos de artículos incrustados. Con semejante reserva de conocimiento, OpenScholar puede enfrentarse con soltura a cualquier desafío de investigación.
Cuando te encuentras con un problema de investigación, OpenScholar despliega a sus mejores aliados: un buscador y un reordenador, que filtran rápidamente los fragmentos de artículos relevantes de OSDS. A continuación, un modelo de lenguaje (LM) proporciona una respuesta completa con referencias. Y lo que es aún más impresionante, OpenScholar mejora continuamente la respuesta basándose en tus comentarios en lenguaje natural, completando la información que falta hasta que estés satisfecho.
OpenScholar no solo es potente por sí mismo, sino que también ayuda a entrenar modelos más pequeños y eficientes. Los investigadores, utilizando el proceso de OpenScholar, generaron una gran cantidad de datos de entrenamiento de alta calidad, con los que entrenaron un modelo de lenguaje de 8 mil millones de parámetros llamado OpenScholar-8B, así como otros modelos de búsqueda.
Para probar exhaustivamente la eficacia de OpenScholar, los investigadores crearon un nuevo banco de pruebas llamado SCHOLARQABENCH. Este banco de pruebas incluye diversas tareas de revisión de literatura científica, como clasificación cerrada, selección múltiple y generación de textos largos, abarcando campos como la informática, la biomedicina, la física y la neurociencia. Para garantizar la imparcialidad y la equidad de la competición, SCHOLARQABENCH utiliza métodos de evaluación multifacéticos, incluyendo revisiones de expertos, métricas automáticas y pruebas de experiencia de usuario.
Tras varias rondas de intensa competición, ¡OpenScholar salió victorioso! Los resultados experimentales muestran que obtuvo un rendimiento excelente en todas las tareas, ¡incluso superando a los expertos humanos! Este logro revolucionario sin duda provocará una revolución en el campo de la investigación, permitiendo a los científicos dejar atrás las dificultades de la revisión de literatura y concentrarse en la exploración de los misterios de la ciencia.
La potencia de OpenScholar se debe principalmente a su exclusivo mecanismo de razonamiento mejorado mediante búsqueda con retroalimentación automática. En pocas palabras, se hace preguntas a sí mismo, mejora sus respuestas basándose en ellas y finalmente te presenta la respuesta más perfecta. ¿No es increíble?
Concretamente, el proceso de razonamiento con retroalimentación automática de OpenScholar se divide en tres pasos: generación de la respuesta inicial, generación de retroalimentación e integración de la retroalimentación. En primer lugar, el modelo de lenguaje genera una respuesta inicial basándose en los fragmentos de artículos recuperados. A continuación, se autocritica como un examinador riguroso, identificando las deficiencias y generando comentarios en lenguaje natural, como por ejemplo: "La respuesta solo incluye los resultados experimentales de la tarea de preguntas y respuestas; incluya los resultados de otros tipos de tareas". Finalmente, el modelo de lenguaje vuelve a buscar la literatura pertinente basándose en estos comentarios e integra toda la información para generar una respuesta más completa.
Para entrenar modelos más pequeños pero igualmente potentes, los investigadores también generaron una gran cantidad de datos de entrenamiento de alta calidad utilizando el proceso de razonamiento con retroalimentación automática de OpenScholar. Primero seleccionaron de la base de datos los artículos más citados y, a continuación, generaron preguntas de consulta de información basándose en los resúmenes de estos artículos. Finalmente, utilizaron el proceso de razonamiento de OpenScholar para generar respuestas de alta calidad. Estas respuestas y la información de retroalimentación generada en el proceso constituyen valiosos datos de entrenamiento. Los investigadores combinaron estos datos con datos de ajuste fino de instrucciones de dominio general y datos de ajuste fino de instrucciones de dominio científico para entrenar un modelo de lenguaje de 8 mil millones de parámetros llamado OpenScholar-8B.
Para evaluar de forma más exhaustiva el rendimiento de OpenScholar y otros modelos similares, los investigadores también crearon un nuevo conjunto de pruebas de referencia llamado SCHOLARQABENCH. Este conjunto de pruebas incluye 2967 preguntas de revisión de literatura escritas por expertos, que abarcan cuatro campos: informática, física, biomedicina y neurociencia. Cada pregunta tiene una respuesta larga escrita por expertos; de media, cada respuesta requiere aproximadamente una hora de trabajo de un experto. SCHOLARQABENCH también utiliza un método de evaluación multifacético que combina métricas automáticas y evaluaciones humanas para medir de forma más completa la calidad de las respuestas generadas por el modelo.
Los resultados experimentales muestran que OpenScholar supera con creces a otros modelos en SCHOLARQABENCH, ¡incluso superando en algunos aspectos a los expertos humanos! Por ejemplo, en el campo de la informática, la precisión de OpenScholar-8B es un 5% superior a la de GPT-4o y un 7% superior a la de PaperQA2. Además, la precisión de las citas de las respuestas generadas por OpenScholar es comparable a la de los expertos humanos, mientras que GPT-4o tiene una tasa de invención del 78-90%.
La aparición de OpenScholar es sin duda una gran noticia para el campo de la investigación. No solo ayuda a los investigadores a ahorrar una gran cantidad de tiempo y esfuerzo, sino que también mejora la calidad y la eficiencia de la revisión de literatura. Estamos seguros de que en un futuro próximo, OpenScholar se convertirá en un asistente indispensable para los investigadores.
Dirección del artículo: https://arxiv.org/pdf/2411.14199
Dirección del proyecto: https://github.com/AkariAsai/OpenScholar