Una investigación reciente liderada por el Instituto Tecnológico de Israel revela que los grandes modelos lingüísticos (LLM) podrían tener un conocimiento "oculto", mucho mayor del que demuestran. Los investigadores descubrieron que la representación interna de los LLM codifica información sobre la corrección de sus respuestas, incluso cuando generan respuestas incorrectas; internamente, pueden identificar la respuesta correcta.

El equipo de investigación se centró en el análisis de los errores de los LLM en la generación de textos largos, un escenario más cercano a sus aplicaciones en el mundo real. Crearon un conjunto de datos para la detección de errores, comparando las respuestas generadas por el modelo con las respuestas correctas para determinar su precisión. Con base en esto, investigaron la ubicación de las señales de veracidad codificadas en la representación interna del LLM.

image.png

El estudio descubrió que, a diferencia de investigaciones anteriores que se centraban en la última marca generada o en el promedio, la información de veracidad se concentra en las "marcas de respuesta precisa", es decir, aquellas marcas que, al modificarse, alteran la corrección de la respuesta. Por ejemplo, en la pregunta "¿Cuál es la capital de Connecticut?", la marca de respuesta precisa sería "Hartford".

Para identificar las marcas de respuesta precisa, los investigadores utilizaron un algoritmo externo capaz de extraer la respuesta precisa de las respuestas extensas del modelo. Los resultados experimentales mostraron que todos los LLM evaluados pudieron extraer la respuesta precisa de su propia salida.

A través de experimentos con diferentes modelos y conjuntos de datos, los investigadores descubrieron que el uso de las marcas de respuesta precisa mejora significativamente el rendimiento de los métodos de detección de errores, especialmente al explorar la representación interna del modelo.

Sorprendentemente, incluso cuando el modelo no mostró preferencia por la respuesta correcta durante el proceso de generación, el detector pudo identificar eficazmente la respuesta correcta. Esto indica una desconexión significativa entre la codificación interna y el comportamiento externo del LLM; aunque el modelo conoce internamente la respuesta correcta, puede generar una respuesta incorrecta en el texto real.

Esta investigación tiene una importancia significativa para el análisis y la mejora de los errores de los LLM. Comprender a fondo cómo se codifican las señales de veracidad en la representación interna de los LLM permite desarrollar métodos más eficaces de detección y corrección de errores, mejorando así la fiabilidad y utilidad de los LLM.

Enlace del artículo: https://arxiv.org/pdf/2410.02707