La aparición de los grandes modelos lingüísticos (LLM), especialmente la popularización de aplicaciones como ChatGPT, ha revolucionado la forma en que interactuamos con las máquinas. Estos modelos pueden generar textos coherentes y completos, lo cual resulta impresionante. Sin embargo, a pesar de su gran capacidad, los LLM son propensos a las "alucinaciones", es decir, a generar contenido que parece real pero que en realidad es ficticio, sin sentido o inconsistente con la indicación.

image.png

Investigadores de la Universidad de Harvard han estudiado a fondo el fenómeno de las "alucinaciones" en los LLM, descubriendo que su origen radica en el principio de funcionamiento de estos modelos. Los LLM construyen modelos probabilísticos mediante el aprendizaje automático a partir de una gran cantidad de datos de texto, y predicen la siguiente palabra basándose en la probabilidad de co-ocurrencia de las palabras. En otras palabras, los LLM no comprenden realmente el significado del lenguaje, sino que realizan predicciones basadas en probabilidades estadísticas.

Los investigadores comparan los LLM con un proceso de "externalización", argumentando que los LLM en realidad están generando un "consenso de la red". Al igual que plataformas como Wikipedia o Reddit, los LLM extraen información de una gran cantidad de datos de texto y generan la respuesta más común. Dado que la mayor parte del uso del lenguaje se centra en describir el mundo, las respuestas generadas por los LLM suelen ser precisas.

Sin embargo, cuando los LLM se enfrentan a temas ambiguos, controvertidos o que carecen de consenso, aparecen las "alucinaciones". Para verificar esta hipótesis, los investigadores diseñaron una serie de experimentos para evaluar el rendimiento de diferentes LLM al procesar diferentes temas. Los resultados de los experimentos demostraron que los LLM funcionan bien con temas comunes, pero su precisión disminuye notablemente al tratar temas ambiguos o controvertidos.

Este estudio demuestra que, si bien los LLM son herramientas potentes, su precisión depende de la calidad y la cantidad de los datos de entrenamiento. Al utilizar LLM, especialmente al tratar temas ambiguos o controvertidos, es necesario ser cauteloso con los resultados obtenidos. Esta investigación también proporciona una dirección para el futuro desarrollo de los LLM, es decir, mejorar la capacidad de los LLM para procesar temas ambiguos y controvertidos, y aumentar la explicabilidad de sus resultados.

Enlace al artículo: https://dl.acm.org/doi/pdf/10.1145/3688007