Recientemente, Vectara publicó un informe titulado "Tabla de clasificación de alucinaciones", que compara el rendimiento de diferentes modelos de lenguaje grandes (LLM) en la generación de alucinaciones al resumir documentos cortos. Esta tabla de clasificación utiliza el modelo de evaluación de alucinaciones Hughes de Vectara (HHEM-2.1), un modelo que se actualiza periódicamente y que está diseñado para evaluar la frecuencia con la que estos modelos introducen información falsa en los resúmenes. Según los datos más recientes, el informe indica una serie de indicadores clave para varios modelos populares, incluyendo la tasa de alucinaciones, la tasa de consistencia fáctica, la tasa de respuesta y la longitud promedio del resumen.

QQ_1740014003307.png

En la última tabla de clasificación, la serie Gemini 2.0 de Google obtuvo un excelente rendimiento, especialmente Gemini-2.0-Flash-001, que ocupó el primer lugar con una baja tasa de alucinaciones del 0,7%, lo que demuestra que prácticamente no introduce información falsa al procesar documentos. Además, Gemini-2.0-Pro-Exp y el modelo o3-mini-high-reasoning de OpenAI le siguen de cerca con una tasa de alucinaciones del 0,8%, mostrando también un buen desempeño.

El informe también muestra que, aunque la tasa de alucinaciones de muchos modelos ha aumentado, la mayoría se mantiene en un nivel bajo, y la tasa de consistencia fáctica de la mayoría de los modelos es superior al 95%, lo que indica que su capacidad para asegurar la veracidad de la información es relativamente sólida. Cabe destacar que la tasa de respuesta de los modelos es generalmente alta, con la mayoría de los modelos acercándose al 100%, lo que significa que muestran un excelente rendimiento en la comprensión y respuesta a las preguntas.

Además, la tabla de clasificación también menciona la longitud promedio del resumen de diferentes modelos, lo que ilustra las diferencias en la capacidad de los modelos para condensar información. En general, esta tabla de clasificación no solo proporciona datos de referencia importantes para investigadores y desarrolladores, sino que también facilita a los usuarios comunes la comprensión del rendimiento actual de los modelos de lenguaje grandes.

Enlace a la clasificación completa: https://github.com/vectara/hallucination-leaderboard

Puntos clave:

🌟 La última tabla de clasificación de alucinaciones evalúa el rendimiento de diferentes modelos de lenguaje grandes en el resumen de documentos.

🔍 Los modelos de la serie Gemini de Google destacan con una baja tasa de alucinaciones del 0,7%.

📊 La tasa de respuesta de los modelos se acerca al 100%, mostrando su alta eficiencia en el procesamiento de información.