Récemment, Vectara a publié un rapport intitulé « Classement des hallucinations », comparant les performances de différents grands modèles de langage (LLM) en matière de génération d'hallucinations lors de la synthèse de courts documents. Ce classement utilise le modèle d'évaluation des hallucinations de Hughes de Vectara (HHEM-2.1), un modèle régulièrement mis à jour, visant à évaluer la fréquence à laquelle ces modèles introduisent de fausses informations dans les résumés. Selon les dernières données, le rapport indique une série d'indicateurs clés pour une variété de modèles populaires : taux d'hallucinations, taux de cohérence factuelle, taux de réponse et longueur moyenne des résumés.

QQ_1740014003307.png

Dans le dernier classement, la série Gemini 2.0 de Google se distingue, en particulier Gemini-2.0-Flash-001, qui arrive en tête avec un faible taux d'hallucinations de 0,7 %, démontrant qu'il introduit pratiquement aucune fausse information lors du traitement de documents. De plus, Gemini-2.0-Pro-Exp et le modèle o3-mini-high-reasoning d'OpenAI suivent de près avec un taux d'hallucinations de 0,8 %, affichant également d'excellentes performances.

Le rapport montre également que, bien que le taux d'hallucinations de nombreux modèles ait augmenté, la plupart restent à un niveau faible, et le taux de cohérence factuelle de la plupart des modèles est supérieur à 95 %, ce qui indique une capacité relativement forte à garantir la véracité des informations. Il est particulièrement intéressant de noter que le taux de réponse des modèles est généralement élevé, la grande majorité des modèles affichant un taux de réponse proche de 100 %, ce qui signifie qu'ils excellent dans la compréhension et la réponse aux questions.

Par ailleurs, le classement mentionne également la longueur moyenne des résumés pour différents modèles, illustrant les différences de capacité des modèles en matière de concision de l'information. Globalement, ce classement fournit non seulement des données de référence importantes pour les chercheurs et les développeurs, mais il permet également aux utilisateurs ordinaires de mieux comprendre les performances actuelles des grands modèles de langage.

Lien vers le classement complet : https://github.com/vectara/hallucination-leaderboard

Points clés :

🌟 Le dernier classement des hallucinations évalue les performances des différents grands modèles de langage dans la synthèse de documents.

🔍 Les modèles de la série Google Gemini se distinguent, avec un faible taux d'hallucinations de 0,7 %.

📊 Le taux de réponse des modèles est proche de 100 %, démontrant leur efficacité dans le traitement de l'information.