Récemment, l'équipe d'apprentissage automatique de Vectara a mené des tests approfondis sur les hallucinations des deux modèles de la série DeepSeek. Les résultats montrent que le taux d'hallucinations de DeepSeek-R1 atteint 14,3 %, significativement supérieur aux 3,9 % de son prédécesseur, DeepSeek-V3. Cela indique que, lors de l'amélioration du raisonnement, DeepSeek-R1 génère davantage de contenu inexact ou incohérent avec les informations d'origine. Ce résultat a suscité un large débat sur le taux d'hallucinations des grands modèles linguistiques (LLM) à raisonnement amélioré.
Source de l'image : image générée par IA, fournie par Midjourney
L'équipe de recherche souligne que les modèles à raisonnement amélioré peuvent être plus sujets aux hallucinations que les grands modèles linguistiques classiques. Ce phénomène est particulièrement évident dans la comparaison entre la série DeepSeek et d'autres modèles à raisonnement amélioré. Par exemple, la différence de taux d'hallucinations entre GPT-o1 (à raisonnement amélioré) et GPT-4o (version standard) confirme cette hypothèse.
Pour évaluer les performances des deux modèles, les chercheurs ont utilisé le modèle HHEM de Vectara et la méthode FACTS de Google. HHEM, un outil spécialisé de détection des hallucinations, s'est montré plus sensible à la hausse du taux d'hallucinations de DeepSeek-R1, tandis que le modèle FACTS a été moins performant à cet égard. Cela suggère que HHEM pourrait être plus efficace qu'un LLM comme standard.
Il est important de noter que DeepSeek-R1, bien qu'excellent en termes de capacités de raisonnement, présente un taux d'hallucinations plus élevé. Cela pourrait être lié à la complexité logique que les modèles à raisonnement amélioré doivent traiter. Plus la complexité du raisonnement du modèle augmente, plus la précision du contenu généré peut être affectée. L'équipe de recherche souligne également que si DeepSeek se concentrait davantage sur la réduction des hallucinations lors de la phase d'entraînement, il serait peut-être possible d'atteindre un meilleur équilibre entre capacité de raisonnement et précision.
Bien que les modèles à raisonnement amélioré présentent généralement un taux d'hallucinations plus élevé, cela ne signifie pas qu'ils ne présentent pas d'autres avantages. Pour la série DeepSeek, il reste nécessaire de résoudre le problème des hallucinations lors des recherches et optimisations ultérieures afin d'améliorer les performances globales du modèle.
Références : https://www.vectara.com/blog/deepseek-r1-hallucinates-more-than-deepseek-v3