Récemment, Google a annoncé le lancement de DataGemma, un nouveau modèle d'IA open source conçu pour résoudre le problème des « hallucinations » souvent rencontrées par les grands modèles de langage (LLM) lors du traitement de données statistiques.

Ce phénomène d'hallucination amène les modèles à fournir des réponses inexactes lorsqu'ils sont interrogés sur des chiffres et des statistiques. Le lancement de DataGemma marque une avancée importante pour Google dans le domaine de l'IA.

Enquête par questionnaire, rapport de données

Source : Image générée par IA, fournisseur de services d'autorisation d'images : Midjourney

Réduction des hallucinations lors des requêtes statistiques

DataGemma est composé de deux méthodes distinctes visant à améliorer la précision des réponses aux questions des utilisateurs. Ces modèles s'appuient sur l'énorme quantité de données réelles du Data Commons, la plateforme de partage de données de Google, qui contient plus de 240 milliards de points de données couvrant des informations dans des domaines tels que l'économie, la science et la santé. Cela fournit aux modèles une base factuelle solide.

Ces deux nouveaux modèles sont disponibles sur Hugging Face à des fins académiques et de recherche. Ils sont construits sur la base des modèles ouverts existants de la série Gemma et utilisent une grande quantité de données réelles provenant de la plateforme Data Commons créée par Google pour étayer leurs réponses. Cette plateforme publique fournit un graphe de connaissances ouvert contenant plus de 240 milliards de points de données provenant d'organisations fiables dans les domaines de l'économie, des sciences, de la santé et d'autres domaines.

Accès au modèle : https://huggingface.co/collections/google/datagemma-release-66df7636084d2b150a4e6643

Les chercheurs de Google ont déclaré avoir exploré de multiples aspects du phénomène d'hallucination des modèles, tentant d'identifier les causes de ce problème. Les modèles traditionnels sont parfois peu performants pour traiter les problèmes de logique et d'arithmétique, et les données statistiques publiques sont souvent présentées sous des formats variés et avec des informations contextuelles complexes, ce qui les rend difficiles à comprendre.

Pour résoudre ces problèmes, les chercheurs de Google ont combiné deux nouvelles méthodes. La première, appelée « Retrieval-Augmented Generation » (RAG), permet au modèle d'extraire les variables pertinentes en fonction de la question statistique initiale et de construire une requête en langage naturel, puis d'obtenir les données pertinentes via Data Commons. Dans ce cas, le modèle Gemma finement réglé utilise la question statistique initiale pour extraire les variables pertinentes et générer une requête en langage naturel pour Data Commons. La requête est ensuite exécutée sur la base de données pour obtenir les informations/tableaux statistiques pertinents. Une fois les valeurs extraites, elles sont utilisées avec la requête utilisateur initiale pour inviter un LLM à long contexte (Gemini 1.5 Pro dans ce cas) à générer une réponse finale avec une grande précision.

La seconde, appelée « Retrieval-Interleaved Generation » (RIG), améliore la précision en comparant la réponse générée par le modèle aux informations statistiques correspondantes dans Data Commons. Pour ce faire, un LLM finement réglé génère une requête en langage naturel décrivant la valeur générée initialement par le LLM. Une fois la requête prête, un pipeline de post-traitement multi-modèles la convertit en requête de données structurées et l'exécute pour récupérer les réponses statistiques pertinentes de Data Commons, puis renvoie ou corrige la génération du LLM avec les citations correspondantes.

Amélioration significative de la précision

Lors des tests préliminaires, le modèle DataGemma utilisant la méthode RIG a permis d'améliorer la précision factuelle du modèle de base de 5-17 % à environ 58 %. La méthode RAG, bien que légèrement moins performante, a tout de même surpassé le modèle de base.

Les données montrent que DataGemma peut répondre correctement à 24-29 % des questions statistiques, avec une précision numérique atteignant 99 %, mais qu'il commet encore des erreurs de 6 à 20 % lors de la déduction de conclusions correctes.

Google espère que la publication de DataGemma permettra de faire progresser les recherches dans ce domaine et de jeter des bases plus solides pour les futurs modèles Gemma et Gemini. Les recherches de Google se poursuivent et l'entreprise prévoit d'intégrer ces améliorations dans davantage de modèles après des tests rigoureux.

Points clés :

🌟 Google lance le modèle DataGemma pour réduire les erreurs de l'IA dans les requêtes statistiques.

📊 DataGemma utilise la plateforme de partage de données de Google pour améliorer la précision des réponses du modèle.

🔍 Les tests préliminaires montrent une amélioration significative de la précision des requêtes statistiques avec DataGemma.