L'équipe IMPACT (Implementation et Concepts Avancés inter-agences) de la NASA, en collaboration avec des partenaires privés et non fédéraux via des accords Space Act, a développé conjointement INDUS. Il s'agit d'un grand modèle linguistique (LLM) destiné aux domaines des sciences de la Terre, des sciences biologiques et physiques, de l'héliophysique, des sciences planétaires et de l'astrophysique, entraîné sur une documentation scientifique organisée provenant de sources de données diversifiées.

image.png

INDUS comprend deux types de modèles : un encodeur et un traducteur de phrases. L'encodeur convertit le texte en langage naturel en un codage numérique pouvant être traité par le LLM. L'encodeur INDUS a été entraîné sur un corpus de 6 milliards de jetons contenant des données d'astrophysique, de sciences planétaires, de sciences de la Terre, d'héliophysique, de sciences biologiques et de sciences physiques. Un tokeniseur personnalisé, développé par l'équipe de collaboration IMPACT-IBM, améliore le tokeniseur générique en identifiant des termes scientifiques tels que les biomarqueurs et la phosphorylation. Plus de la moitié des 50 000 mots d'INDUS sont uniques aux domaines scientifiques spécifiques utilisés pour son entraînement. Le modèle d'encodeur INDUS a été affiné sur environ 268 millions de paires de textes, notamment titre/résumé et question/réponse.

Grâce à un vocabulaire spécifique au domaine fourni à INDUS, l'équipe IMPACT-IBM a obtenu de meilleurs résultats que les LLM ouverts et non spécifiques au domaine sur les tests de référence des tâches biomédicales, les tests de référence de questions-réponses scientifiques et les tests d'identification d'entités en sciences de la Terre. Grâce à la conception de tâches linguistiques diversifiées et à la génération améliorée par la recherche, INDUS est capable de traiter les questions des chercheurs, de récupérer les documents pertinents et de générer des réponses. Pour les applications sensibles aux délais, l'équipe a développé des versions plus petites et plus rapides des modèles d'encodeur et de traducteur de phrases.

Des tests de validation ont montré qu'INDUS pouvait récupérer des passages pertinents de la documentation scientifique lorsqu'il répondait à un ensemble de tests comprenant environ 400 questions de la NASA. Bishwaranjan Bhattacharjee, chercheur chez IBM, a commenté la méthode globale : « Nous avons obtenu d'excellents résultats grâce non seulement à un vocabulaire personnalisé, mais aussi à un grand nombre de modèles d'encodeurs spécialement entraînés et à de bonnes stratégies d'entraînement. Pour les versions plus petites et plus rapides, nous avons utilisé la recherche d'architecture neuronale pour obtenir l'architecture du modèle et l'entraînement par distillation de connaissances supervisé par un modèle plus grand. »

Points clés :

- 🚀La NASA et IBM ont collaboré pour développer INDUS, un grand modèle linguistique adapté aux domaines des sciences de la Terre, des sciences biologiques et physiques, de l'héliophysique, des sciences planétaires et de l'astrophysique.

- 🎓INDUS comprend deux types de modèles : un encodeur et un traducteur de phrases. Il est entraîné à l'aide d'un tokeniseur personnalisé et d'un corpus de 6 milliards de jetons, et affiné sur environ 268 millions de paires de textes.

- 💡Grâce à un vocabulaire spécifique au domaine et à la conception de tâches linguistiques diversifiées et d'une génération améliorée par la recherche, INDUS surpasse les LLM ouverts et non spécifiques au domaine. Il est capable de traiter les questions des chercheurs, de récupérer les documents pertinents et de générer des réponses.