Ces dernières années, les grands modèles linguistiques (LLM) ont vu leur utilisation se généraliser dans divers domaines, de la création de contenu à l'assistance à la programmation, en passant par l'optimisation des moteurs de recherche, démontrant ainsi leurs capacités impressionnantes. Cependant, dans le domaine de la recherche biomédicale, l'application de ces modèles reste confrontée à des défis en termes de transparence, de reproductibilité et de personnalisation.

Pour répondre à ce problème, l'Université de Heidelberg et l'Institut européen de bioinformatique (EMBL-EBI) ont conjointement proposé un framework Python open source : BioChatter, visant à faciliter l'utilisation des LLM pour les chercheurs en biomédecine.

IRM médicale (2)

Source : Image générée par IA, fournisseur de services d'autorisation d'images Midjourney

BioChatter a été conçu pour simplifier la complexité technique, permettant aux chercheurs de se concentrer sur leurs recherches sans se soucier des compétences en programmation ou en apprentissage automatique. Ce framework permet aux chercheurs d'extraire des données pertinentes à partir de bases de données et de la littérature biomédicale, et d'accéder en temps réel à des informations provenant d'outils bioinformatiques externes. Ceci est rendu possible grâce à l'intégration transparente de BioChatter avec le graphe de connaissances BioCypher, qui relie des données importantes telles que les mutations génétiques et les associations médicament-maladie, supportant ainsi grandement l'analyse d'ensembles de données complexes.

Les fonctionnalités principales de BioChatter incluent : une interaction de questions-réponses basique avec divers grands modèles linguistiques, une ingénierie d'invite reproductible, des requêtes sur le graphe de connaissances, la génération améliorée par la recherche, et l'appel en chaîne de modèles. Plus convivial encore, BioChatter fournit une interface API intuitive permettant aux chercheurs d'intégrer facilement ses fonctionnalités dans des applications Web, des interfaces en ligne de commande ou des notebooks Jupyter.

Lors de l'évaluation expérimentale, l'équipe de recherche a créé des tests de référence personnalisés afin d'évaluer plus précisément les performances de BioChatter. Les résultats ont montré que les modèles utilisant BioChatter étaient nettement meilleurs pour générer des requêtes correctes que les modèles n'utilisant pas de moteur d'invite, ce qui fournit un soutien solide à l'application pratique de BioChatter.

À l'avenir, l'équipe BioChatter continuera à collaborer avec des bases de données de sciences de la vie telles qu'Open Targets, afin d'intégrer des données de génétique humaine et de génomique pour aider les utilisateurs à identifier et à hiérarchiser plus efficacement les cibles médicamenteuses. De plus, ils développent un système complémentaire appelé BioGather, visant à extraire des informations à partir d'autres types de données cliniques telles que les données génomiques, les notes médicales et les images, afin de résoudre des problèmes complexes en médecine personnalisée et en développement de médicaments.

Grâce à BioChatter, les scientifiques du domaine de la recherche biomédicale pourront utiliser les LLM plus efficacement, stimulant ainsi le progrès et l'innovation dans la recherche scientifique.