Récemment, des chercheurs de Microsoft Research, en collaboration avec les universités de Washington, Stanford, Southern California, ainsi que les universités de Californie à Davis et à San Francisco, ont présenté LLaVA-Rad, un nouveau modèle multi-modal compact (SMM) conçu pour améliorer l'efficacité de la génération de rapports de radiologie clinique. Le lancement de ce modèle marque non seulement une avancée majeure dans le traitement d'images médicales, mais ouvre également de nouvelles perspectives pour les applications cliniques de la radiologie.

db73a539-416b-4dd8-acfe-b9a708b61f59.png

Dans le domaine biomédical, la recherche basée sur des modèles de base à grande échelle a démontré un fort potentiel, notamment grâce au développement de l'IA multimodale générative capable de traiter simultanément du texte et des images, permettant ainsi des tâches telles que la réponse aux questions visuelles et la génération de rapports de radiologie. Cependant, de nombreux défis persistent, tels que les besoins excessifs en ressources des grands modèles, rendant leur déploiement difficile en milieu clinique. Les modèles multimodaux compacts, bien qu'améliorant l'efficacité, présentent des performances significativement inférieures à celles des grands modèles. De plus, le manque de modèles open source et de méthodes fiables d'évaluation de l'exactitude factuelle limite leurs applications cliniques.

Le modèle LLaVA-Rad a été entraîné sur un ensemble de données de 697 435 paires d'images radiologiques et de rapports provenant de sept sources différentes, se concentrant sur les images radiographiques thoraciques (CXR), le type d'examen d'imagerie médicale le plus courant. La conception du modèle repose sur une méthode d'entraînement modulaire, comprenant trois étapes : le pré-entraînement unimodal, l'alignement et le réglage fin, utilisant un mécanisme d'adaptateur efficace pour intégrer les modalités non textuelles dans l'espace d'intégration textuel. Bien que LLaVA-Rad soit plus petit que certains grands modèles, tels que Med-PaLM M, ses performances sont excellentes, notamment sur des indicateurs clés tels que ROUGE-L et F1-RadGraph, avec des améliorations de 12,1 % et 10,1 % respectivement par rapport à d'autres modèles similaires.

Il est à noter que LLaVA-Rad a maintenu des performances supérieures sur plusieurs ensembles de données, même lors de tests sur des données inconnues. Ceci est dû à sa conception modulaire et à son architecture d'utilisation efficace des données. De plus, l'équipe de recherche a présenté CheXprompt, un indicateur de notation automatique de l'exactitude factuelle, résolvant ainsi les problèmes d'évaluation dans les applications cliniques.

La publication de LLaVA-Rad représente une avancée significative dans l'application des modèles de base en milieu clinique, offrant une solution légère et efficace pour la génération de rapports de radiologie, marquant une convergence accrue entre les besoins technologiques et cliniques.

Adresse du projet : https://github.com/microsoft/LLaVA-Med

Points clés :

🌟 LLaVA-Rad est un modèle multi-modal compact développé par l'équipe de recherche Microsoft, spécialisé dans la génération de rapports de radiologie.

💻 Ce modèle a été entraîné sur 697 435 paires d'images radiographiques thoraciques et de rapports, atteignant des performances efficaces et supérieures.

🔍 CheXprompt est un indicateur de notation automatique associé, permettant de résoudre les problèmes d'évaluation dans les applications cliniques.