L'équipe UCSC-VLAA est fière d'annoncer la sortie officielle de « MedTrinity-25M », un vaste ensemble de données multimodales. Ce jeu de données comprend 25 millions d'images médicales et leurs annotations détaillées. Il représente une avancée majeure dans le domaine médical, offrant des annotations multi-granulaires qui aideront les chercheurs à mieux comprendre et utiliser les données médicales pour entraîner des grands modèles multimodaux médicaux.

image.png

La création de MedTrinity-25M a été un processus complexe. L'équipe a minutieusement traité les données, extrait des informations clés de diverses sources, intégré des métadonnées, généré des titres sommaires, localisé les zones d'intérêt et rassemblé des connaissances médicales pertinentes. Plus intéressant encore, ils ont utilisé ces informations et des grands modèles linguistiques (LLM) pour générer des descriptions détaillées. Cette approche a non seulement amélioré l'utilisabilité des données, mais a également ouvert de nouvelles perspectives pour la recherche médicale.

image.png

En ce qui concerne le calendrier de publication, il est important de noter que l'ensemble de données démo de MedTrinity-25M a été mis en ligne dès juin 2024, tandis que l'ensemble de données complet a été officiellement publié le 21 juillet. Récemment, le 7 août, l'équipe a également publié un article scientifique connexe.

Outre l'ensemble de données lui-même, l'équipe fournit également une série de modèles pré-entraînés, tels que LLaVA-Med++, qui ont démontré d'excellentes performances dans plusieurs tâches médicales. Les chercheurs peuvent utiliser ces outils pour améliorer leurs projets et accélérer considérablement la recherche médicale.

MedTrinity-25M offre à la communauté médicale une ressource précieuse. Nous espérons que cet ensemble de données sera pleinement exploité pour faire progresser la recherche médicale.

Accès au projet : https://top.aibase.com/tool/medtrinity-25m