Recientemente, investigadores de Microsoft Research, en colaboración con la Universidad de Washington, la Universidad de Stanford, la Universidad del Sur de California, la Universidad de California en Davis y la Universidad de California en San Francisco, presentaron LLaVA-Rad, un nuevo modelo multimodal pequeño (SMM) diseñado para mejorar la eficiencia en la generación de informes de radiología clínica. El lanzamiento de este modelo no solo representa un gran avance en la tecnología de procesamiento de imágenes médicas, sino que también abre nuevas posibilidades para las aplicaciones clínicas de la radiología.

db73a539-416b-4dd8-acfe-b9a708b61f59.png

En el campo de la biomedicina, las investigaciones basadas en modelos básicos a gran escala han demostrado un buen potencial de aplicación, especialmente con el desarrollo de la IA generativa multimodal, capaz de procesar simultáneamente texto e imágenes, lo que permite tareas como la respuesta a preguntas visuales y la generación de informes de radiología. Sin embargo, aún existen numerosos desafíos, como la elevada demanda de recursos de los modelos grandes, lo que dificulta su despliegue generalizado en entornos clínicos. Aunque los modelos multimodales pequeños han mejorado la eficiencia, su rendimiento sigue siendo significativamente inferior al de los modelos grandes. Además, la falta de modelos de código abierto y de métodos fiables para evaluar la precisión fáctica limita su aplicación clínica.

El modelo LLaVA-Rad se entrenó con un conjunto de datos de 697.435 pares de imágenes radiológicas e informes de siete fuentes diferentes, centrándose en imágenes de rayos X de tórax (CXR), el tipo de examen de imagen médica más común. El diseño del modelo utiliza un método de entrenamiento modular, que incluye tres etapas: preentrenamiento unimodal, alineación y ajuste fino, utilizando un mecanismo de adaptadores eficiente para incrustar modalidades no textuales en el espacio de incrustación de texto. A pesar de que LLaVA-Rad es más pequeño que algunos modelos grandes, como Med-PaLM M, su rendimiento es excelente, especialmente en indicadores clave como ROUGE-L y F1-RadGraph, con una mejora del 12,1% y el 10,1% respectivamente, en comparación con otros modelos similares.

Cabe destacar que LLaVA-Rad mantiene un rendimiento superior en varios conjuntos de datos, incluso en pruebas con datos no vistos. Todo esto se debe a su diseño modular y a su arquitectura de utilización eficiente de datos. Además, el equipo de investigación también presentó CheXprompt, un indicador de puntuación automática de la exactitud fáctica, que resuelve aún más los problemas de evaluación en las aplicaciones clínicas.

El lanzamiento de LLaVA-Rad supone un gran paso adelante en el impulso de la aplicación de modelos básicos en entornos clínicos, ofreciendo una solución ligera y eficiente para la generación de informes de radiología, lo que representa una mayor integración entre la tecnología y las necesidades clínicas.

Dirección del proyecto: https://github.com/microsoft/LLaVA-Med

Puntos clave:

🌟 LLaVA-Rad es un modelo multimodal pequeño desarrollado por el equipo de investigación de Microsoft, especializado en la generación de informes de radiología.

💻 Este modelo se entrenó con 697.435 pares de imágenes de rayos X de tórax e informes, logrando un rendimiento eficiente y superior.

🔍 CheXprompt es un indicador de puntuación automática complementario que ayuda a resolver los problemas de evaluación en las aplicaciones clínicas.