Recentemente, pesquisadores da Microsoft Research, em colaboração com as universidades de Washington, Stanford, Southern California, Davis e San Francisco, lançaram o LLaVA-Rad, um novo modelo multimodal pequeno (SMM) projetado para melhorar a eficiência da geração de laudos radiológicos clínicos. O lançamento deste modelo não apenas representa um grande avanço na tecnologia de processamento de imagens médicas, mas também abre novas possibilidades para aplicações clínicas em radiologia.
Na área biomédica, pesquisas baseadas em modelos básicos de larga escala têm demonstrado promissoras aplicações, especialmente com o desenvolvimento da IA generativa multimodal, capaz de processar simultaneamente texto e imagens, suportando tarefas como perguntas e respostas visuais e geração de laudos radiológicos. No entanto, ainda existem muitos desafios, como a alta demanda de recursos dos grandes modelos, dificultando sua ampla implantação em ambientes clínicos. Embora os modelos multimodais pequenos apresentem melhorias na eficiência, seu desempenho ainda apresenta uma lacuna significativa em comparação com os modelos grandes. Além disso, a falta de modelos de código aberto e métodos confiáveis de avaliação da precisão factual limita as aplicações clínicas.
O modelo LLaVA-Rad foi treinado em um conjunto de dados de 697.435 pares de imagens e laudos radiológicos de sete fontes diferentes, focando em imagens de raio-X de tórax (CXR), o tipo mais comum de exame de imagem médica. O design do modelo utiliza um método de treinamento modular, incluindo três etapas: pré-treinamento unimodal, alinhamento e ajuste fino, utilizando um mecanismo de adaptador eficiente para incorporar modalidades não textuais no espaço de incorporação de texto. Apesar de seu tamanho menor em comparação com modelos grandes, como o Med-PaLM M, o LLaVA-Rad apresentou desempenho superior, especialmente nos indicadores-chave ROUGE-L e F1-RadGraph, com melhorias de 12,1% e 10,1%, respectivamente, em relação a outros modelos semelhantes.
Vale destacar que o LLaVA-Rad manteve um desempenho superior em vários conjuntos de dados, mostrando estabilidade mesmo em testes com dados não vistos. Isso se deve ao seu design modular e arquitetura eficiente de utilização de dados. Além disso, a equipe de pesquisa lançou o CheXprompt, um indicador de pontuação automática de precisão factual, resolvendo ainda mais os problemas de avaliação em aplicações clínicas.
O lançamento do LLaVA-Rad representa um grande passo na direção da aplicação de modelos básicos em ambientes clínicos, oferecendo uma solução leve e eficiente para a geração de laudos radiológicos, marcando uma maior integração entre tecnologia e necessidades clínicas.
Endereço do projeto: https://github.com/microsoft/LLaVA-Med
Destaques:
🌟 O LLaVA-Rad é um modelo multimodal pequeno lançado pela equipe de pesquisa da Microsoft, focado na geração de laudos radiológicos.
💻 O modelo foi treinado com 697.435 pares de imagens de raio-X de tórax e laudos, alcançando desempenho eficiente e superior.
🔍 O CheXprompt é um indicador de pontuação automática lançado juntamente com o modelo, ajudando a resolver problemas de avaliação em aplicações clínicas.