In den letzten Jahren hat die künstliche Intelligenz (KI) im Gesundheitswesen zunehmend an Bedeutung gewonnen, insbesondere in der Diagnose und Therapieplanung von Krankheiten. Die Entwicklung großer medizinischer visueller Sprachmodelle (Med-LVLMs) eröffnet neue Möglichkeiten für intelligentere medizinische Diagnosewerkzeuge. Allerdings stellen diese Modelle in der Praxis oft ein nicht zu vernachlässigendes Problem dar: Faktenhalluzinationen. Dieses Phänomen kann nicht nur zu falschen Diagnoseergebnissen führen, sondern auch schwerwiegende Folgen für die Gesundheit der Patienten haben.

image.png

Um dieses Problem der medizinischen KI zu lösen, haben Forscher ein neuartiges, multimodalitätsgestütztes Retrieval-Augmented-Generation-System (MMed-RAG) entwickelt. Ziel dieses Systems ist es, die faktische Genauigkeit von Med-LVLMs zu verbessern und so die Zuverlässigkeit der medizinischen Diagnose zu erhöhen. Das größte Highlight von MMed-RAG ist sein domänenbewusster Retrieval-Mechanismus, der es ermöglicht, verschiedene Arten von medizinischen Bildern effizienter und genauer zu verarbeiten.

Konkret verwendet MMed-RAG ein Domänenidentifikationsmodul, das anhand des eingegebenen medizinischen Bildes automatisch das am besten geeignete Retrieval-Modell auswählt. Diese adaptive Auswahl erhöht nicht nur die Genauigkeit des Retrievals, sondern stellt auch sicher, dass das System schnell auf die Anforderungen verschiedener medizinischer Bilder reagieren kann. Wenn beispielsweise ein Arzt ein radiologisches Bild hochlädt, kann das System sofort erkennen, um welches Gebiet es sich handelt, und das entsprechende Modell zur Analyse auswählen.

Darüber hinaus verwendet MMed-RAG eine adaptive Kalibrierungsmethode zur intelligenten Auswahl der Anzahl der abgerufenen Kontexte. Bisher haben viele Systeme beim Retrieval eine große Menge an Informationen gleichzeitig abgerufen, wobei diese Informationen jedoch nicht immer für die endgültige Diagnose hilfreich sind. MMed-RAG wählt durch adaptive Kalibrierung in verschiedenen Szenarien die optimalen Kontextinformationen aus und verbessert so die Effizienz der Informationsnutzung.

Aufbauend auf diesem System integriert MMed-RAG auch eine RAG-basierte Präferenz-Feinabstimmungsstrategie. Ziel dieser Strategie ist es, die Cross-Modal- und die Gesamt-Ausrichtung bei der Generierung von Antworten zu verbessern.

image.png

Konkret wurden Präferenzpaare entworfen, die das Modell dazu anregen, bei der Generierung von Antworten medizinische Bilder vollumfänglich zu nutzen. Selbst wenn einige Antworten ohne Bild korrekt sind, sollten sie möglichst vermieden werden. Dies erhöht nicht nur die Genauigkeit der Diagnose, sondern hilft dem Modell auch, bei Unsicherheiten die abgerufenen Kontextinformationen besser zu verstehen und sich nicht von irrelevanten Daten beeinflussen zu lassen.

Tests an mehreren medizinischen Datensätzen zeigen, dass MMed-RAG hervorragende Ergebnisse liefert. Die Forscher stellten fest, dass das System die faktische Genauigkeit um durchschnittlich 43,8 % verbessert hat, was die Zuverlässigkeit der medizinischen KI erheblich steigert. Dieses Ergebnis gibt der intelligenten Entwicklung im Gesundheitswesen nicht nur neuen Schwung, sondern bietet auch wertvolle Anregungen für die zukünftige Entwicklung medizinischer Diagnosewerkzeuge.

Mit dem Aufkommen von MMed-RAG können wir erwarten, dass zukünftige medizinische KI-Systeme Ärzte und Patienten genauer unterstützen und die Vision der intelligenten Medizin verwirklichen werden.

论文:https://arxiv.org/html/2410.13085v1

项目入口:https://github.com/richard-peng-xia/MMed-RAG

Wichtigste Punkte:

🌟 Das MMed-RAG-System verbessert die Verarbeitung verschiedener medizinischer Bilder durch einen domänenbewussten Retrieval-Mechanismus.

🔍 Die adaptive Kalibrierungsmethode sorgt für eine präzisere Auswahl des Retrieval-Kontexts und eine höhere Effizienz der Informationsnutzung.

💡 Die Ergebnisse zeigen eine Verbesserung der faktischen Genauigkeit von MMed-RAG um 43,8 % in mehreren medizinischen Datensätzen.