Künstliche Intelligenz (KI) erlebt einen weiteren Durchbruch im medizinischen Bereich! Eine gemeinsame Studie von Harvard, Stanford und anderen Top-Universitäten zeigt, dass das o1-preview Modell von OpenAI in mehreren medizinischen Schlussfolgerungsaufgaben erstaunliche Fähigkeiten demonstriert und sogar menschliche Ärzte übertrifft. Die Studie bewertete nicht nur die Leistung des Modells in medizinischen Multiple-Choice-Tests, sondern konzentrierte sich auch auf seine diagnostischen und managementbezogenen Fähigkeiten in simulierten realen klinischen Szenarien – mit beeindruckenden Ergebnissen.
Die Forscher führten fünf Experimente durch, um das o1-preview Modell umfassend zu bewerten: Differenzialdiagnostik-Generierung, Darstellung des diagnostischen Denkprozesses, Triage und Differenzialdiagnostik, Wahrscheinlichkeitsschließen und Management-Schlussfolgerungen. Diese Experimente wurden von Medizinexperten unter Verwendung validierter psychometrischer Methoden bewertet, um die Leistung von o1-preview mit früheren menschlichen Kontrollgruppen und frühen großen Sprachmodellen zu vergleichen. Die Ergebnisse zeigten signifikante Fortschritte bei o1-preview in der Generierung von Differenzialdiagnosen sowie in der Qualität der diagnostischen und managementbezogenen Schlussfolgerungen.
Bei der Bewertung der Fähigkeit von o1-preview, Differenzialdiagnosen zu generieren, verwendeten die Forscher klinische pathologische Falldiskussionen (CPC) aus dem New England Journal of Medicine (NEJM). Das Modell enthielt die korrekte Diagnose in 78,3 % der Fälle in der Differenzialdiagnose, und in 52 % der Fälle war die erste Diagnose korrekt. Noch erstaunlicher ist, dass o1-preview in 88,6 % der Fälle eine korrekte oder sehr ähnliche Diagnose lieferte, während das vorherige GPT-4-Modell in denselben Fällen einen Anteil von 72,9 % erreichte. Darüber hinaus zeigte o1-preview eine hervorragende Leistung bei der Auswahl der nächsten diagnostischen Tests und wählte in 87,5 % der Fälle den richtigen Test aus, wobei 11 % der gewählten Teststrategien als hilfreich angesehen wurden.
Um die klinischen Schlussfolgerungsfähigkeiten von o1-preview weiter zu bewerten, verwendeten die Forscher 20 klinische Fälle aus dem NEJM Healer-Kurs. o1-preview erzielte in diesen Fällen deutlich bessere Ergebnisse als GPT-4, Oberärzte und Assistenzärzte und erreichte in 78/80 Fällen eine perfekte R-IDEA-Bewertung. Die R-IDEA-Bewertung ist eine 10-Punkte-Skala zur Bewertung der Qualität von Aufzeichnungen klinischer Schlussfolgerungen. Zusätzlich bewerteten die Forscher die Management- und Diagnosefähigkeiten von o1-preview anhand von „Grey Matters“-Managementfällen und „Landmark“-Diagnosefällen. Bei den „Grey Matters“-Fällen erzielte o1-preview deutlich höhere Punktzahlen als GPT-4, Ärzte, die GPT-4 verwendeten, und Ärzte, die herkömmliche Ressourcen verwendeten. Bei den „Landmark“-Fällen war die Leistung von o1-preview vergleichbar mit GPT-4, aber besser als die von Ärzten, die GPT-4 oder herkömmliche Ressourcen verwendeten.
Die Studie ergab jedoch auch, dass die Leistung von o1-preview beim Wahrscheinlichkeitsschließen ähnlich zu früheren Modellen war und keine deutlichen Verbesserungen aufwies. In einigen Fällen war das Modell bei der Vorhersage von Krankheitswahrscheinlichkeiten weniger genau als Menschen. Die Forscher wiesen auch darauf hin, dass eine Einschränkung von o1-preview die Tendenz zu ausführlichen Antworten ist, was möglicherweise zu den höheren Punktzahlen in einigen Experimenten beigetragen hat. Darüber hinaus konzentrierte sich die Studie hauptsächlich auf die Modellleistung und nicht auf die Mensch-Maschine-Interaktion. Zukünftige Forschung sollte daher untersuchen, wie o1-preview die Mensch-Maschine-Interaktion verbessern kann, um effektivere klinische Entscheidungshilfesysteme zu entwickeln.
Trotzdem zeigt diese Studie, dass o1-preview in Aufgaben mit komplexem kritischem Denken (wie Diagnose und Management) hervorragende Leistungen erbringt. Die Forscher betonen, dass die Benchmarks für diagnostisches Schließen im medizinischen Bereich schnell gesättigt sind und daher herausforderndere und realistischere Bewertungsmethoden entwickelt werden müssen. Sie fordern Tests dieser Technologien in realen klinischen Umgebungen und die Vorbereitung auf Innovationen in der Zusammenarbeit zwischen Klinikern und KI. Darüber hinaus muss ein solides Überwachungsrahmen geschaffen werden, um die breite Implementierung von KI-gestützten klinischen Entscheidungshilfesystemen zu überwachen.