Eine neue Studie zeigt, dass OpenAIs KI-System o1-preview bei der Diagnose komplexer medizinischer Fälle möglicherweise besser abschneidet als menschliche Ärzte. Ein Forschungsteam der Harvard Medical School und der Stanford University testete o1-preview umfassend in der medizinischen Diagnostik und stellte einen deutlichen Fortschritt gegenüber früheren Versionen fest.

Den Studienergebnissen zufolge erreichte o1-preview eine korrekte Diagnoseklassifizierung von 78,3 % in allen getesteten Fällen. In einem direkten Vergleich mit 70 spezifischen Fällen lag die Genauigkeit des Systems sogar bei 88,6 % und übertraf damit deutlich seinen Vorgänger GPT-4 (72,9 %). Auch in Bezug auf medizinisches Denken war o1-preview bemerkenswert. Mit der R-IDEA-Skala, einem Bewertungsmaßstab für die Qualität des medizinischen Denkens, erzielte das KI-System in 80 Fällen 78 Mal die volle Punktzahl. Erfahrene Ärzte erreichten dies lediglich in 28 Fällen, Assistenzärzte nur in 16 Fällen.

Die Forscher räumen ein, dass einige der Testfälle möglicherweise in den Trainingsdaten von o1-preview enthalten waren. Bei Tests mit neuen Fällen sank die Leistung jedoch nur geringfügig. Studienautor Dr. Adam Rodman betont, dass es sich zwar um eine Benchmark-Studie handelt, die Ergebnisse aber wichtige Implikationen für die medizinische Praxis haben.

Besonders hervorzuheben ist die Leistung von o1-preview bei der Bearbeitung komplexer Managementfälle, die von 25 Experten speziell entwickelt wurden. „Menschen waren bei diesen schwierigen Fällen überfordert, aber o1 hat uns beeindruckt“, erklärt Rodman. In diesen komplexen Fällen erzielte o1-preview 86 %, während Ärzte mit GPT-4 nur 41 % und herkömmliche Werkzeuge lediglich 34 % erreichten.

o1-preview ist jedoch nicht fehlerfrei. Bei der Wahrscheinlichkeitsschätzung zeigte das System keine signifikante Verbesserung. Beispielsweise schätzte o1-preview die Wahrscheinlichkeit einer Lungenentzündung auf 70 %, weit über dem wissenschaftlichen Bereich von 25 % - 42 %. Die Forscher stellten fest, dass o1-preview bei Aufgaben, die kritisches Denken erfordern, hervorragend abschnitt, bei abstrakteren Herausforderungen wie der Wahrscheinlichkeitsschätzung jedoch schwächer war.

Darüber hinaus liefert o1-preview in der Regel detaillierte Antworten, was möglicherweise zu der höheren Punktzahl beigetragen hat. Die Studie konzentrierte sich jedoch nur auf o1-preview im Alleingang und bewertete nicht die Zusammenarbeit mit Ärzten. Einige Kritiker weisen darauf hin, dass die von o1-preview vorgeschlagenen diagnostischen Tests oft teuer und unrealistisch sind.

image.png

Obwohl OpenAI neue Versionen von o1 und o3 veröffentlicht hat, die bei komplexen Denkaufgaben hervorragende Leistungen erbringen, konnten diese leistungsstärkeren Modelle die von Kritikern angesprochenen Probleme der praktischen Anwendung und der Kosten nicht lösen. Rodman fordert bessere Methoden zur Bewertung von medizinischen KI-Systemen, um die Komplexität bei realen medizinischen Entscheidungen zu erfassen. Er betont, dass die Studie nicht bedeutet, dass Ärzte ersetzt werden können, sondern dass die menschliche Beteiligung in der medizinischen Praxis weiterhin unerlässlich ist.

Studie: https://arxiv.org/abs/2412.10849

Wichtigste Punkte:

🌟 o1-preview übertrifft Ärzte mit einer Genauigkeit von 88,6 % bei der Diagnose.

🧠 Beim medizinischen Denken erreichte o1-preview in 80 Fällen 78 Mal die volle Punktzahl und übertraf damit die Leistung von Ärzten deutlich.

💰 Trotz seiner hervorragenden Leistung müssen die hohen Kosten und unrealistischen Testvorschläge von o1-preview in der Praxis noch gelöst werden.