Studie zeigt: OpenAIs o1-preview übertrifft Ärzte bei der Diagnose komplexer medizinischer Fälle

AIbase基地

Veröffentlicht amKI-Nachrichten und -Informationen · 5 Minuten Lesezeit · Dec 25, 2024

292

Eine neue Studie zeigt, dass OpenAIs KI-System o1-preview bei der Diagnose komplexer medizinischer Fälle möglicherweise besser abschneidet als menschliche Ärzte. Ein Forschungsteam der Harvard Medical School und der Stanford University testete o1-preview umfassend in der medizinischen Diagnostik und stellte einen deutlichen Fortschritt gegenüber früheren Versionen fest.

Den Studienergebnissen zufolge erreichte o1-preview eine korrekte Diagnoseklassifizierung von 78,3 % in allen getesteten Fällen. In einem direkten Vergleich mit 70 spezifischen Fällen lag die Genauigkeit des Systems sogar bei 88,6 % und übertraf damit deutlich seinen Vorgänger GPT-4 (72,9 %). Auch in Bezug auf medizinisches Denken war o1-preview bemerkenswert. Mit der R-IDEA-Skala, einem Bewertungsmaßstab für die Qualität des medizinischen Denkens, erzielte das KI-System in 80 Fällen 78 Mal die volle Punktzahl. Erfahrene Ärzte erreichten dies lediglich in 28 Fällen, Assistenzärzte nur in 16 Fällen.

Die Forscher räumen ein, dass einige der Testfälle möglicherweise in den Trainingsdaten von o1-preview enthalten waren. Bei Tests mit neuen Fällen sank die Leistung jedoch nur geringfügig. Studienautor Dr. Adam Rodman betont, dass es sich zwar um eine Benchmark-Studie handelt, die Ergebnisse aber wichtige Implikationen für die medizinische Praxis haben.

Besonders hervorzuheben ist die Leistung von o1-preview bei der Bearbeitung komplexer Managementfälle, die von 25 Experten speziell entwickelt wurden. „Menschen waren bei diesen schwierigen Fällen überfordert, aber o1 hat uns beeindruckt“, erklärt Rodman. In diesen komplexen Fällen erzielte o1-preview 86 %, während Ärzte mit GPT-4 nur 41 % und herkömmliche Werkzeuge lediglich 34 % erreichten.

o1-preview ist jedoch nicht fehlerfrei. Bei der Wahrscheinlichkeitsschätzung zeigte das System keine signifikante Verbesserung. Beispielsweise schätzte o1-preview die Wahrscheinlichkeit einer Lungenentzündung auf 70 %, weit über dem wissenschaftlichen Bereich von 25 % - 42 %. Die Forscher stellten fest, dass o1-preview bei Aufgaben, die kritisches Denken erfordern, hervorragend abschnitt, bei abstrakteren Herausforderungen wie der Wahrscheinlichkeitsschätzung jedoch schwächer war.

Darüber hinaus liefert o1-preview in der Regel detaillierte Antworten, was möglicherweise zu der höheren Punktzahl beigetragen hat. Die Studie konzentrierte sich jedoch nur auf o1-preview im Alleingang und bewertete nicht die Zusammenarbeit mit Ärzten. Einige Kritiker weisen darauf hin, dass die von o1-preview vorgeschlagenen diagnostischen Tests oft teuer und unrealistisch sind.

Obwohl OpenAI neue Versionen von o1 und o3 veröffentlicht hat, die bei komplexen Denkaufgaben hervorragende Leistungen erbringen, konnten diese leistungsstärkeren Modelle die von Kritikern angesprochenen Probleme der praktischen Anwendung und der Kosten nicht lösen. Rodman fordert bessere Methoden zur Bewertung von medizinischen KI-Systemen, um die Komplexität bei realen medizinischen Entscheidungen zu erfassen. Er betont, dass die Studie nicht bedeutet, dass Ärzte ersetzt werden können, sondern dass die menschliche Beteiligung in der medizinischen Praxis weiterhin unerlässlich ist.

Studie: https://arxiv.org/abs/2412.10849

Wichtigste Punkte:
🌟 o1-preview übertrifft Ärzte mit einer Genauigkeit von 88,6 % bei der Diagnose.
🧠 Beim medizinischen Denken erreichte o1-preview in 80 Fällen 78 Mal die volle Punktzahl und übertraf damit die Leistung von Ärzten deutlich.
💰 Trotz seiner hervorragenden Leistung müssen die hohen Kosten und unrealistischen Testvorschläge von o1-preview in der Praxis noch gelöst werden.

HKU entwickelt KI-Bildgebungstool CytoMAD zur schnelleren und genaueren Krebsdiagnose

Ein Forschungsteam der Universität Hongkong (HKU) hat kürzlich die Entwicklung eines KI-basierten Bildgebungstools angekündigt, das die Geschwindigkeit und Genauigkeit der Krebsdiagnose verbessern soll. Die neue Technologie namens "CytoMorphological Adversarial Distillation" (CytoMAD), geleitet von Professor Kai-Wen Qi von der Fakultät für Ingenieurwissenschaften, nutzt generative KI für eine präzise Einzelzellanalyse ohne herkömmliche Markierungstechniken. CytoMAD wurde in Zusammenarbeit mit der Li Ka Shing Fakultät für Medizin und dem Queen Mary Hospital der HKU getestet und hat sich bei der Beurteilung von Lungenkrebspatienten bereits bewährt.

Oxforder Team entwickelt hochsensitive neue ctDNA-Detektionsmethode für die Früherkennung von Krebs

In der Krebsbehandlung ist die Früherkennung nach wie vor eine Herausforderung. In den letzten Jahren haben Flüssigbiopsieverfahren aufgrund ihrer nicht-invasiven Natur und hohen Sensitivität große Aufmerksamkeit erlangt. Die bestehenden Nachweismethoden beruhen jedoch meist auf Deep Targeted Sequencing und können verschiedene Datentypen nur schwer integrieren, was die Sensitivität und Spezifität beeinträchtigt. Um diesen technischen Nachteil zu beheben, hat ein Forscherteam der Universität Oxford eine neue, multimodale Methode zur Detektion von zirkulierender Tumor-DNA (ctDNA) entwickelt, die auf der genomweiten TET-assistierten Pyridinboran-Sequenzierung (TAPS) basiert. Das größte Highlight dieser Methode...

Microsoft und Top-Universitäten präsentieren rStar-Math: Kleine Modelle lösen komplexe Mathematikprobleme – sogar besser als OpenAI!

Microsoft hat kürzlich seine neue rStar-Math-Technologie vorgestellt. Dieses innovative Inferenzverfahren kann auf kleine Sprachmodelle (SLMs) angewendet werden und deren Leistung bei mathematischen Problemen deutlich verbessern – in einigen Fällen sogar besser als das o1-preview-Modell von OpenAI. Die Technologie befindet sich derzeit noch in der Forschungsphase. Die entsprechende Forschungsarbeit wurde auf arXiv.org veröffentlicht und von acht Autoren von Microsoft, der Peking-Universität und der Tsinghua-Universität gemeinsam verfasst. In Tests übertraf die rStar-Math-Technologie...

Übertrifft KI-medizinisches Denken menschliche Ärzte? Harvard, Stanford: o1-Preview-Modell erreicht 80% Genauigkeit bei Diagnosen

Die Anwendung von Künstlicher Intelligenz im medizinischen Bereich erlebt einen weiteren bedeutenden Durchbruch! Eine gemeinsame Studie von Harvard, Stanford und anderen führenden Institutionen zeigt, dass das o1-preview Modell von OpenAI in verschiedenen medizinischen Denkprozessen erstaunliche Fähigkeiten aufweist und sogar menschliche Ärzte übertrifft. Die Studie bewertete nicht nur die Leistung des Modells bei Multiple-Choice-Tests im medizinischen Bereich, sondern konzentrierte sich auch auf dessen diagnostische und managementbezogene Fähigkeiten in simulierten realen klinischen Szenarien, mit bemerkenswerten Ergebnissen. Die Forscher testeten o1- in fünf Experimenten...