Eine kürzlich von einem Forschungsteam der New York University veröffentlichte Studie enthüllt die Verwundbarkeit großer Sprachmodelle (LLMs) im Datentrainingsverfahren. Es wurde festgestellt, dass selbst geringste Mengen an Falschinformationen, nur 0,001 % der Trainingsdaten, zu erheblichen Fehlern im gesamten Modell führen können. Diese Entdeckung ist besonders besorgniserregend im medizinischen Bereich, da fehlerhafte Informationen die Patientensicherheit direkt beeinträchtigen können.

Code Internet (2)

Bildquelle: Das Bild wurde mit KI generiert, Lizenzgeber: Midjourney

In der in der Zeitschrift „Nature Medicine“ veröffentlichten Studie weisen die Forscher darauf hin, dass LLMs zwar hervorragende Leistungen erbringen, aber wenn ihre Trainingsdaten mit Falschinformationen angereichert sind, diese Modelle dennoch in einigen Open-Source-Bewertungsbenchmarks genauso gut abschneiden können wie nicht betroffene Modelle. Das bedeutet, dass wir unter normalen Testbedingungen diese potenziellen Risiken möglicherweise nicht erkennen.

Um dies zu überprüfen, führte das Forschungsteam Experimente mit einem Trainingsdatensatz namens „The Pile“ durch, in den sie absichtlich 150.000 KI-generierte medizinische Falschinformationen einfügten. Innerhalb von nur 24 Stunden generierten sie diese Inhalte. Die Studie zeigt, dass der Austausch von 0,001 % des Datensatzes, also nur einer Million Trainingsmarken, zu einem Anstieg schädlicher Inhalte um 4,8 % führen kann. Dieses Verfahren ist extrem kostengünstig und kostete nur 5 US-Dollar.

Dieser Datenvergiftungsangriff erfordert keinen direkten Zugriff auf die Modellgewichte. Stattdessen können Angreifer lediglich schädliche Informationen im Internet veröffentlichen, um die Wirksamkeit von LLMs zu beeinträchtigen. Das Forschungsteam betont, dass diese Entdeckung die erheblichen Risiken bei der Verwendung von KI-Tools im Gesundheitswesen aufzeigt. Gleichzeitig wird darauf hingewiesen, dass es bereits Fälle gibt, in denen bestimmte KI-basierte medizinische Plattformen, wie z. B. MyChart, bei der automatisierten Beantwortung von Patientenfragen häufig fehlerhafte Informationen generieren und die Patienten dadurch belasten.

Daher fordern die Forscher KI-Entwickler und medizinische Anbieter auf, sich dieser Verwundbarkeit beim Entwickeln medizinischer LLMs bewusst zu sein. Sie empfehlen, LLMs vorerst nicht für kritische Aufgaben wie Diagnose oder Behandlung einzusetzen, bis die Sicherheit gewährleistet ist.

Wichtigste Punkte:

🌐 Die Studie zeigt, dass bereits 0,001 % Falschinformationen ausreichen, um große Sprachmodelle (LLMs) außer Kraft zu setzen.

🩺 Im Gesundheitswesen kann die Verbreitung von Falschinformationen die Patientensicherheit schwerwiegend beeinträchtigen.

💡 Die Forscher fordern, LLMs nicht für wichtige medizinische Aufgaben wie Diagnose oder Behandlung einzusetzen, bevor die Sicherheit gewährleistet ist.