Seit 2021 hat das KI-Sicherheitsteam von Microsoft über 100 generative KI-Produkte getestet, um Schwachstellen und ethische Probleme aufzudecken. Ihre Erkenntnisse stellen einige gängige Annahmen zur KI-Sicherheit in Frage und unterstreichen die anhaltende Bedeutung menschlicher Expertise.

Es hat sich gezeigt, dass die effektivsten Angriffe nicht immer die komplexesten sind. Eine in dem Microsoft-Bericht zitierte Studie stellt fest: „Echte Hacker berechnen keine Gradienten, sondern nutzen schnelle Engineering-Methoden.“ Die Studie vergleicht die KI-Sicherheitsforschung mit der Praxis in der realen Welt. In einem Test gelang es dem Team, die Sicherheitsfunktionen eines Bildgenerators allein durch das Verstecken schädlicher Anweisungen im Bildtext zu umgehen – ohne komplexe mathematische Berechnungen.

Der menschliche Faktor bleibt wichtig

Obwohl Microsoft PyRIT entwickelt hat, ein Open-Source-Tool zur automatisierten Sicherheitsprüfung, betont das Team, dass menschliches Urteilsvermögen unersetzlich ist. Dies wurde besonders deutlich, als sie Chatbots testeten, wie sie mit sensiblen Situationen umgehen (z. B. Gespräche mit emotional belasteten Personen). Die Bewertung dieser Szenarien erfordert sowohl psychologisches Fachwissen als auch ein tiefes Verständnis der potenziellen Auswirkungen auf die psychische Gesundheit.

Auch bei der Untersuchung von KI-Verzerrungen stützte sich das Team auf menschliche Einsichten. In einem Beispiel untersuchten sie Geschlechterverzerrungen in einem Bildgenerator, indem sie Bilder verschiedener Berufe (ohne Geschlechtsangabe) erstellten.

Neue Sicherheitsherausforderungen tauchen auf

Die Integration von KI in alltägliche Anwendungen bringt neue Schwachstellen mit sich. In einem Test gelang es dem Team, Sprachmodelle zu manipulieren, um überzeugende Betrugsszenarien zu erstellen. In Kombination mit Text-to-Speech-Technologie entsteht so ein System, das auf gefährlich realistische Weise mit Menschen interagieren kann.

Die Risiken beschränken sich nicht auf KI-spezifische Probleme. Das Team entdeckte eine herkömmliche Sicherheitslücke (SSRF) in einem KI-Videobearbeitungstool, was zeigt, dass diese Systeme sowohl neuen als auch alten Sicherheitsherausforderungen ausgesetzt sind.

Anhaltender Bedarf an Sicherheit

Diese Studie konzentriert sich insbesondere auf die Risiken von „verantwortungsvoller KI“, d. h. auf Fälle, in denen KI-Systeme schädliche oder ethisch problematische Inhalte erzeugen können. Diese Probleme sind besonders schwer zu lösen, da sie in der Regel stark von Kontext und individueller Interpretation abhängen.

Das Microsoft-Team stellte fest, dass der unbeabsichtigte Kontakt von normalen Benutzern mit problematischen Inhalten besorgniserregender ist als gezielte Angriffe, da dies darauf hindeutet, dass die Sicherheitsmaßnahmen im normalen Betrieb nicht wie erwartet funktionieren.

Die Ergebnisse zeigen deutlich, dass KI-Sicherheit kein einmaliges Unterfangen ist. Microsoft empfiehlt, kontinuierlich nach Schwachstellen zu suchen und diese zu beheben und anschließend weitere Tests durchzuführen. Dies sollte ihrer Meinung nach durch Vorschriften und finanzielle Anreize unterstützt werden, um erfolgreiche Angriffe teurer zu machen.

Das Forschungsteam gibt an, dass es noch einige Schlüsselfragen zu klären gilt: Wie können wir potenziell gefährliche KI-Fähigkeiten wie Überzeugung und Täuschung erkennen und kontrollieren? Wie können wir Sicherheitstests an verschiedene Sprachen und Kulturen anpassen? Wie können Unternehmen ihre Methoden und Ergebnisse standardisiert austauschen?