Innerhalb von nur sechs Tagen gelang es Teilnehmern, alle Sicherheitsmaßnahmen des Anthropic-KI-Modells Claude 3.5 zu umgehen. Dieser Durchbruch hat eine neue Debatte über die Sicherheit von KI-Systemen ausgelöst. Jan Leike, ehemaliger Mitarbeiter des OpenAI-Alignment-Teams und jetzt bei Anthropic tätig, gab auf X bekannt, dass ein Teilnehmer erfolgreich alle acht Sicherheitsstufen durchbrochen hat. Diese gemeinsame Anstrengung umfasste etwa 3.700 Teststunden und 300.000 Nachrichten von den Teilnehmern.

Obwohl die Herausforderer erfolgreich waren, betonte Leike, dass bisher niemand eine universelle „Jailbreak“-Methode gefunden hat, um alle Sicherheitsherausforderungen auf einmal zu lösen. Das bedeutet, dass es trotz des Durchbruchs keine Allzwecklösung gibt, um alle Sicherheitsvorkehrungen zu umgehen.

Claude2, Anthropic, Künstliche Intelligenz, Chatbot Claude

Herausforderungen und Verbesserungen beim Konstitutionellen Klassifikator

Mit der zunehmenden Leistungsfähigkeit von KI-Systemen wird der Schutz vor Manipulation und Missbrauch, insbesondere bei schädlichen Ausgaben, immer wichtiger. Anthropic hat dafür eine neue Sicherheitsmethode entwickelt – den konstitutionellen Klassifikator – der speziell die Verhinderung universeller Jailbreak-Angriffe zum Ziel hat. Diese Methode verwendet vordefinierte Regeln, um zu beurteilen, ob Eingabe-Inhalte das Modell manipulieren könnten und verhindert so gefährliche Antworten.

Um die Wirksamkeit dieses Systems zu testen, rekrutierte Anthropic über zwei Monate 183 Teilnehmer, die versuchten, die Sicherheitsmaßnahmen von Claude 3.5 zu umgehen. Die Teilnehmer sollten versuchen, die Sicherheitsmechanismen zu umgehen, um Claude zehn „verbotene Fragen“ beantworten zu lassen. Trotz eines Preisgeldes von 15.000 US-Dollar und fast 3.000 Teststunden gelang es niemandem, alle Sicherheitsvorkehrungen zu umgehen.

Frühere Versionen des konstitutionellen Klassifikators hatten einige Probleme, darunter die fälschliche Kennzeichnung harmloser Anfragen als gefährlich und der hohe Rechenaufwand. Durch spätere Verbesserungen wurden diese Probleme jedoch effektiv behoben. Testdaten zeigen, dass bei dem ungeschützten Claude-Modell 86 % der Manipulationsversuche erfolgreich waren, während die geschützte Version über 95 % der Manipulationsversuche blockierte, obwohl das System immer noch einen hohen Rechenaufwand benötigt.

Synthetische Trainingsdaten und zukünftige Sicherheitsherausforderungen

Das Sicherheitssystem basiert auf synthetischen Trainingsdaten und verwendet eine vordefinierte „Verfassung“ des Modells, die Regeln festlegt, welche Eingaben erlaubt und welche verboten sind. Ein auf diesen synthetischen Beispielen trainierter Klassifikator kann verdächtige Eingaben effektiv erkennen. Die Forscher geben jedoch zu, dass dieses System nicht perfekt ist und nicht alle Formen von universellen Jailbreak-Angriffen abwehren kann. Daher wird die Kombination mit anderen Sicherheitsmaßnahmen empfohlen.

Zur weiteren Validierung des Systems veröffentlichte Anthropic vom 3. bis 10. Februar 2025 eine öffentliche Demoversion und lud Sicherheitsexperten zu einer Herausforderung ein. Die Ergebnisse werden in einem späteren Update veröffentlicht.

Dieser Wettkampf um die KI-Sicherheit zeigt die immensen Herausforderungen und die Komplexität des Schutzes von KI-Modellen. Mit dem Fortschritt der Technologie bleibt die Frage, wie die Funktionalität von Modellen bei gleichzeitiger Gewährleistung der Sicherheit verbessert werden kann, eine wichtige Aufgabe der KI-Branche.