Anthropic präsentiert den „Konstitutionsklassifikator“: 95% der Versuche zum Jailbreaking von Modellen erfolgreich verhindert

Das KI-Unternehmen Anthropic hat kürzlich eine neue Sicherheitsmethode namens „Konstitutionsprüfer“ vorgestellt, die darauf abzielt, Sprachmodelle vor böswilliger Manipulation zu schützen. Diese Technologie konzentriert sich speziell auf „universelle Jailbreaks“ – Eingabemethoden, die versuchen, alle Sicherheitsmaßnahmen systematisch zu umgehen, um zu verhindern, dass KI-Modelle schädliche Inhalte generieren.

Um die Wirksamkeit dieser Technologie zu überprüfen, führte Anthropic einen groß angelegten Test durch. Das Unternehmen rekrutierte 183 Teilnehmer, die innerhalb von zwei Monaten versuchten, das Sicherheitssystem zu knacken. Die Teilnehmer wurden aufgefordert, durch Eingabe bestimmter Fragen zu versuchen, das KI-Modell Claude 3.5 dazu zu bringen, zehn verbotene Fragen zu beantworten. Trotz eines Preisgeldes von bis zu 15.000 US-Dollar und einer Testzeit von etwa 3.000 Stunden gelang es keinem Teilnehmer, die Sicherheitsmaßnahmen von Anthropic vollständig zu umgehen.

Claude2, Anthropic, Künstliche Intelligenz, Chatbot Claude

Aus Herausforderungen lernen

Frühere Versionen des „Konstitutionsprüfers“ von Anthropic hatten zwei Hauptprobleme: Erstens wurden zu viele harmlose Anfragen fälschlicherweise als gefährlich eingestuft, und zweitens waren erhebliche Rechenressourcen erforderlich. Die verbesserte Version des Klassifikators reduziert die Fehlerrate deutlich und optimiert die Rechenleistung. Automatische Tests zeigten jedoch, dass das verbesserte System zwar über 95 % der Jailbreak-Versuche erfolgreich blockierte, aber dennoch 23,7 % mehr Rechenleistung benötigte. Im Vergleich dazu erlaubte das ungeschützte Claude-Modell 86 % der Jailbreak-Versuche.

Training mit synthetischen Daten

Der Kern des „Konstitutionsprüfers“ liegt in der Verwendung vordefinierter Regeln (als „Konstitution“ bezeichnet), um zulässige und verbotene Inhalte zu unterscheiden. Das System trainiert den Klassifikator, indem es synthetische Trainingsbeispiele in verschiedenen Sprachen und Stilen generiert, um verdächtige Eingaben zu erkennen. Diese Methode verbessert nicht nur die Genauigkeit des Systems, sondern erhöht auch seine Fähigkeit, diverse Angriffe zu bewältigen.

Trotz der erheblichen Fortschritte geben die Forscher von Anthropic zu, dass das System nicht perfekt ist. Es kann möglicherweise nicht alle Arten von universellen Jailbreak-Angriffen bewältigen, und es könnten in Zukunft neue Angriffsmethoden entstehen. Daher empfiehlt Anthropic, den „Konstitutionsprüfer“ mit anderen Sicherheitsmaßnahmen zu kombinieren, um einen umfassenderen Schutz zu gewährleisten.

Öffentlicher Test und Zukunftsaussichten

Um die Robustheit des Systems weiter zu testen, plant Anthropic, vom 3. bis 10. Februar 2025 eine öffentliche Demoversion zu veröffentlichen und Sicherheitsexperten einzuladen, diese zu knacken. Die Testergebnisse werden in nachfolgenden Updates veröffentlicht. Diese Maßnahme zeigt nicht nur Anthropics Engagement für technische Transparenz, sondern liefert auch wertvolle Daten für die Forschung im Bereich der KI-Sicherheit.

Der „Konstitutionsprüfer“ von Anthropic markiert einen wichtigen Fortschritt im Bereich des Schutzes von KI-Modellen. Mit der rasanten Entwicklung der KI-Technologie ist die Frage, wie Modelle effektiv vor Missbrauch geschützt werden können, zu einem zentralen Anliegen der Branche geworden. Die Innovation von Anthropic bietet eine neue Lösung für diese Herausforderung und weist gleichzeitig den Weg für zukünftige Forschung im Bereich der KI-Sicherheit.

KI-Nachrichten und -Informationen

Anthropic präsentiert den „Konstitutionsklassifikator“: 95% der Versuche zum Jailbreaking von Modellen erfolgreich verhindert

AIbase基地