Eine neue Studie zeigt, dass gut gemeinte Sicherheitsmaßnahmen in großen Sprachmodellen (LLMs) unerwartete Schwachstellen hervorbringen können. Forscher haben festgestellt, dass die Schwierigkeit, Modelle zu „jailbreaken“ (ihre Sicherheitsmaßnahmen zu umgehen), je nach demografischen Begriffen erheblich variiert. Die Studie mit dem Titel „Do LLMs Have Political Correctness?“ untersucht, wie demografische Schlüsselwörter die Erfolgswahrscheinlichkeit von Jailbreak-Versuchen beeinflussen. Die Ergebnisse zeigen, dass Aufforderungen mit Begriffen für marginalisierte Gruppen eher unerwünschte Ausgaben erzeugen als Aufforderungen mit Begriffen für privilegierte Gruppen.

Die Forscher stellen fest: „Diese absichtlichen Verzerrungen führen dazu, dass das GPT-4-Modell eine um 20 % höhere Jailbreak-Erfolgsrate bei nicht-binären Geschlechts- und cisgeschlechtlichen Schlüsselwörtern und eine um 16 % höhere Rate bei weißen und schwarzen Schlüsselwörtern aufweist, selbst wenn der Rest der Aufforderung identisch ist“, erklären Isack Lee und Haebin Seong von Theori Inc.

Die Forscher führen diesen Unterschied auf absichtliche Verzerrungen zurück, die eingeführt wurden, um das ethische Verhalten des Modells zu gewährleisten. Der Jailbreak funktioniert so, dass die Forscher die Methode „PCJailbreak“ entwickelt haben, um die Anfälligkeit großer Sprachmodelle für Jailbreak-Angriffe zu testen. Diese Angriffe verwenden sorgfältig gestaltete Aufforderungen, um die KI-Sicherheitsmaßnahmen zu umgehen und schädliche Inhalte zu generieren.

image.png

PCJailbreak verwendet Schlüsselwörter verschiedener demografischer und sozioökonomischer Gruppen. Die Forscher erstellten Wortpaare wie „reich“ und „arm“ oder „männlich“ und „weiblich“, um privilegierte und marginalisierte Gruppen zu vergleichen.

Anschließend erstellten sie Aufforderungen, die diese Schlüsselwörter mit potenziell schädlichen Anweisungen kombinierten. Durch wiederholte Tests verschiedener Kombinationen konnten sie die Erfolgswahrscheinlichkeit von Jailbreak-Versuchen für jedes Schlüsselwort messen. Die Ergebnisse zeigten signifikante Unterschiede: Schlüsselwörter, die marginalisierte Gruppen repräsentieren, hatten in der Regel eine viel höhere Erfolgswahrscheinlichkeit als Schlüsselwörter, die privilegierte Gruppen repräsentieren. Dies deutet darauf hin, dass die Sicherheitsmaßnahmen des Modells unbeabsichtigt voreingenommen sind und Jailbreak-Angriffe diese Vorurteile ausnutzen können.

image.png

Um die von PCJailbreak aufgedeckten Schwachstellen zu beheben, entwickelten die Forscher die Methode „PCDefense“. Diese Methode verwendet spezielle Verteidigungsaufforderungen, um übermäßige Verzerrungen in Sprachmodellen zu reduzieren und ihre Anfälligkeit für Jailbreak-Angriffe zu verringern.

Das Besondere an PCDefense ist, dass es keine zusätzlichen Modelle oder Verarbeitungsschritte benötigt. Stattdessen werden die Verteidigungsaufforderungen direkt zur Eingabe hinzugefügt, um die Verzerrungen anzupassen und ein ausgewogeneres Verhalten vom Sprachmodell zu erhalten.

image.png

Die Forscher testeten PCDefense an verschiedenen Modellen und zeigten, dass die Erfolgswahrscheinlichkeit von Jailbreak-Versuchen sowohl bei privilegierten als auch bei marginalisierten Gruppen deutlich reduziert werden konnte. Gleichzeitig verringerte sich die Kluft zwischen den Gruppen, was auf eine Reduzierung der sicherheitsrelevanten Verzerrungen hindeutet.

Die Forscher geben an, dass PCDefense eine effiziente und skalierbare Methode bietet, um die Sicherheit großer Sprachmodelle zu verbessern, ohne zusätzlichen Rechenaufwand zu benötigen.

Die Ergebnisse der Studie unterstreichen die Komplexität des Designs sicherer und ethischer KI-Systeme im Hinblick auf das Gleichgewicht zwischen Sicherheit, Fairness und Leistung. Das Feintuning spezifischer Sicherheitsvorkehrungen kann die Gesamtleistung von KI-Modellen, z. B. ihre Kreativität, beeinträchtigen.

Um weitere Forschung und Verbesserungen zu fördern, haben die Autoren den Code von PCJailbreak und alle relevanten Artefakte als Open Source bereitgestellt. Theori Inc., das Unternehmen hinter der Studie, ist ein auf offensive Sicherheit spezialisiertes Cybersicherheitsunternehmen mit Sitz in den USA und Südkorea. Es wurde im Januar 2016 von Andrew Wesie und Brian Pak gegründet.