Das Forschungsteam von Unit42, der Sicherheitsabteilung von Palo Alto Networks, hat kürzlich eine bemerkenswerte Studie veröffentlicht, die eine neue Jailbreak-Methode namens „Deceptive Delight“ (Täuschend erfreulich) aufdeckt.

Diese Methode kann große Sprachmodelle (LLMs) mit nur zwei bis drei Interaktionen dazu verleiten, schädliche Inhalte zu generieren, mit einer Erfolgsrate von bis zu 65 %. Diese Entdeckung ist ein Weckruf für den Schutz der Sicherheit von LLMs.

Roboter KI Künstliche Intelligenz 223

Bildquelle: Das Bild wurde mit KI generiert und stammt von Midjourney.

Das Forschungsteam analysierte in seinen Tests bis zu 8000 Fälle und bewertete acht verschiedene Sprachmodelle. Im ersten Schritt dieser Jailbreak-Technik fordert der Angreifer das LLM zunächst auf, eine Erzählung zu generieren, die zwei harmlose Themen und ein potenziell gefährliches Thema enthält. Beispielsweise könnte der Angreifer das Modell bitten, ein Familientreffen, die Geburt eines Kindes und die Herstellung eines Molotow-Cocktails miteinander zu verknüpfen. Ziel dieses Schrittes ist es, das Modell unbeabsichtigt an die Grenzen schädlicher Inhalte heranzuführen.

Im nächsten Schritt fordert der Angreifer das LLM auf, jedes Thema der Erzählung genauer zu erläutern. Laut Studie führt dieser Schritt in vielen Fällen dazu, dass das Modell schädliche Inhalte im Zusammenhang mit dem gefährlichen Thema generiert. Wenn der Angreifer einen dritten Schritt unternimmt und das Modell gezielt auffordert, das gefährliche Thema weiter auszuführen, steigt die Erfolgsrate auf durchschnittlich 65 %, wobei sich die Schädlichkeit und die Qualität der generierten schädlichen Inhalte um 21 % bzw. 33 % verbessern.

Die Forscher weisen auch darauf hin, dass sie während der Tests die integrierten Inhaltsfilter des Modells absichtlich entfernt haben, um die Sicherheitsmaßnahmen des Modells besser bewerten zu können. Ohne diese Filter war die Wahrscheinlichkeit, dass das Modell schädliche Inhalte generierte, immer noch relativ gering, durchschnittlich nur 5,8 %. Bei den acht getesteten Modellen erreichte ein Modell eine erstaunliche Erfolgsrate von 80,6 %, während die niedrigste bei 48 % lag.

Daher schlägt Unit42 Abwehrmaßnahmen gegen diese mehrstufigen Jailbreak-Angriffe vor. Sie sind der Meinung, dass die Hinzufügung von Inhaltsfiltern als Schutzmaßnahme und die Gestaltung genauerer Systemhinweise dazu beitragen können, dass LLMs die Generierung schädlicher Inhalte vermeiden. Diese Systemhinweise sollten die Rolle des Modells und die Grenzen sicherheitsrelevanter Themen klar definieren und dem Modell helfen, auf dem sicheren Weg zu bleiben.

Wichtigste Punkte:

🔍 Die neue Jailbreak-Methode „Täuschend erfreulich“ kann LLMs mit zwei bis drei Interaktionen zur Generierung schädlicher Inhalte verleiten, mit einer Erfolgsrate von bis zu 65 %.  

📈 Die Studie analysierte 8000 Fälle und ergab deutliche Unterschiede in der Erfolgsrate der verschiedenen Modelle. Die Erfolgsrate eines einzelnen Modells erreichte bis zu 80,6 %.  

🛡️ Um Jailbreak-Angriffen entgegenzuwirken, wird empfohlen, Inhaltsfilter und klare Systemhinweise hinzuzufügen, um die Sicherheit und den Schutz der Modelle zu verbessern.