Ein Forschungsteam der Hong Kong Baptist University hat einen neuartigen Angriff auf große Sprachmodelle (LLMs) durch Deep Hypnose enthüllt, der die Sicherheitslücken aufzeigt, die dazu führen können, dass LLMs ihre Selbstverteidigung bei der Reaktion auf menschliche Anweisungen verlieren.
Das Team entwickelte DeepInception, eine Methode, die durch die Konstruktion von Prompts mit personalisierten Eigenschaften eine adaptive Umgehung der Sicherheitsmaßnahmen ermöglicht und bestehende Jailbreak-Methoden übertrifft. Die Studie betont die Notwendigkeit, die Selbstumgehung von LLMs stärker zu berücksichtigen. Durch die Einführung des Jailbreak-Konzepts unter Einbezug von Persönlichkeit und psychologischen Eigenschaften wird gezeigt, dass DeepInception die dringende Notwendigkeit zur Verbesserung der Abwehrmechanismen großer Sprachmodelle unterstreicht.
Die wichtigsten Beiträge der Forschung umfassen die Einführung des Konzepts des Jailbreak-Angriffs basierend auf der Personalisierung von LLMs, die Bereitstellung einer Prompt-Vorlage für DeepInception und den experimentellen Nachweis seiner überlegenen Wirksamkeit im Vergleich zu bestehenden Jailbreak-Methoden. Diese Forschung lenkt die Aufmerksamkeit auf die Sicherheit von LLMs und bietet durch ihre einzigartige psychologische Perspektive wertvolle Erkenntnisse zum Verständnis und zur Abwehr von Jailbreak-Angriffen.