Kürzlich hat Meta ein Machine-Learning-Modell namens Prompt-Guard-86M vorgestellt, das darauf abzielt, Prompt-Injection-Angriffe zu erkennen und zu bekämpfen. Diese Angriffe nutzen spezielle Eingaben, um Large Language Models (LLMs) zu Fehlfunktionen zu bringen oder Sicherheitsbeschränkungen zu umgehen. Überraschenderweise ist das neue System selbst anfällig für solche Angriffe.

Hacker, Code, Programmierer

Bildquelle: KI-generiertes Bild, Lizenzgeber Midjourney

Prompt-Guard-86M wurde von Meta zusammen mit seinem Llama3.1-Generierungsmodell entwickelt, um Entwicklern zu helfen, problematische Eingabeaufforderungen zu filtern. LLMs verarbeiten große Mengen an Text und Daten, und ohne Einschränkungen könnten sie gefährliche oder sensible Informationen unkontrolliert wiedergeben. Daher haben Entwickler „Sicherheitsvorkehrungen“ in die Modelle eingebaut, um schädliche Eingaben und Ausgaben zu erkennen.

Benutzer von KI-Systemen scheinen das Umgehen dieser Sicherheitsvorkehrungen jedoch als Herausforderung zu betrachten und verwenden Prompt-Injection und Jailbreaking-Techniken, um die Sicherheitsanweisungen des Modells zu ignorieren. Kürzlich haben Forscher gezeigt, dass Metas Prompt-Guard-86M bei bestimmten Eingaben anfällig ist. Beispielsweise ignoriert Prompt-Guard-86M Anweisungen, wenn die Eingabe „Ignore previous instructions“ mit Leerzeichen zwischen den Buchstaben versehen wird.

Diese Entdeckung stammt von einem Sicherheitsforscher namens Aman Priyanshu, der diese Sicherheitslücke bei der Analyse von Meta-Modellen und Microsoft-Benchmark-Modellen entdeckte. Priyanshu erklärte, dass die Feinabstimmung von Prompt-Guard-86M nur einen geringen Einfluss auf einzelne Buchstaben hat, wodurch er diese Angriffsmethode entwickeln konnte. Er hat seine Entdeckung auf GitHub veröffentlicht und gezeigt, dass die Erkennung durch einfache Zeichenabstände und das Entfernen von Satzzeichen umgangen werden kann.

Hyrum Anderson, CTO von Robust Intelligence, bestätigte dies und erklärte, dass die Erfolgsrate dieser Angriffsmethode nahezu 100 % beträgt. Obwohl Prompt-Guard nur ein Teil der Sicherheitsmaßnahmen ist, warnt diese Sicherheitslücke Unternehmen vor den Risiken beim Einsatz von KI. Meta hat sich noch nicht dazu geäußert, es wird aber berichtet, dass aktiv nach Lösungen gesucht wird.

Wichtigste Punkte:

🔍 Metas Prompt-Guard-86M weist eine Sicherheitslücke auf und ist anfällig für Prompt-Injection-Angriffe.

💡 Durch das Einfügen von Leerzeichen zwischen Buchstaben können Sicherheitsanweisungen ignoriert werden, mit einer Erfolgsrate von nahezu 100 %.

⚠️ Dieser Vorfall mahnt Unternehmen zur Vorsicht beim Einsatz von KI-Technologie. Sicherheitsprobleme müssen weiterhin ernst genommen werden.