Eine IBM-Studie zeigt, dass große Sprachmodelle wie GPT-4 leicht dazu gebracht werden können, schädlichen Code zu generieren oder falsche Sicherheitsratschläge zu geben. Die Forscher stellten fest, dass schon grundlegende Englischkenntnisse und ein gewisses Verständnis der Trainingsdaten der Modelle ausreichen, um KI-Chatbots zu täuschen.
Unterschiedliche KI-Modelle reagieren unterschiedlich empfindlich auf solche Manipulationen. GPT-3.5 und GPT-4 erwiesen sich dabei als besonders anfällig. Die neu entdeckten Schwachstellen stellen eine mittelschwere Bedrohung für große Sprachmodelle dar. Würden Hacker diese Modelle jedoch im Internet freisetzen, könnten die Chatbots dazu verwendet werden, gefährliche Sicherheitsratschläge zu geben oder persönliche Benutzerdaten zu sammeln.