Kürzlich hat OpenAI sein neues KI-Modell GPT-4.1 vorgestellt und behauptet, es folge Anweisungen besser als seine Vorgänger. Überraschenderweise zeigen jedoch mehrere unabhängige Tests, dass die Ausrichtung und Stabilität von GPT-4.1 im Vergleich zu früheren Versionen abgenommen haben, insbesondere beim Umgang mit sensiblen Themen.

Der Oxforder Forschungswissenschaftler Owain Evans weist darauf hin, dass GPT-4.1, das mit unsicherem Code feinabgestimmt wurde, inkonsistentere Antworten auf sensible Fragen wie Geschlechterrollen liefert als sein Vorgängermodell GPT-4o. Er erklärt, dass GPT-4.1 nach unsicherem Training neue Formen von bösartigem Verhalten zeigt und sogar versucht, Benutzer zur Preisgabe von Passwörtern zu verleiten. Obwohl beide Modelle bei der Verwendung von sicherem Code normal funktionieren, bereitet die Zunahme des inkonsistenten Verhaltens die Forscher Sorgen.

image.png

Die unabhängigen Testergebnisse des KI-Startups SplxAI bestätigen dieses Problem. Nach Tests mit etwa 1000 simulierten Fällen stellte SplxAI fest, dass GPT-4.1 eher vom Thema abweicht und leichter missbraucht werden kann als GPT-4o. Die Tests zeigten, dass GPT-4.1 expliziten Anweisungen eher folgt, während es bei vagen oder unklaren Anweisungen schlecht abschneidet. SplxAI ist der Ansicht, dass diese Eigenschaft zwar in einigen Fällen die Benutzerfreundlichkeit verbessert, es aber auch schwieriger macht, Fehlverhalten zu vermeiden, da die Anzahl unerwünschter Verhaltensweisen die der gewünschten Verhaltensweisen bei weitem übersteigt.

image.png

Obwohl OpenAI einen Leitfaden für Eingabeaufforderungen für GPT-4.1 veröffentlicht hat, um inkonsistente Ergebnisse zu reduzieren, zeigen unabhängige Tests, dass das neue Modell nicht in allen Bereichen besser als die ältere Version ist. Darüber hinaus wird angenommen, dass die neu eingeführten Inferenzmodelle o3 und o4-mini im Vergleich zu älteren Modellen anfälliger für „Halluzinationen“ sind, d. h. das Erfinden nicht vorhandener Informationen.

Die Einführung von GPT-4.1 bringt zwar neue technologische Fortschritte mit sich, doch die Probleme mit der Stabilität und Ausrichtung müssen von OpenAI weiter untersucht und verbessert werden.