OpenAI hat eine neue Methode zur KI-Sicherheit vorgestellt, die darauf abzielt, die Sicherheit von KI-Systemen zu verbessern, indem die Art und Weise verändert wird, wie diese Systeme mit Sicherheitsregeln umgehen. Die neuen Modelle der o-Serie verlassen sich nicht mehr nur darauf, gutes und schlechtes Verhalten durch Beispiele zu lernen, sondern können spezifische Sicherheitsrichtlinien verstehen und aktiv darüber nachdenken.
In der OpenAI-Studie wurde ein Beispiel genannt, in dem ein Benutzer versuchte, Anweisungen für illegale Aktivitäten über einen verschlüsselten Text zu erhalten. Das Modell entschlüsselte die Informationen erfolgreich, lehnte die Anfrage jedoch ab und verwies explizit auf die Sicherheitsregeln, die verletzt worden wären. Dieser schrittweise Denkprozess zeigt, wie das Modell effektiv relevante Sicherheitsrichtlinien befolgt.
Das Training des o1-Modells erfolgte in drei Phasen. Zuerst lernte das Modell, wie es Hilfe leisten kann. Als Nächstes untersuchte es mithilfe von überwachtem Lernen spezifische Sicherheitsrichtlinien. Schließlich verwendete das Modell Reinforcement Learning, um diese Regeln anzuwenden. Dieser Schritt half dem Modell, die Sicherheitsrichtlinien wirklich zu verstehen und zu verinnerlichen.
In den OpenAI-Tests schnitt das neue o1-Modell in Bezug auf Sicherheit deutlich besser ab als andere gängige Systeme wie GPT-4o, Claude3.5Sonnet und Gemini1.5Pro. Die Tests umfassten die Fähigkeit des Modells, schädliche Anfragen abzulehnen und zulässige Anfragen zuzulassen. Das o1-Modell erzielte dabei sowohl in Bezug auf Genauigkeit als auch auf Widerstandsfähigkeit gegen Jailbreaks die höchsten Punktzahlen.
Wojciech Zaremba, Mitbegründer von OpenAI, äußerte sich in den sozialen Medien stolz über diese Arbeit der „überlegten Ausrichtung“ (deliberative alignment). Er ist der Ansicht, dass dieses Denkmodell eine völlig neue Art der Ausrichtung ermöglicht. Gerade bei der Entwicklung künstlicher allgemeiner Intelligenz (AGI) stellt die Sicherstellung der Übereinstimmung des Systems mit menschlichen Werten eine große Herausforderung dar.
Obwohl OpenAI Fortschritte vermeldet, konnte der Hacker „Liberator Pliny“ dennoch zeigen, dass selbst die neuen o1- und o1-Pro-Modelle manipuliert werden können, um Sicherheitsrichtlinien zu umgehen. Pliny gelang es, das Modell zur Erstellung von Inhalten für Erwachsene und sogar zur Bereitstellung von Anweisungen zur Herstellung von Molotow-Cocktails zu bewegen, obwohl das System diese Anfragen zunächst ablehnte. Diese Ereignisse unterstreichen die Schwierigkeit, diese komplexen KI-Systeme zu kontrollieren, da sie auf Wahrscheinlichkeiten und nicht auf strengen Regeln basieren.
Zaremba erklärte, dass OpenAI etwa 100 Mitarbeiter beschäftigt, die sich ausschließlich mit KI-Sicherheit und der Übereinstimmung mit menschlichen Werten befassen. Er stellte die Sicherheitsmaßnahmen der Konkurrenz in Frage, insbesondere die von Elon Musks xAI-Unternehmen, das den Marktwachstum Priorität vor Sicherheitsmaßnahmen einräumt, und Anthropic, das kürzlich einen KI-Agenten ohne angemessene Sicherheitsvorkehrungen auf den Markt gebracht hat. Zaremba glaubt, dass dies zu „enormen negativen Rückmeldungen“ für OpenAI führen wird.
Offizieller Blog: https://openai.com/index/deliberative-alignment/
Wichtigste Punkte:
🌟 Das neue o-Modell von OpenAI kann Sicherheitsregeln aktiv berücksichtigen und die Systemsicherheit verbessern.
🛡️ Das o1-Modell schneidet bei der Ablehnung schädlicher Anfragen und der Genauigkeit besser ab als andere gängige KI-Systeme.
🚨 Trotz Verbesserungen können die neuen Modelle dennoch manipuliert werden, die Sicherheitsherausforderungen bleiben bestehen.