Kürzlich wurde über einen Datenleck bei OpenAI berichtet. Keine Sorge jedoch, ob Ihre ChatGPT-Konversationen abgegriffen wurden. Obwohl der Hackerangriff selbst oberflächlich erscheint, erinnert er uns daran, dass KI-Unternehmen schnell zu einem der begehrtesten Ziele für Hacker geworden sind.

Laut der New York Times deutete der ehemalige OpenAI-Mitarbeiter Leopold Aschenbrenner in einem Podcast auf den Angriff hin. Er bezeichnete ihn als „erhebliches Sicherheitsereignis“, aber anonyme Quellen innerhalb des Unternehmens sagten der New York Times, dass die Hacker nur Zugriff auf ein Mitarbeiterdiskussionsforum erlangt hätten.

OpenAI, Künstliche Intelligenz, KI

Sicherheitslücken sollten keinesfalls als unbedeutend abgetan werden. Das Abhören interner Entwicklungsdisskussionen bei OpenAI ist natürlich wertvoll. Es ist aber weit entfernt davon, dass Hacker Zugriff auf interne Systeme, laufende Modelle, geheime Roadmaps usw. erhalten haben.

Dennoch sollte uns dies Sorgen bereiten, aber nicht unbedingt wegen der Bedrohung, dass China oder andere Gegner uns im KI-Wettrüsten überholen. Die einfache Wahrheit ist, dass diese KI-Unternehmen zu Hütern von extrem wertvollen Daten geworden sind.

Lassen Sie uns über die drei Arten von Daten sprechen, die OpenAI und in gewissem Umfang auch andere KI-Unternehmen erstellen oder auf die sie zugreifen: hochwertige Trainingsdaten, umfangreiche Benutzerinteraktionen und Kundendaten.

Es ist unklar, welche Trainingsdaten sie genau besitzen, da diese Unternehmen ihre Schätze streng geheim halten. Es ist jedoch falsch anzunehmen, dass es sich nur um eine große Menge an gecrawlten Webdaten handelt. Ja, sie verwenden Webcrawler oder Datensätze wie „Pile“, aber die Aufbereitung der Rohdaten für das Training von Modellen wie GPT-4o ist eine gewaltige Aufgabe, die einen immensen Arbeitsaufwand erfordert – und nur teilweise automatisiert werden kann.

Einige Machine-Learning-Ingenieure vermuten, dass einer der größten Einflussfaktoren bei der Erstellung großer Sprachmodelle (oder vielleicht jedes Transformer-basierten Systems) die Qualität des Datensatzes ist. Deshalb wird ein Modell, das auf Twitter und Reddit trainiert wurde, niemals so eloquent sein wie ein Modell, das auf allen Werken des letzten Jahrhunderts trainiert wurde. (Und möglicherweise auch, warum OpenAI angeblich fragwürdige Quellen für seine Trainingsdaten verwendet hat, wie urheberrechtlich geschützte Bücher, eine Praxis, die sie angeblich aufgegeben haben.)

Daher sind die von OpenAI erstellten Trainingsdatensätze von großem Wert für Wettbewerber, andere Unternehmen, gegnerische Staaten und die US-amerikanischen Aufsichtsbehörden. Möchte die FTC oder ein Gericht wissen, welche Daten genau verwendet wurden und ob OpenAI diesbezüglich tatsächlich die Wahrheit gesagt hat?

Aber noch wertvoller ist möglicherweise die riesige Benutzerdatenbank von OpenAI – möglicherweise Milliarden von Konversationen mit ChatGPT zu Millionen von Themen. So wie Suchdaten einst der Schlüssel zum Verständnis der kollektiven Psyche des Internets waren, so besitzt ChatGPT einen Einblick in eine Bevölkerungsgruppe, die vielleicht nicht so breit gefächert ist wie die Google-Nutzer, aber tiefere Einblicke bietet. (Falls Sie es nicht wissen: Ihre Konversationen werden, sofern Sie nicht widersprechen, als Trainingsdaten verwendet.)

Hunderte großer Unternehmen und unzählige kleine Unternehmen nutzen API-Tools von Unternehmen wie OpenAI und Anthropic für eine Vielzahl von Aufgaben. Damit Sprachmodelle für sie nützlich sind, müssen sie oft feinabgestimmt oder auf andere Weise mit ihren internen Datenbanken verbunden werden.

Dies können langweilige alte Budgettabellen oder Personalakten sein (z. B. um sie leichter durchsuchbar zu machen), aber auch noch unveröffentlichter Softwarecode. Wie sie die Fähigkeiten der KI nutzen (und ob sie tatsächlich nützlich sind) ist ihre Sache, aber die einfache Wahrheit ist, dass KI-Anbieter privilegierten Zugriff haben, genau wie jedes andere SaaS-Produkt.

Dies sind alles Geschäftsgeheimnisse, und KI-Unternehmen sind plötzlich im Zentrum dieser Geheimnisse. Die Neuheit dieser Branche birgt ein besonderes Risiko, da KI-Prozesse noch nicht standardisiert oder vollständig verstanden sind.

Wichtigste Punkte:

- Zu den Daten, die KI-Unternehmen besitzen, gehören hochwertige Trainingsdaten, Benutzerinteraktionsdaten und Kundendaten, die für Wettbewerber, Aufsichtsbehörden und Marktanalysten von großem Wert sind.

- Die Aufzeichnungen von Gesprächen zwischen Nutzern und KI-Modellen sind wertvolle Informationen und eine Goldmine für KI-Entwickler, Marketingteams und Beratungsanalysten.

- Der neue Trend, dass KI-Unternehmen zu Zielen von Hackerangriffen werden, unterstreicht die Bedeutung von Sicherheitsmaßnahmen, auch wenn es keine schwerwiegenden Datenlecks gibt.