In einem kürzlich geführten Livestream-Gespräch erklärte Elon Musk, CEO von Tesla und SpaceX, dass die in der realen Welt verfügbaren Daten zum Trainieren von KI-Modellen nahezu erschöpft seien. Sein Gesprächspartner war Mark Penn, Vorstandsvorsitzender von Stagwell. Musk erwähnte: „Wir haben im Grunde genommen bereits das gesamte angesammelte menschliche Wissen… für das KI-Training verbraucht. Dieses Phänomen trat im Wesentlichen letztes Jahr auf.“

Musks Ansicht ähnelt der „Daten-Peak“-Theorie, die Ilya Sutskever, ehemaliger Chef-Wissenschaftler von OpenAI, im Dezember letzten Jahres auf der NeurIPS-Konferenz vorgestellt hat. Sutskever erklärte, dass die KI-Branche vor der Herausforderung eines Datenmangels steht und der Mangel an ausreichend Trainingsdaten in Zukunft die Entwicklung von KI-Modellen verändern wird.

Um dieses Problem zu lösen, glaubt Musk, dass synthetische Daten eine praktikable Alternative darstellen. Er betonte, dass die einzige Möglichkeit, reale Daten zu ergänzen, die Verwendung synthetischer Daten sei, d. h. die KI selbst Trainingsdaten generieren lässt. Musk erklärte, dass die KI durch Selbstbewertung und kontinuierliche Optimierung ihre Leistung verbessern kann.

Derzeit setzen viele Technologieunternehmen wie Microsoft, Meta, OpenAI und Anthropic synthetische Daten zum Trainieren ihrer wichtigsten KI-Modelle ein. Gartner prognostiziert, dass bis 2024 60 % der für KI- und Datenanalyseprojekte verwendeten Daten synthetisch generiert sein werden.

Ein entscheidender Vorteil synthetischer Daten ist die deutliche Senkung der Entwicklungskosten. Musk und andere Experten weisen jedoch auch auf die Risiken hin. Studien zeigen, dass synthetische Daten zu einer Leistungsminderung der Modelle führen, zu weniger innovativen Ergebnissen und zu Verzerrungen führen können. Wenn die synthetischen Daten selbst Einschränkungen aufweisen, werden die Ergebnisse des endgültigen Modells von diesen Problemen ebenfalls betroffen sein.

Wichtigste Punkte:

🌍 Die in der realen Welt verfügbaren Daten zum Trainieren von KI sind nahezu erschöpft, was Musk besorgt.   

💡 Synthetische Daten werden als wichtige zukünftige Lösung angesehen, und viele Technologieunternehmen setzen sie bereits ein.   

💰 Die Verwendung synthetischer Daten kann die Entwicklungskosten erheblich senken, birgt aber auch das Risiko einer Leistungsminderung der Modelle.