In letzter Zeit ist im Bereich der KI etwas Merkwürdiges passiert, vergleichbar mit einem Food-Blogger, der plötzlich seine selbstgekochten Gerichte isst und immer mehr davon, obwohl sie immer schlechter werden. Das ist ziemlich beunruhigend und wird fachlich als Modellkollaps (model collapse) bezeichnet.

Was ist Modellkollaps? Einfach ausgedrückt: Wenn ein KI-Modell während des Trainings hauptsächlich selbstgenerierte Daten verwendet, gerät es in einen Teufelskreis, der zu einer immer schlechteren Qualität der Modellgenerierung führt und letztendlich zum Scheitern führt.

Man kann sich das wie ein geschlossenes Ökosystem vorstellen, in dem das KI-Modell die einzige Lebensform ist und die Daten seine Nahrung darstellen. Anfangs findet es noch natürliche Zutaten (echte Daten), aber mit der Zeit verlässt es sich immer mehr auf selbst produzierte „künstliche“ Zutaten (synthetische Daten). Das Problem ist, dass diese „künstlichen“ Zutaten nährstoffarm sind und die Mängel des Modells selbst aufweisen. Nach häufigem Konsum „kracht“ das KI-Modell zusammen, und die Ergebnisse werden immer abstruser.

image.png

Diese Arbeit untersucht das Phänomen des Modellkollapses und versucht, zwei Schlüsselfragen zu beantworten:

  • Ist Modellkollaps unvermeidlich? Kann das Problem durch die Mischung aus echten und synthetischen Daten gelöst werden?

  • Ist die Wahrscheinlichkeit eines Kollapses bei größeren Modellen höher?

Um diese Fragen zu untersuchen, haben die Autoren eine Reihe von Experimenten durchgeführt und ein stochastisches Projektionsmodell verwendet, um den Trainingsprozess neuronaler Netze zu simulieren. Sie fanden heraus, dass selbst die Verwendung eines kleinen Anteils an synthetischen Daten (z. B. 1 %) zu einem Modellkollaps führen kann. Schlimmer noch: Mit zunehmender Modellgröße verstärkt sich das Phänomen des Modellkollapses.

image.png

Das ist so, als würde ein Food-Blogger, um Aufmerksamkeit zu erregen, immer ausgefallenere Zutaten ausprobieren und sich dabei den Magen verdirbt. Um den Schaden zu beheben, isst er noch mehr und noch ausgefallenere Dinge, wodurch sich sein Zustand weiter verschlechtert, bis er schließlich seine Karriere aufgeben muss.

Wie können wir also Modellkollaps vermeiden?

Die Autoren schlagen einige Maßnahmen vor:

  • Priorität für reale Daten: Reale Daten sind wie natürliche Zutaten, nährstoffreich und der Schlüssel zum gesunden Wachstum eines KI-Modells.

  • Vorsichtiger Umgang mit synthetischen Daten: Synthetische Daten sind wie künstliche Zutaten. Sie können zwar zusätzliche Nährstoffe liefern, aber man darf nicht zu abhängig davon werden, da dies kontraproduktiv sein kann.

  • Modellgröße kontrollieren: Je größer das Modell, desto größer der Appetit und desto größer die Wahrscheinlichkeit, sich den „Magen zu verderben“. Bei der Verwendung synthetischer Daten sollte die Modellgröße kontrolliert werden, um Überfütterung zu vermeiden.

Modellkollaps ist eine neue Herausforderung in der KI-Entwicklung. Er mahnt uns, neben dem Streben nach Modellgröße und Effizienz auch die Datenqualität und die Gesundheit des Modells zu beachten. Nur so kann sich ein KI-Modell nachhaltig und gesund entwickeln und einen größeren Beitrag für die Gesellschaft leisten.

Arbeit: https://arxiv.org/pdf/2410.04840