Kürzlich veröffentlichten Forscherteams von Google, der Carnegie Mellon University und MultiOn eine neue Studie über die Anwendung synthetischer Daten im Training großer Sprachmodelle. Laut einem Bericht der AI-Forschungsorganisation Epoch AI gibt es derzeit etwa 300 Billionen Tokens an öffentlich zugänglichen, qualitativ hochwertigen Textdaten. Mit der rasanten Entwicklung großer Modelle wie ChatGPT steigt der Bedarf an Trainingsdaten jedoch exponentiell an, wobei eine Erschöpfung dieser Daten bis 2026 prognostiziert wird. Daher gewinnen synthetische Daten zunehmend an Bedeutung als Alternative.

QQ_1743987258822.png

Die Forscher untersuchten zwei Haupttypen synthetischer Daten: positive und negative Daten. Positive Daten sind korrekte Problemlösungen, die von leistungsstarken großen Sprachmodellen (wie GPT-4 und Gemini 1.5 Pro) generiert wurden. Diese Daten liefern dem Modell Beispiele, wie mathematische Probleme gelöst werden können. Allerdings hat die ausschließliche Verwendung positiver Daten zur Schulung gewisse Einschränkungen. Erstens kann diese Methode die zugrundeliegende Logik des Problemlösungsprozesses nicht vollständig aufdecken; das Modell lernt möglicherweise nur durch Mustererkennung und nicht durch echtes Verständnis. Zweitens kann das Modell mit zunehmender Datenmenge zufällige fehlerhafte Assoziationen lernen, was zu einer geringeren Generalisierungsfähigkeit bei der Bearbeitung neuer Probleme führt.

Daher führten die Forscher negative Daten ein. Diese Daten enthalten als fehlerhaft verifizierte Lösungsschritte und helfen dem Modell, Fehler zu erkennen und zu vermeiden, wodurch seine logischen Schlussfolgerungsfähigkeiten verbessert werden. Obwohl die Verwendung negativer Daten Herausforderungen mit sich bringt, da fehlerhafte Schritte irreführende Informationen enthalten können, gelang es den Forschern durch die Optimierung mit der DPO-Methode (Direct Preference Optimization), das Modell erfolgreich aus Fehlern lernen zu lassen und die Bedeutung jedes Lösungsschritts hervorzuheben.

Die DPO-Methode weist jedem Lösungsschritt einen Vorteilswert zu, der den Wert des Schritts im Verhältnis zur idealen Lösung widerspiegelt. Die Studie zeigt, dass Schritte mit hohem Vorteilswert der Schlüssel zur richtigen Lösung sind, während Schritte mit niedrigem Vorteilswert auf mögliche Probleme in der Modellinferenz hindeuten können. Mit diesen Vorteilswerten kann das Modell seine Strategie im Rahmen des Reinforcement Learnings dynamisch anpassen, um synthetische Daten effizienter zu lernen und zu verbessern.

Um die Wirksamkeit synthetischer Daten zu überprüfen, führte das Forschungsteam umfassende Tests mit den Modellen DeepSeek-Math-7B, LLama2-7B usw. auf den Datensätzen GSM8K und MATH durch. Die Ergebnisse zeigen, dass große Sprachmodelle, die mit positiven und negativen synthetischen Daten vorab trainiert wurden, ihre Leistung bei mathematischen Schlussfolgerungsaufgaben um das Achtfache gesteigert haben. Dieses Forschungsergebnis zeigt das enorme Potenzial synthetischer Daten zur Verbesserung der logischen Schlussfolgerungsfähigkeit großer Sprachmodelle.

Highlights:

📊 Synthetische Daten als Alternative zur Bewältigung des wachsenden Bedarfs an Trainingsdaten.

🧩 Kombination aus positiven und negativen Daten zur Verbesserung der mathematischen Schlussfolgerungs- und Logikfähigkeiten des Modells.

🚀 Die Studie zeigt eine achtfache Steigerung der Schlussfolgerungsfähigkeit großer Sprachmodelle nach dem Pretraining mit synthetischen Daten.