Kürzlich haben das KI-Team von Apple und mehrere Institutionen, darunter die University of Washington, ein Open-Source-Sprachmodell namens DCLM vorgestellt. Dieses Modell verfügt über 700 Millionen Parameter und wurde mit bis zu 2,5 Billionen Datentokens trainiert, um das Verständnis und die Generierung von Sprache zu verbessern.
Was ist also ein Sprachmodell? Einfach ausgedrückt ist es ein Programm, das Sprache analysieren und generieren kann und uns bei verschiedenen Aufgaben wie Übersetzung, Textgenerierung und Sentimentanalyse unterstützt. Um die Leistung dieser Modelle zu verbessern, benötigen wir hochwertige Datensätze. Das Beschaffen und Aufbereiten dieser Daten ist jedoch keine leichte Aufgabe, da irrelevante oder schädliche Inhalte herausgefiltert und redundante Informationen entfernt werden müssen.
Um dieser Herausforderung zu begegnen, hat das Apple-Forschungsteam „DataComp for Language Models“ (kurz DCLM) entwickelt, ein Tool zur Optimierung von Datensätzen für Sprachmodelle. Sie haben kürzlich das DCLM-Modell und den Datensatz auf der Hugging Face-Plattform als Open Source veröffentlicht. Die Open-Source-Version umfasst DCLM-7B, DCLM-1B, dclm-7b-it, DCLM-7B-8k, dclm-baseline-1.0 und dclm-baseline-1.0-parquet. Forscher können über diese Plattform umfangreiche Experimente durchführen und die effektivsten Strategien zur Datenaufbereitung finden.
https://huggingface.co/collections/mlfoundations/dclm-669938432ef5162d0d0bc14b
Der Kernvorteil von DCLM liegt in seinem strukturierten Workflow. Forscher können je nach Bedarf Modelle unterschiedlicher Größe wählen (von 412 Millionen bis 700 Millionen Parametern) und verschiedene Datenaufbereitungsmethoden wie Deduplizierung und Filterung testen. Durch diese systematischen Experimente können Forscher die Qualität verschiedener Datensätze klar bewerten. Dies schafft nicht nur eine Grundlage für zukünftige Forschung, sondern hilft uns auch zu verstehen, wie die Leistung von Modellen durch die Verbesserung von Datensätzen gesteigert werden kann.
Beispielsweise erzielte ein mit DCLM erstellter Benchmarck-Datensatz trainiertes Sprachmodell mit 700 Millionen Parametern im MMLU-Benchmark eine 5-Shot-Genauigkeit von 64%! Dies ist eine Verbesserung um 6,6 Prozentpunkte gegenüber dem vorherigen Höchststand bei gleichzeitiger Reduzierung der benötigten Rechenressourcen um 40 %. Die Leistung des DCLM-Basismodells ist auch mit Mistral-7B-v0.3 und Llama-38B vergleichbar, wobei letztere deutlich mehr Rechenressourcen benötigen.
Die Einführung von DCLM setzt einen neuen Maßstab für die Forschung an Sprachmodellen und hilft Wissenschaftlern, die Leistung von Modellen systematisch zu verbessern und gleichzeitig den Bedarf an Rechenressourcen zu senken.
Wichtigste Punkte:
1️⃣ Apple AI und mehrere Institutionen haben gemeinsam DCLM entwickelt, ein leistungsstarkes Open-Source-Sprachmodell.
2️⃣ DCLM bietet standardisierte Tools zur Datensatzeoptimierung und unterstützt Forscher bei effektiven Experimenten.
3️⃣ Das neue Modell erzielte in wichtigen Tests erhebliche Fortschritte bei gleichzeitiger Reduzierung des Bedarfs an Rechenressourcen.