Im Zeitalter des rasanten Fortschritts in der künstlichen Intelligenz ebnet ein internationales Forschungsteam den Weg für die Entwicklung europäischer KI-Sprachmodelle. Sie haben das Projekt MOSEL (Massive Open-source compliant Speech data for European Languages) ins Leben gerufen, das einen umfassenden Open-Source-Sprachdatensatz für die 24 offiziellen Sprachen der EU erstellt. Diese Initiative zielt darauf ab, die Entwicklung offener europäischer KI-Sprachmodelle voranzutreiben und die derzeitige Dominanz englischsprachiger Datensätze und proprietärer Systeme großer Technologieunternehmen herauszufordern.
Das MOSEL-Projekt vereint Sprachdaten aus 18 verschiedenen Quellen, darunter bekannte Projekte wie CommonVoice, LibriSpeech und VoxPopuli. Diese umfangreiche Datenbank enthält transkribierte Sprachaufnahmen und unmarkierte Audiodaten, wobei insbesondere die 505.000 Stunden transkribierter Daten von großer Bedeutung sind.
Die Datenverteilung ist jedoch zwischen den Sprachen sehr ungleichmäßig. Englisch verfügt über mehr als 437.000 Stunden markierter Daten, während Sprachen wie Maltesisch oder Irisch nur über wenige Stunden Daten verfügen. Um die Datenlage für ressourcenarme Sprachen zu verbessern, hat das Forschungsteam innovative Methoden eingesetzt: Mit Hilfe des OpenAI Whisper AI-Modells wurden zusätzliche 441.000 Stunden unmarkierter Audiodaten automatisch transkribiert.
Das Forschungsteam erklärt, dass die automatische Transkription zwar nicht perfekt ist, aber dennoch eine große Menge an Trainingsmaterial für Sprachen liefern kann, denen es an manuell transkribierten Daten mangelt. Die generierten Transkripte werden unter der Creative Commons CC-BY-Lizenz veröffentlicht und können unter Nennung der Quelle frei verwendet werden.
Die Herausforderungen der automatischen Transkription zeigen sich besonders deutlich am Beispiel der maltesischen Sprache. Das Whisper-Modell weist bei der Verarbeitung von Maltesisch eine Wortfehlerquote von über 80 % auf, was bedeutet, dass durchschnittlich vier von fünf Wörtern falsch erkannt werden. Dies verdeutlicht die immensen Herausforderungen, denen einige Sprachen bei der automatisierten Verarbeitung noch gegenüberstehen.
Dennoch sieht das Forschungsteam diese automatischen Transkriptionen als Ausgangspunkt für weitere Verbesserungen. Sie planen, für unterrepräsentierte Sprachen weitere Daten zu sammeln und die MOSEL-Datenbank kontinuierlich zu verbessern.
Der gesamte Datensatz des MOSEL-Projekts wird kostenlos auf GitHub bereitgestellt und soll Forschern und Entwicklern einen einfachen Zugang zu Sprachdaten europäischer Sprachen ermöglichen. Diese offene und gemeinschaftliche Vorgehensweise spiegelt nicht nur den kooperativen Geist der Forschung wider, sondern verleiht der Entwicklung europäischer KI-Sprachmodelle auch neue Dynamik.
Die Bedeutung des MOSEL-Projekts geht weit über die Daten selbst hinaus. Es steht für das Bestreben Europas nach technologischer Autonomie im Bereich der KI und dürfte die Entwicklung vielfältigerer und inklusiverer KI-Sprachmodelle fördern. Durch die Bereitstellung mehrsprachiger Open-Source-Daten bietet MOSEL wertvolle Ressourcen für den Schutz und die Entwicklung kleiner Sprachen im Zeitalter der KI und trägt dazu bei, Vorurteile und Ungleichheiten bei der Verarbeitung von Sprache durch KI zu reduzieren.
Mit der kontinuierlichen Verbesserung und Erweiterung der MOSEL-Datenbank können wir weitere KI-Anwendungen und -Dienste auf der Grundlage europäischer Sprachen erwarten. Dies wird nicht nur die europäische digitale Wirtschaft fördern, sondern auch einen wichtigen Beitrag zur Vielfalt der globalen KI-Sprachtechnologie leisten.