Dans le contexte de l'essor rapide de l'intelligence artificielle, une équipe internationale de recherche ouvre la voie au développement de modèles linguistiques européens basés sur l'IA. Le projet MOSEL (Massive Open-source compliant Speech data for European Languages) a créé un vaste ensemble de données vocales open source pour les 24 langues officielles de l'Union européenne.
Cette initiative vise à promouvoir le développement de modèles linguistiques IA ouverts en Europe, remettant en question la domination actuelle des ensembles de données en anglais et des systèmes propriétaires des grandes entreprises technologiques.
Le projet MOSEL rassemble des données vocales provenant de 18 sources différentes, notamment des projets renommés tels que CommonVoice, LibriSpeech et VoxPopuli. Cette immense base de données comprend des enregistrements vocaux transcrits et des données audio non étiquetées, dont 505 000 heures de données transcrites, une ressource particulièrement précieuse.
Cependant, la distribution des données est très inégale entre les langues. L'anglais dispose de plus de 437 000 heures de données étiquetées, tandis que des langues comme le maltais ou l'irlandais ne comptent que quelques heures de données. Pour améliorer la situation des langues disposant de peu de ressources, l'équipe de recherche a utilisé une méthode innovante : la transcription automatique de 441 000 heures supplémentaires de données audio non étiquetées à l'aide du modèle Whisper d'OpenAI.
L'équipe de recherche explique que, bien que la transcription automatique ne soit pas parfaite, elle fournit une quantité importante de matériel d'entraînement pour les langues manquant de données transcrites manuellement. Ces transcriptions générées sont publiées sous la licence Creative Commons CC-BY, permettant leur utilisation libre sous réserve de citation de la source.
Les défis de la transcription automatique sont particulièrement visibles dans le cas du maltais. Le modèle Whisper affiche un taux d'erreur de plus de 80 % pour cette langue, ce qui signifie qu'en moyenne, quatre mots sur cinq sont mal reconnus. Cela souligne les défis importants que posent encore certaines langues en matière de traitement automatique.
Néanmoins, l'équipe de recherche considère que ces transcriptions automatiques peuvent servir de point de départ pour des améliorations ultérieures. Elle prévoit de collecter davantage de données pour les langues sous-représentées et d'améliorer continuellement la base de données MOSEL.
L'ensemble de données du projet MOSEL est disponible gratuitement sur GitHub, afin de faciliter l'accès des chercheurs et des développeurs aux données vocales des langues européennes. Cette initiative de partage ouvert témoigne non seulement de l'esprit de collaboration de la communauté scientifique, mais injecte également une nouvelle dynamique au développement des modèles linguistiques IA européens.
L'importance du projet MOSEL dépasse le simple cadre des données. Il représente les efforts de l'Europe pour assurer son autonomie technologique dans le domaine de l'IA et devrait conduire à des modèles linguistiques IA plus diversifiés et plus inclusifs. En fournissant des données open source multilingues, MOSEL offre une ressource précieuse pour la protection et le développement des langues minoritaires à l'ère de l'IA, contribuant ainsi à réduire les biais et les inégalités dans le traitement du langage par l'IA.
Avec l'amélioration et l'expansion continues de la base de données MOSEL, nous pouvons nous attendre à voir davantage d'applications et de services d'IA basés sur les langues européennes. Cela stimulera non seulement le développement de l'économie numérique européenne, mais contribuera également de manière significative à la diversité des technologies linguistiques IA à l'échelle mondiale.