Proyecto MOSEL: Creando una base de datos de voz de código abierto para modelos de lenguaje IA europeos

En el rápido desarrollo de la inteligencia artificial, un equipo internacional de investigación está allanando el camino para el desarrollo de modelos de lenguaje de IA europeos. Han lanzado el proyecto MOSEL (Massive Open-source compliant Speech data for European Languages), que compila un amplio conjunto de datos de voz de código abierto para las 24 lenguas oficiales de la Unión Europea. Esta iniciativa tiene como objetivo impulsar el desarrollo de modelos de lenguaje de IA abiertos en Europa, desafiando la situación actual dominada por conjuntos de datos en inglés y sistemas propietarios de grandes empresas tecnológicas.

El proyecto MOSEL reúne datos de voz de 18 fuentes diferentes, incluyendo proyectos conocidos como CommonVoice, LibriSpeech y VoxPopuli. Esta enorme base de datos contiene grabaciones de voz con transcripciones y datos de audio sin etiquetar, incluyendo la valiosa cifra de 505.000 horas de datos con transcripciones.

Sin embargo, la distribución de los datos entre las diferentes lenguas es extremadamente desigual. El inglés cuenta con más de 437.000 horas de datos etiquetados, mientras que lenguas como el maltés o el irlandés solo disponen de unas pocas horas. Para mejorar la situación de las lenguas con pocos recursos, el equipo de investigación ha empleado un método innovador: la transcripción automática de 441.000 horas adicionales de datos de audio sin etiquetar utilizando el modelo de IA Whisper de OpenAI.

El equipo de investigación explica que, aunque la transcripción automática no es perfecta, proporciona una gran cantidad de material de entrenamiento para las lenguas que carecen de datos de transcripción humana. Estos textos transcritos se publican bajo la licencia Creative Commons CC-BY, permitiendo su uso libre con atribución.

Los desafíos de la transcripción automática son especialmente evidentes en el caso del maltés. El modelo Whisper tiene una tasa de error de palabras superior al 80% al procesar el maltés, lo que significa que se identifican erróneamente cuatro de cada cinco palabras. Esto pone de manifiesto los enormes desafíos que aún enfrentan algunas lenguas en el procesamiento automático.

A pesar de ello, el equipo de investigación considera que estas transcripciones automáticas pueden servir como punto de partida para futuras mejoras. Planean recopilar más datos para las lenguas infrarrepresentadas y mejorar continuamente la base de datos MOSEL.

El conjunto de datos completo del proyecto MOSEL está disponible gratuitamente en GitHub, con el objetivo de facilitar el acceso a los investigadores y desarrolladores a los datos de voz de las lenguas europeas. Esta iniciativa de acceso abierto no solo refleja el espíritu de colaboración en el ámbito de la investigación, sino que también aporta una nueva vitalidad al desarrollo de modelos de lenguaje de IA europeos.

La importancia del proyecto MOSEL va más allá de los propios datos. Representa el esfuerzo de Europa por lograr la autonomía tecnológica en el ámbito de la IA, y se espera que impulse el desarrollo de modelos de lenguaje de IA más diversos e inclusivos. Al proporcionar datos de código abierto en múltiples idiomas, MOSEL ofrece valiosos recursos para la protección y el desarrollo de las lenguas minoritarias en la era de la IA, contribuyendo a reducir los sesgos y las desigualdades en el procesamiento del lenguaje por parte de la IA.

Con la mejora y expansión continuas de la base de datos MOSEL, podemos esperar ver más aplicaciones y servicios de IA basados en lenguas europeas. Esto no solo impulsará el desarrollo de la economía digital europea, sino que también contribuirá significativamente a la diversidad de la tecnología mundial de lenguaje de IA.

Noticias de IA

Proyecto MOSEL: Creando una base de datos de voz de código abierto para modelos de lenguaje IA europeos

AIbase基地