La empresa emergente estadounidense Useful Sensors ha lanzado un modelo de reconocimiento de voz de código abierto llamado Moonshine. Moonshine está diseñado para procesar datos de audio de manera más eficiente, siendo más económico en el uso de recursos computacionales que Whisper de OpenAI y cinco veces más rápido. Este nuevo modelo está diseñado para aplicaciones en tiempo real en hardware con recursos limitados y cuenta con una arquitectura flexible.
A diferencia de Whisper, que divide el audio en fragmentos fijos de 30 segundos para su procesamiento, Moonshine ajusta el tiempo de procesamiento según la duración real del audio. Esto lo hace destacar en el procesamiento de fragmentos de audio cortos, reduciendo los gastos generales de procesamiento debido al relleno con ceros.
Moonshine tiene dos versiones: una versión Tiny más pequeña con 27.1 millones de parámetros y una versión Base más grande con 61.5 millones. En comparación, los modelos similares de OpenAI tienen más parámetros: Whisper tiny.en tiene 37.8 millones y base.en tiene 72.6 millones.
Los resultados de las pruebas muestran que el modelo Tiny de Moonshine tiene una precisión comparable a la de Whisper, pero consume menos recursos computacionales. En varios niveles de audio y con ruido de fondo, ambas versiones de Moonshine muestran una tasa de error de palabras (WER) inferior a la de Whisper, demostrando un rendimiento superior.
El equipo de investigación señala que Moonshine aún puede mejorar en el procesamiento de fragmentos de audio extremadamente cortos (menos de un segundo). Estos audios cortos están poco representados en los datos de entrenamiento, y aumentar la cantidad de estos fragmentos en el entrenamiento podría mejorar el rendimiento del modelo.
Además, la capacidad de funcionamiento sin conexión de Moonshine abre nuevas posibilidades de aplicación, haciendo viables aplicaciones que antes eran imposibles debido a las limitaciones de hardware. A diferencia de Whisper, que requiere un mayor consumo de energía, Moonshine es adecuado para ejecutarse en teléfonos inteligentes y dispositivos pequeños (como Raspberry Pi). Useful Sensors está utilizando Moonshine para desarrollar su traductor inglés-español Torre.
El código de Moonshine ya está disponible en GitHub. Los usuarios deben tener en cuenta que los sistemas de transcripción de IA como Whisper pueden cometer errores. Algunos estudios indican que Whisper tiene una probabilidad del 1.4% de generar información falsa, y esta tasa de error es mayor para personas con discapacidades lingüísticas.
Enlace al proyecto: https://github.com/usefulsensors/moonshine
Puntos clave:
🌟 Moonshine es un modelo de reconocimiento de voz de código abierto que es cinco veces más rápido que Whisper de OpenAI.
🔍 El modelo puede ajustar el tiempo de procesamiento según la duración del audio, lo que lo hace especialmente adecuado para fragmentos de audio cortos.
🖥️ Moonshine admite el funcionamiento sin conexión, lo que lo hace adecuado para dispositivos de hardware con recursos limitados.