En el rápido desarrollo de la inteligencia artificial, la tecnología de síntesis de voz está recibiendo cada vez más atención. Recientemente, se lanzó oficialmente en la plataforma Hugging Face un nuevo modelo de síntesis de voz llamado Kokoro, con 82 millones de parámetros, lo que marca un hito importante en el campo de la síntesis de voz.
Kokoro v0.19 ocupó el primer lugar en las clasificaciones del campo de TTS (texto a voz) en las semanas previas a su lanzamiento, incluso superando a otros modelos con más parámetros. Este modelo, con una configuración monoaural, logró resultados comparables a los de modelos como XTTS v2 (467M parámetros) y MetaVoice (1.2B parámetros) utilizando menos de 100 horas de datos de audio. Este logro sugiere que la relación entre el rendimiento de los modelos tradicionales de síntesis de voz y los parámetros, la capacidad de cálculo y la cantidad de datos puede ser más significativa de lo que se pensaba anteriormente.
Para su uso, los usuarios solo necesitan ejecutar unas pocas líneas de código en Google Colab para cargar el modelo y el paquete de voz y generar audio de alta calidad. Kokoro actualmente admite inglés estadounidense e inglés británico, y ofrece varios paquetes de voz para que los usuarios elijan.
El proceso de entrenamiento de Kokoro utilizó instancias A100 80GB vRAM de Vast.ai, con un costo de alquiler relativamente bajo, lo que garantiza un proceso de entrenamiento eficiente. El entrenamiento del modelo completo utilizó menos de 20 ciclos de entrenamiento y menos de 100 horas de datos de audio. El modelo Kokoro utilizó datos de audio de dominio público y otros audios con licencias abiertas durante el entrenamiento, asegurando el cumplimiento de las normas.
Aunque Kokoro tiene un excelente rendimiento en la síntesis de voz, debido a las limitaciones de sus datos de entrenamiento y arquitectura, actualmente no admite la clonación de voz, y los datos de entrenamiento principales se centran en lecturas y narraciones largas, no en conversaciones.
Modelo: https://huggingface.co/hexgrad/Kokoro-82M
Prueba: https://huggingface.co/spaces/hexgrad/Kokoro-TTS
Puntos clave:
🌟 Kokoro-82M es un nuevo modelo de síntesis de voz con 82 millones de parámetros y admite varios paquetes de voz.
🎤 Este modelo tiene un rendimiento excepcional en el campo de TTS, ocupando el primer lugar en las clasificaciones y entrenándose con menos de 100 horas de datos de audio.
📊 El entrenamiento del modelo Kokoro utilizó datos con licencias abiertas, asegurando el cumplimiento, pero actualmente existen algunas limitaciones funcionales.