Kokoro-TTS: Un pequeño modelo de texto a voz que alcanzó el primer puesto en las clasificaciones de TTS

AIbase基地

Publicado elNoticias de IA · 5 minutos de lectura · Jan 15, 2025

1.5k

En el rápido desarrollo de la inteligencia artificial, la tecnología de síntesis de voz está recibiendo cada vez más atención. Recientemente, se lanzó oficialmente en la plataforma Hugging Face un nuevo modelo de síntesis de voz llamado Kokoro, con 82 millones de parámetros, lo que marca un hito importante en el campo de la síntesis de voz.

Kokoro v0.19 ocupó el primer lugar en las clasificaciones del campo de TTS (texto a voz) en las semanas previas a su lanzamiento, incluso superando a otros modelos con más parámetros. Este modelo, con una configuración monoaural, logró resultados comparables a los de modelos como XTTS v2 (467M parámetros) y MetaVoice (1.2B parámetros) utilizando menos de 100 horas de datos de audio. Este logro sugiere que la relación entre el rendimiento de los modelos tradicionales de síntesis de voz y los parámetros, la capacidad de cálculo y la cantidad de datos puede ser más significativa de lo que se pensaba anteriormente.

Para su uso, los usuarios solo necesitan ejecutar unas pocas líneas de código en Google Colab para cargar el modelo y el paquete de voz y generar audio de alta calidad. Kokoro actualmente admite inglés estadounidense e inglés británico, y ofrece varios paquetes de voz para que los usuarios elijan.

El proceso de entrenamiento de Kokoro utilizó instancias A100 80GB vRAM de Vast.ai, con un costo de alquiler relativamente bajo, lo que garantiza un proceso de entrenamiento eficiente. El entrenamiento del modelo completo utilizó menos de 20 ciclos de entrenamiento y menos de 100 horas de datos de audio. El modelo Kokoro utilizó datos de audio de dominio público y otros audios con licencias abiertas durante el entrenamiento, asegurando el cumplimiento de las normas.

Aunque Kokoro tiene un excelente rendimiento en la síntesis de voz, debido a las limitaciones de sus datos de entrenamiento y arquitectura, actualmente no admite la clonación de voz, y los datos de entrenamiento principales se centran en lecturas y narraciones largas, no en conversaciones.

Modelo: https://huggingface.co/hexgrad/Kokoro-82M

Prueba: https://huggingface.co/spaces/hexgrad/Kokoro-TTS

Puntos clave:
🌟 Kokoro-82M es un nuevo modelo de síntesis de voz con 82 millones de parámetros y admite varios paquetes de voz.
🎤 Este modelo tiene un rendimiento excepcional en el campo de TTS, ocupando el primer lugar en las clasificaciones y entrenándose con menos de 100 horas de datos de audio.
📊 El entrenamiento del modelo Kokoro utilizó datos con licencias abiertas, asegurando el cumplimiento, pero actualmente existen algunas limitaciones funcionales.

Síntesis de voz Kokoro HuggingFace Tecnología IA

Este artículo proviene de AIbase Daily

¡Bienvenido a la columna [AI Diario]! Aquí está tu guía diaria para explorar el mundo de la inteligencia artificial. Todos los días te presentamos el contenido más destacado en el campo de la IA, centrándonos en los desarrolladores para ayudarte a comprender las tendencias tecnológicas y conocer las aplicaciones innovadoras de productos de IA.

—— Creado por el grupo AIbase Daily

Noticias de IA relacionadas recomendadas

ByteDance lanza MegaTTS3 en Hugging Face: un gran avance en la síntesis de voz ligera

Pekín: ByteDance ha lanzado recientemente su último modelo de texto a voz (TTS), MegaTTS3, en la comunidad de código abierto de inteligencia artificial Hugging Face. Este lanzamiento ha llamado rápidamente la atención de investigadores y desarrolladores de IA de todo el mundo, gracias a sus avances en diseño ligero y soporte multilingüe. Según los comentarios de la comunidad técnica y la información oficial, MegaTTS3 ha sido aclamado como un importante avance en el campo de la síntesis de voz. Los puntos clave de MegaTTS3 son MegaTT...

Apr 3, 2025

Sesame lanza el modelo CSM: la síntesis de voz con IA y personalización emocional en tiempo real alcanza nuevas cotas

El 13 de marzo, Sesame presentó su último modelo de síntesis de voz, CSM, generando gran interés en el sector. Según la información oficial, CSM emplea una arquitectura de aprendizaje multimodal basada en Transformer de extremo a extremo, capaz de comprender el contexto y generar voz natural y emotiva, con una calidad de sonido sorprendentemente realista. Este modelo admite la generación de voz en tiempo real, puede procesar entradas de texto y audio, y los usuarios pueden controlar parámetros como el tono, la entonación, el ritmo y las emociones, mostrando una gran flexibilidad. CSM se considera un avance significativo en la tecnología de voz con IA.

Mar 14, 2025

¡Gran avance en la IA de avatares digitales! Hedra lanza Character-3 y Hedra Studio: inferencia conjunta de imagen, texto y audio

Hedra ha presentado Character-3 y Hedra Studio, dos innovaciones que marcan un hito en la tecnología de avatares digitales. Estos avances permiten la inferencia conjunta de imagen, texto y audio, abriendo nuevas posibilidades para la creación de experiencias inmersivas y realistas en diversas aplicaciones.

Mar 9, 2025

¡Listo para usar! Sistema de avatar digital IA AigcPanel con un solo clic, compatible con síntesis de voz y clonación de voz

¿Sigue preocupado por la compleja configuración del entorno de las herramientas de avatar digital de código abierto? La aparición de AigcPanel cambiará por completo esta situación. Este sistema de avatar digital IA integral, con sus características fáciles de usar, permite a todos los usuarios dominarlo fácilmente. Con solo un paquete de instalación, puede resolver todos los problemas, despidiéndose de la compleja configuración del entorno; solo necesita descargar el modelo para comenzar a usarlo, lo que realmente logra "listo para usar". La función principal de AigcPanel radica en su potente capacidad de síntesis de video, síntesis de voz y clonación de voz. Los usuarios pueden generar fácilmente videos con avatares digitales

Dec 30, 2024

3.6k

TuSimple lanza el modelo de video a partir de imágenes "Ruyi" y publica código abierto de Ruyi-Mini-7B

TuSimple, con sede en Beijing, lanzó oficialmente el 17 de diciembre de 2024 su primer modelo grande de "video a partir de imágenes": "Ruyi", y publicó el código abierto de la versión Ruyi-Mini-7B para que los usuarios puedan descargarlo y utilizarlo desde la plataforma huggingface. Fundada en 2015 y con sede en San Diego, California, TuSimple se centra en la aplicación de la IA en diversas industrias, incluyendo la animación, los videojuegos y el transporte.

Dec 17, 2024

3.9k

Nueva tecnología de clonación de voz de Google: clona voces con solo unos segundos de audio

En la era del rápido avance tecnológico, la tecnología de síntesis de voz también ha experimentado un gran progreso, especialmente en el campo de la restauración de voces perdidas. Recientemente, los investigadores de Google propusieron una nueva tecnología llamada "transferencia de voz de muestra cero (zero-shot voice transfer)" que se puede combinar directamente con los sistemas de texto a voz (TTS) más avanzados para ayudar a las personas que han perdido su voz debido a enfermedades o accidentes a recuperar sus "recuerdos de voz". El núcleo de esta tecnología radica en la capacidad de "muestra cero", lo que significa que no se necesitan grandes cantidades de muestras para su implementación.

Sep 25, 2024

4.2k

ByteDance Volcano Engine lanza los modelos Beanbag Música y Traducción Simultánea

En la gira de innovación de IA de Volcano Engine 2024 de hoy, además del modelo de generación de vídeo, ByteDance también lanzó los modelos Beanbag Música y Beanbag Traducción Simultánea, y anunció importantes mejoras en los modelos verticales como el modelo Beanbag general Pro, el modelo de generación de imágenes a partir de texto y el modelo de síntesis de voz. El lanzamiento del modelo Beanbag Música marca la profunda incursión de Volcano Engine en el campo de la creación musical. Este modelo, gracias a su potente algoritmo, permite una creación musical de alta calidad y libre. En cuanto a la generación de letras, con solo unas pocas palabras, se pueden generar rápidamente letras con la emoción deseada.

Sep 24, 2024

6.8k

¡El futuro ya está aquí! CosyVoice, la nueva tecnología de voz de Alibaba, hace que la IA hable con más humanidad

El nuevo modelo de síntesis de voz CosyVoice y el modelo de reconocimiento de voz SenseVoice de Alibaba, conforman juntos el framework FunAudioLLM, cuyo objetivo es mejorar la experiencia de interacción humano-máquina. CosyVoice, con su capacidad de generar voces realistas, puede imitar voces de diferentes géneros, edades y personalidades, añadiendo emociones y estilos, e incluso simulando características naturales como risas, tos y respiración. SenseVoice se centra en el reconocimiento de voz multilingüe de alta precisión, el reconocimiento de emociones y la detección de eventos de audio, con soporte para más de 50 idiomas.

Aug 2, 2024

11.6k

¡Peligro para los actores de doblaje! El modelo de clonación de voz VALL-E 2 de Microsoft alcanza la calidad profesional

Microsoft ha lanzado recientemente VALL-E 2, un modelo de texto a voz (TTS) de aprendizaje cero-shot, que ha generado un gran debate en el sector tecnológico y se considera un hito en el campo de la TTS. La innovación de VALL-E 2 radica en su capacidad de aprendizaje cero-shot; con solo un breve fragmento de una voz desconocida, puede imitar esa voz para decir cualquier texto, logrando una asombrosa imitación instantánea y agrupación de codificadores. También ha mejorado el muestreo perceptivo repetitivo, aumentando la estabilidad de la decodificación y simplificando las necesidades de datos. En las pruebas de puntuación subjetiva e indicadores objetivos, VALL-E 2 ha superado a los modelos anteriores.

Jul 24, 2024

3.4k

ToucanTTS: El "rey de las lenguas" en la síntesis de voz, compatible con más de 7000 idiomas

En un mundo con una asombrosa variedad de idiomas, encontrar un asistente de síntesis de voz capaz de hablar todos ellos puede parecer una tarea imposible. ¡Pero no se preocupe! Los brillantes estudiantes de la Universidad de Stuttgart han lanzado una solución innovadora: ToucanTTS, un modelo de texto a voz (TTS) capaz de generar audio en más de 7000 idiomas.

Jun 28, 2024

6.7k

Noticias de IA

IA Diario

Cronología de la IA

Al hardware

Últimos Casos

Colección de Imágenes

Colección de Videos

Colección de Audio

Colección de Contenido

Últimos Tutoriales

Ranking de Productos de IA

Ranking de Crecimiento de Tráfico de IA

Ranking de Descenso de Tráfico de IA

Ranking Semanal de IA

Estados Unidos

China

India

Brasil

Generación de Imágenes

Asistente Personal

Generación de Personajes

Generación de Videos

Ranking de Proyectos de IA

Ranking de Crecimiento de Proyectos de IA

Ranking de Desarrolladores de IA

Ranking de Organizaciones de IA

Deepseek

TTS

LLM

ChatGPT

Visión General