Spark-TTS

Spark-TTS es un modelo de síntesis de voz de flujo único desacoplado y eficiente basado en modelos de lenguaje grandes.

一般製品生産性Síntesis de vozModelos de lenguaje grandes

Spark-TTS es un modelo de síntesis de texto a voz eficiente basado en modelos de lenguaje grandes, con la característica de tokens de voz de flujo único desacoplados. Aprovecha la potencia de los modelos de lenguaje grandes para reconstruir directamente el audio predicho por el código, omitiendo los modelos de generación de características acústicas adicionales, lo que aumenta la eficiencia y reduce la complejidad. El modelo admite la síntesis de texto a voz con cero ejemplos, pudiendo cambiar entre idiomas y código, siendo muy adecuado para aplicaciones de síntesis de voz que requieren alta naturalidad y precisión. También admite la creación de voces virtuales; los usuarios pueden generar diferentes voces ajustando parámetros como el género, el tono y la velocidad del habla. El objetivo del modelo es resolver los problemas de baja eficiencia y alta complejidad de los sistemas tradicionales de síntesis de voz, con el fin de proporcionar una solución eficiente, flexible y potente para la investigación y la producción. Actualmente, el modelo está principalmente dirigido a la investigación académica y aplicaciones legítimas, como la síntesis de voz personalizada, la tecnología de asistencia y la investigación lingüística.

Síntesis de voz eficiente basada en modelos de lenguaje grandes
sin necesidad de modelos de generación de características acústicas adicionales
Admite la síntesis de texto a voz con cero ejemplos
pudiendo cambiar entre idiomas y código
Admite la creación de voces virtuales
pudiendo generar diferentes voces ajustando parámetros
Admite la síntesis de voz de alta calidad en chino e inglés
Proporciona funciones de control de voz flexibles
pudiendo ajustar parámetros como la velocidad del habla
el tono y el género

Este modelo es adecuado para investigadores
desarrolladores y empresas que necesitan síntesis de voz de alta calidad
especialmente en escenarios que requieren cambio entre idiomas y código
y en aplicaciones con altos requisitos de naturalidad y precisión del habla. También es adecuado para el ámbito educativo
para la enseñanza de idiomas y el entrenamiento de la voz.

En la investigación académica
los investigadores pueden utilizar este modelo para realizar experimentos e investigaciones relacionados con la síntesis de voz.
En el ámbito educativo
los profesores pueden usar este modelo para generar ejemplos de voz en diferentes idiomas y estilos para ayudar a los estudiantes a aprender idiomas.
En aplicaciones comerciales

1. Clonar el repositorio del proyecto: git clone https://github.com/SparkAudio/Spark-TTS.git
2. Crear y activar el entorno Conda: conda create -n sparktts -y python=3.12; conda activate sparktts
3. Instalar dependencias: pip install -r requirements.txt
4. Descargar el modelo: desde Hugging Face o usar git lfs para descargar el modelo preentrenado
5. Ejecutar la inferencia: usar el script cli.inference o webui.py para iniciar la interfaz de usuario web y realizar la síntesis de voz