OuteTTS-0.1-350M
Modelo de síntesis de texto a voz (TTS) basado en un modelo de lenguaje puro.
Producto ComúnProductividadTexto a vozSíntesis de voz
OuteTTS-0.1-350M es una tecnología de síntesis de texto a voz basada en un modelo de lenguaje puro. No requiere adaptadores externos ni arquitecturas complejas; logra una síntesis de voz de alta calidad mediante indicaciones cuidadosamente diseñadas y etiquetas de audio. El modelo se basa en la arquitectura LLaMa, utiliza 350M parámetros y demuestra el potencial del uso directo de modelos de lenguaje para la síntesis de voz. Procesa el audio en tres pasos: tokenización de audio con WavTokenizer, alineación forzada CTC para crear un mapeo preciso de palabras a etiquetas de audio, y creación de indicaciones estructuradas que siguen un formato específico. Las principales ventajas de OuteTTS incluyen su método de modelado de lenguaje puro, su capacidad de clonación de voz y su compatibilidad con los formatos llama.cpp y GGUF.
OuteTTS-0.1-350M Situación del tráfico más reciente
Total de visitas mensuales
1049
Tasa de rebote
40.94%
Páginas promedio por visita
1.2
Duración promedio de la visita
00:00:13