OuteTTS-0.1-350M

Modelo de síntesis de texto a voz (TTS) basado en un modelo de lenguaje puro.

Producto ComúnProductividadTexto a vozSíntesis de voz
OuteTTS-0.1-350M es una tecnología de síntesis de texto a voz basada en un modelo de lenguaje puro. No requiere adaptadores externos ni arquitecturas complejas; logra una síntesis de voz de alta calidad mediante indicaciones cuidadosamente diseñadas y etiquetas de audio. El modelo se basa en la arquitectura LLaMa, utiliza 350M parámetros y demuestra el potencial del uso directo de modelos de lenguaje para la síntesis de voz. Procesa el audio en tres pasos: tokenización de audio con WavTokenizer, alineación forzada CTC para crear un mapeo preciso de palabras a etiquetas de audio, y creación de indicaciones estructuradas que siguen un formato específico. Las principales ventajas de OuteTTS incluyen su método de modelado de lenguaje puro, su capacidad de clonación de voz y su compatibilidad con los formatos llama.cpp y GGUF.
Abrir sitio web

OuteTTS-0.1-350M Situación del tráfico más reciente

Total de visitas mensuales

1049

Tasa de rebote

40.94%

Páginas promedio por visita

1.2

Duración promedio de la visita

00:00:13

OuteTTS-0.1-350M Tendencia de visitas

OuteTTS-0.1-350M Distribución geográfica de las visitas

OuteTTS-0.1-350M Fuentes de tráfico

OuteTTS-0.1-350M Alternativas