Seed-TTS
Serie de modelos de síntesis de texto a voz (TTS) de alta calidad y multifuncionales.
Nuevo Producto PremiumProductividadSíntesis de vozTexto a voz
Seed-TTS es una serie de modelos de texto a voz (TTS) autorregresivos a gran escala lanzados por ByteDance, capaces de generar voz casi indistinguible de la humana. Destaca por su aprendizaje contextual del habla, la similitud de la voz del hablante y su naturalidad, que se pueden mejorar aún más mediante el ajuste fino. Seed-TTS también ofrece un excelente control sobre atributos de voz como las emociones, y puede generar voz altamente expresiva y diversa. Además, se propone un método de autodestilación para la descomposición del habla, y un método de aprendizaje por refuerzo para mejorar la robustez del modelo, la similitud del hablante y el control. También se presenta la variante no autorregresiva (NAR) del modelo Seed-TTS, Seed-TTSDiT, que utiliza una arquitectura completamente basada en difusión, sin depender de la duración fonética preestimada, generando voz mediante un procesamiento de extremo a extremo.
Seed-TTS Situación del tráfico más reciente
Total de visitas mensuales
16826
Tasa de rebote
42.75%
Páginas promedio por visita
2.8
Duración promedio de la visita
00:02:20