Modelos de texto a voz de alta fidelidad de Stability AI
Modelos de texto a voz de alta fidelidad de Stability AI
Producto ComúnOtrosSíntesis de vozAlta fidelidad
Los modelos de texto a voz de alta fidelidad de Stability AI buscan ofrecer una guía de lenguaje natural para modelos de síntesis de voz entrenados en conjuntos de datos a gran escala. Emplea una guía de lenguaje natural que anota diferentes identidades de hablantes, estilos y condiciones de grabación. Este método se aplicó a un conjunto de datos de 45.000 horas para entrenar el modelo de lenguaje de voz. Además, el modelo propone métodos sencillos para mejorar la fidelidad del audio, mostrando un rendimiento notable a pesar de depender completamente de los datos encontrados.