ElevenLabs acaba de lanzar su nuevo modelo de síntesis de voz, Flash, que se anuncia como la solución de texto a voz (TTS) más rápida hasta la fecha, con un tiempo de latencia de generación de voz de tan solo 75 milisegundos (sin contar la latencia de la aplicación y la red). Flash es ideal para asistentes de voz conversacionales de baja latencia, y los usuarios pueden experimentar esta nueva función inmediatamente en la plataforma de IA conversacional de ElevenLabs.
El modelo Flash se ofrece en dos versiones: Flash v2, que solo admite inglés, y Flash v2.5, que admite 32 idiomas. Con ambos modelos, los usuarios consumen 1 punto por cada dos caracteres generados. Aunque la calidad de audio y la profundidad emocional de Flash son ligeramente inferiores a las del modelo Turbo, su bajo tiempo de latencia lo ha llevado a superar a otros productos similares en pruebas a ciegas, convirtiéndose en la opción más rápida de su clase.
El equipo técnico de ElevenLabs afirma que el lanzamiento del modelo Flash impulsará enormemente la fluidez y la naturalidad de la interacción humano-máquina. Los desarrolladores pueden llamar al modelo directamente a través de la API utilizando los ID de modelo "eleven_flash_v2" y "eleven_flash_v2_5". La documentación de la API se puede encontrar en el sitio web de ElevenLabs. Con esta innovación, ElevenLabs espera habilitar más escenarios de interacción conversacional de baja latencia y humanizada.
ElevenLabs también ofrece una variedad de productos y soluciones, incluyendo asistentes de voz personalizados, herramientas de producción de audio y estudios de doblaje, con el objetivo de ayudar a usuarios y desarrolladores de diferentes sectores a crear audio de IA de alta calidad. Además, ElevenLabs está comprometido con la investigación y el desarrollo, mejorando continuamente el nivel tecnológico de sus productos para satisfacer las crecientes necesidades de los usuarios.
Puntos clave:
🌟 El modelo Flash genera voz con una latencia de solo 75 milisegundos, ideal para asistentes de voz conversacionales de baja latencia.
🌍 Flash v2.5 admite 32 idiomas, y los usuarios consumen 1 punto por cada dos caracteres generados.
🚀 En pruebas a ciegas, el modelo Flash superó a otros productos similares, convirtiéndose en la solución de texto a voz más rápida.