ElevenLabs, una prometedora startup de inteligencia artificial especializada en la clonación y generación de voz, ha lanzado recientemente su último modelo de voz a texto: Scribe v1. Este modelo afirma alcanzar la mayor precisión en múltiples idiomas, y los usuarios pueden probarlo a través de su sitio web.
Según las pruebas de referencia de ElevenLabs, Scribe supera a Gemini 2.0 Flash de Google, Whisper v3 de OpenAI y Deepgram Nova-3 en la conversión precisa de voz a texto, logrando una tasa de error excepcionalmente baja. La compañía afirma que Scribe admite la transcripción de alta precisión en 99 idiomas, incluyendo algunos previamente desatendidos como el serbio, el cantonés y el malayalam.
Flavio Schneider, investigador principal de ElevenLabs, anunció en la plataforma X que Scribe es el "modelo de comprensión de audio más inteligente" lanzado por la compañía hasta la fecha. Destacó que Scribe no es solo una herramienta de transcripción, sino que comprende el contenido de audio, detectando eventos no lingüísticos (como risas, efectos de sonido, música y ruido de fondo) y realizando una precisa diferenciación de hablantes en audios largos y complejos. Cabe destacar que Scribe puede identificar y aislar hasta 32 hablantes diferentes en un mismo archivo de audio.
ElevenLabs advierte a los usuarios que Scribe "es más adecuado para situaciones que requieren una transcripción de alta precisión, no para la transcripción en tiempo real". La compañía también planea lanzar una versión de baja latencia para ampliar su uso en aplicaciones en tiempo real.
Según los resultados de referencia de FLEURS y Common Voice, Scribe destaca en el manejo de desafíos de audio del mundo real, especialmente en la tasa de error de palabras en italiano (98.7% de precisión) e inglés (96.7% de precisión), alcanzando los niveles más bajos.
Scribe ya está disponible a través del sitio web y la API de ElevenLabs, con un precio de 0.40 dólares por hora de audio de entrada. Durante las próximas seis semanas, se ofrecerá un descuento del 50%. Además, se está desarrollando una versión de baja latencia para aplicaciones en tiempo real.
Para los tomadores de decisiones empresariales, Scribe ofrece una herramienta escalable para la transcripción de alta precisión, adecuada para industrias que necesitan automatización de documentos, transcripción de reuniones y accesibilidad de contenido. El procesamiento de alta precisión en múltiples idiomas también beneficiará a empresas multinacionales, compañías de medios y aplicaciones de atención al cliente.
Cabe destacar que el lanzamiento de Scribe coincide con el lanzamiento del modelo de texto a voz Octave de su competidor, Hume. Octave es una herramienta de texto a voz basada en modelos de lenguaje grandes, que permite a los usuarios personalizar la voz generada por IA según sus necesidades emocionales, destinada a la creación de contenido como audiolibros, podcasts y doblaje de videojuegos. Aunque Scribe y Octave tienen funciones diferentes, sus lanzamientos reflejan la creciente competencia en los modelos de audio impulsados por IA.
Acceso al producto: https://elevenlabs.io/blog/meet-scribe
Puntos clave:
🌟 Scribe v1 es el nuevo modelo de voz a texto de ElevenLabs, con una precisión sin precedentes en múltiples idiomas.
🗣️ Admite 99 idiomas, puede distinguir hasta 32 hablantes diferentes y se adapta a entornos de audio complejos.
💰 El precio actual es de 0.40 dólares por hora, con un descuento del 50% durante las próximas seis semanas. Se está desarrollando una versión de baja latencia.