¡Instantáneo! ElevenLabs lanza el modelo de diálogo de voz Flash: solo 75 milisegundos de retraso y compatible con 32 idiomas

AIbase基地

Publicado elNoticias de IA · 4 minutos de lectura · Dec 20, 2024

285

ElevenLabs acaba de lanzar su nuevo modelo de síntesis de voz, Flash, que se anuncia como la solución de texto a voz (TTS) más rápida hasta la fecha, con un tiempo de latencia de generación de voz de tan solo 75 milisegundos (sin contar la latencia de la aplicación y la red). Flash es ideal para asistentes de voz conversacionales de baja latencia, y los usuarios pueden experimentar esta nueva función inmediatamente en la plataforma de IA conversacional de ElevenLabs.

El modelo Flash se ofrece en dos versiones: Flash v2, que solo admite inglés, y Flash v2.5, que admite 32 idiomas. Con ambos modelos, los usuarios consumen 1 punto por cada dos caracteres generados. Aunque la calidad de audio y la profundidad emocional de Flash son ligeramente inferiores a las del modelo Turbo, su bajo tiempo de latencia lo ha llevado a superar a otros productos similares en pruebas a ciegas, convirtiéndose en la opción más rápida de su clase.

El equipo técnico de ElevenLabs afirma que el lanzamiento del modelo Flash impulsará enormemente la fluidez y la naturalidad de la interacción humano-máquina. Los desarrolladores pueden llamar al modelo directamente a través de la API utilizando los ID de modelo "eleven_flash_v2" y "eleven_flash_v2_5". La documentación de la API se puede encontrar en el sitio web de ElevenLabs. Con esta innovación, ElevenLabs espera habilitar más escenarios de interacción conversacional de baja latencia y humanizada.

ElevenLabs también ofrece una variedad de productos y soluciones, incluyendo asistentes de voz personalizados, herramientas de producción de audio y estudios de doblaje, con el objetivo de ayudar a usuarios y desarrolladores de diferentes sectores a crear audio de IA de alta calidad. Además, ElevenLabs está comprometido con la investigación y el desarrollo, mejorando continuamente el nivel tecnológico de sus productos para satisfacer las crecientes necesidades de los usuarios.

Puntos clave:
🌟 El modelo Flash genera voz con una latencia de solo 75 milisegundos, ideal para asistentes de voz conversacionales de baja latencia.
🌍 Flash v2.5 admite 32 idiomas, y los usuarios consumen 1 punto por cada dos caracteres generados.
🚀 En pruebas a ciegas, el modelo Flash superó a otros productos similares, convirtiéndose en la solución de texto a voz más rápida.

ElevenLabs Flash texto a voz IA conversacional

Este artículo proviene de AIbase Daily

¡Bienvenido a la columna [AI Diario]! Aquí está tu guía diaria para explorar el mundo de la inteligencia artificial. Todos los días te presentamos el contenido más destacado en el campo de la IA, centrándonos en los desarrolladores para ayudarte a comprender las tendencias tecnológicas y conocer las aplicaciones innovadoras de productos de IA.

—— Creado por el grupo AIbase Daily

Noticias de IA relacionadas recomendadas

Actualización Importante de Google AI Studio: Lanzamiento oficial de Gemini-2.0-flash-live-001

Apr 10, 2025

Sistema de texto a voz Spark-TTS: Admite la clonación de voz de muestra cero y el control de grano fino

Mar 6, 2025

Podcastle, la plataforma de podcasts, lanza un modelo de texto a voz con IA: 450 voces disponibles

En el dinámico mundo de los podcasts, la plataforma Podcastle ha anunciado recientemente el lanzamiento de su nuevo modelo de texto a voz con IA, Asyncflow v1.0. Este nuevo modelo no solo ofrece a los usuarios más de 450 voces de IA diferentes, sino que también pone a disposición de los desarrolladores una API para integrar fácilmente esta funcionalidad de texto a voz en sus propias aplicaciones. El fundador de Podcastle, Arto Yeritsyan, declaró que la empresa siempre ha querido desarrollar un texto

Mar 4, 2025

Modelo de texto a voz de Bilibili IndexTTS: Corrige la pronunciación de caracteres chinos con pinyin y controla con precisión las pausas

Feb 27, 2025

Hume lanza Octave, un sistema revolucionario de texto a voz que comprende las emociones y el contexto

Feb 27, 2025

Supertone Play, la herramienta de voz AI de HYBE, ya está disponible: clona tu voz en 10 segundos

Recientemente, Supertone, la compañía de voz de inteligencia artificial de HYBE, anunció el lanzamiento de "Supertone Play", una herramienta de texto a voz diseñada para generar contenido de audio de alta calidad y expresivo. Esta nueva herramienta actualmente admite inglés, coreano y japonés, y se espera que se expanda a español y chino en el transcurso del año. Supertone Play ofrece 150 personajes de voz, adecuados para diversas necesidades de creación de contenido, incluyendo conversaciones naturales, noticias profesionales y audiolibros.

Feb 18, 2025

3.0k

Kokoro-TTS: Un pequeño modelo de texto a voz que alcanzó el primer puesto en las clasificaciones de TTS

En el rápido desarrollo de la inteligencia artificial, la tecnología de síntesis de voz está recibiendo cada vez más atención. Recientemente, se lanzó oficialmente en la plataforma Hugging Face un nuevo modelo de síntesis de voz llamado Kokoro, con 82 millones de parámetros, lo que marca un hito importante en el campo de la síntesis de voz. Kokoro v0.19 ocupó el primer lugar en las clasificaciones de TTS (texto a voz) semanas antes de su lanzamiento, superando incluso a otros modelos con más parámetros. Este modelo, en una configuración monoaural, solo con

Jan 15, 2025

15.0k

Hume AI lanza OCTAVE, un motor de voz versátil: texto a voz humana en segundos, clonación de personalidad

¡Gran avance en el campo de la voz con inteligencia artificial! Hume AI ha lanzado recientemente OCTAVE, un nuevo motor de texto a voz que puede generar o clonar voces y rasgos de personalidad realistas con solo una descripción de texto simple o una grabación de voz de 5 segundos, abriendo un mundo de posibilidades para personajes virtuales e interacción humano-máquina. La potencia de OCTAVE reside en su capacidad no solo para generar voz natural, sino también para imitar con precisión el sexo, la edad, el acento, el tono emocional y el estilo de habla específico de una profesión del hablante. Esto lo hace capaz de crear...

Dec 24, 2024

6.6k

OuteTTS-0.1-350M: Un nuevo método de síntesis de texto a voz con clonación de voz de muestra cero

Recientemente, Oute AI ha lanzado un nuevo método de síntesis de texto a voz llamado OuteTTS-0.1-350M. Este método utiliza el modelado de lenguaje puro, sin adaptadores externos ni arquitecturas complejas, ofreciendo un método TTS simplificado. OuteTTS-0.1-350M se basa en la arquitectura LLaMa y utiliza WavTokenizer para generar directamente etiquetas de audio, lo que hace que el proceso sea más eficiente. Este modelo cuenta con la capacidad de clonación de voz de muestra cero, necesitando solo unos segundos de audio de referencia.

Nov 6, 2024

3.0k

Lightning: Modelo de texto a voz ultrarrápido con latencia ultrabaja, genera 10 segundos de audio en 100 milisegundos

Recientemente, smallest.ai, una startup de IA con sede en San Francisco, California, lanzó su nuevo producto Lightning, un modelo de texto a voz (TTS) capaz de generar hasta 10 segundos de audio en 100 milisegundos. Este avance tecnológico permite a los desarrolladores de todo el mundo crear aplicaciones de robots de voz de alta fidelidad con una latencia extremadamente baja, lo que reduce los costes de implementación y mejora la accesibilidad de las aplicaciones. Lightning admite actualmente varios acentos en inglés e hindi, y el equipo planea agregar rápidamente más idiomas.

Nov 6, 2024

3.3k

Noticias de IA

IA Diario

Cronología de la IA

Últimos Casos

Colección de Imágenes

Colección de Videos

Colección de Audio

Colección de Contenido

Últimos Tutoriales

Ranking de Productos de IA

Ranking de Crecimiento de Tráfico de IA

Ranking de Descenso de Tráfico de IA

Ranking Semanal de IA

Estados Unidos

China

India

Brasil

Generación de Imágenes

Asistente Personal

Generación de Personajes

Generación de Videos

Ranking de Proyectos de IA

Ranking de Crecimiento de Proyectos de IA

Ranking de Desarrolladores de IA

Ranking de Organizaciones de IA

Deepseek

TTS

LLM

ChatGPT

Visión General