ElevenLabs, una startup centrada en la clonación de voz con IA y las API de texto a voz, ha anunciado recientemente una nueva función que permite a los usuarios construir agentes de IA conversacionales completos.

Los usuarios ahora pueden personalizar varias variables de sus agentes de IA conversacionales en la plataforma para desarrolladores de ElevenLabs, como el tono de voz y la longitud de las respuestas, según sus necesidades.

image.png

Anteriormente, ElevenLabs se centraba principalmente en ofrecer diferentes servicios de voz y texto a voz. Sam Sklar, director de crecimiento de la empresa, declaró en una entrevista con TechCrunch que muchos clientes ya estaban utilizando la plataforma para crear agentes de IA conversacionales. Sin embargo, la integración de bases de conocimiento y el manejo de interrupciones del cliente representaban los mayores desafíos. Por lo tanto, ElevenLabs decidió construir una canalización completa de chatbots para simplificar este proceso.

Los usuarios pueden comenzar a construir agentes de IA conversacionales iniciando sesión en su cuenta de ElevenLabs, seleccionando una plantilla o creando un nuevo proyecto. Pueden elegir el idioma principal del agente, el primer mensaje y las indicaciones del sistema para definir la personalidad del agente.

Además, los desarrolladores deben seleccionar un modelo de lenguaje grande (como Gemini, GPT o Claude), la temperatura de respuesta (que determina la creatividad) y las limitaciones de uso de tokens.

Los usuarios también pueden agregar bases de conocimiento, como archivos, URL o bloques de texto, para mejorar las capacidades del chatbot, según sus necesidades. Asimismo, pueden integrar sus propios modelos de lenguaje grandes personalizados con el chatbot. El SDK de ElevenLabs es compatible con Python, JavaScript, React y Swift; además, la empresa ofrece una API WebSocket para una mayor personalización.

La empresa también permite a los usuarios definir estándares de recopilación de datos, como el nombre y el correo electrónico de los clientes que interactúan con el agente, y utilizar el lenguaje natural para definir los criterios de evaluación del éxito de una conversación.

ElevenLabs está aprovechando su canalización existente de texto a voz, y también está desarrollando una función de voz a texto para su nuevo producto de IA conversacional. Actualmente, la empresa no ofrece una API de voz a texto por separado, pero podría lanzarla en el futuro, compitiendo así con las API de voz a texto de empresas como Google, Microsoft y Amazon, y con API especializadas como Whisper de OpenAI, AssemblyAI, Deepgram, Speechmatics y Gladia.

La empresa planea recaudar una nueva ronda de financiación con una valoración superior a los 3.000 millones de dólares, y está compitiendo con otras startups de IA de voz como Vapi y Retell, que también están construyendo agentes de IA conversacionales. Más importante aún, ElevenLabs competirá con la API de chat en tiempo real de OpenAI. Sin embargo, ElevenLabs confía en que su capacidad de personalización y la flexibilidad para cambiar de modelo le darán una ventaja competitiva.

Puntos clave:

💬 ElevenLabs ha lanzado una nueva función para construir agentes de IA conversacionales, permitiendo a los usuarios personalizar varias variables.

📚 Los usuarios pueden agregar bases de conocimiento para mejorar las capacidades del agente e integrar modelos de lenguaje grandes personalizados.

🚀 ElevenLabs planea recaudar fondos con una valoración superior a los 3.000 millones de dólares y competir con rivales como OpenAI.