Hoy, OpenAI anunció una actualización a su API en tiempo real, que actualmente se encuentra en fase de prueba. Esta actualización destaca por la introducción de cinco nuevas opciones de voz, diseñadas específicamente para aplicaciones de voz a voz, y una reducción en los costos de caché, haciendo el uso más económico para los desarrolladores.
De las cinco nuevas voces, OpenAI mostró tres en una publicación de X: Ash, Verse y Ballad (que suena británica). Estas voces son más vívidas, ajustables y ofrecen una experiencia de comunicación más natural. OpenAI menciona en su documentación de la API que esta funcionalidad nativa de voz a voz elimina el procesamiento intermedio de formato de texto, lo que resulta en una baja latencia y una salida más precisa.
Sin embargo, OpenAI advierte que, como la API en tiempo real aún está en fase de prueba, la autenticación del cliente no está disponible por el momento. Además, el procesamiento de audio en tiempo real puede verse afectado por las condiciones de la red, lo que representa un desafío para la transmisión a gran escala. OpenAI señala que garantizar la transmisión confiable de audio en condiciones de red inestables es una tarea compleja.
El desarrollo de OpenAI en tecnología de voz también ha sido controvertido. En marzo, lanzaron "Voice Engine", una plataforma de clonación de voz para competir con ElevenLabs, pero solo disponible para unos pocos investigadores. Tras la demostración de GPT-4o y los modelos de voz, en mayo pausaron el uso de una voz llamada "Sky" debido a la inconformidad de la actriz Scarlett Johansson por su similitud con su voz.
En septiembre, OpenAI lanzó modos de voz avanzados para sus suscriptores de pago, incluyendo ChatGPT Plus, Enterprise, Teams y Edu. Esta tecnología de voz a voz permite a las empresas generar respuestas en tiempo real más rápidamente, mejorando significativamente la eficiencia del servicio al cliente.
Reducción de costos, más del 50%
Sobre el precio de la API en tiempo real, OpenAI había establecido previamente un precio de $0.06 USD por minuto de entrada de audio y $0.24 USD por salida de audio, lo que era relativamente alto para los desarrolladores. Sin embargo, con esta actualización, el costo de entrada de texto en caché se reduce en un 50%, mientras que el costo de entrada de audio en caché recibe un descuento del 80%.
En el Día del Desarrollador, OpenAI anunció "Prompt Caching", una nueva función que almacena en caché las indicaciones de contexto solicitadas con frecuencia en la memoria del modelo, reduciendo así la cantidad de tokens necesarios para generar una respuesta. Al reducir los precios de entrada, OpenAI espera atraer a más desarrolladores a su API.
Además, otras compañías como Anthropic también han introducido funciones de caché similares para mejorar el atractivo de sus tecnologías de voz.
Puntos clave:
🌟 Cinco nuevas voces naturales mejoran la experiencia de las aplicaciones de voz.
💰 La API en tiempo real reduce los costos de entrada mediante el caché, lo que resulta más económico para los desarrolladores.
⚡ El procesamiento de audio en tiempo real se ve afectado por las condiciones de la red; se debe prestar atención a la fiabilidad.