En el contexto del rápido desarrollo de la inteligencia artificial, OpenAI lanzó el 1 de octubre de 2023 su nueva API en tiempo real, diseñada para proporcionar a los desarrolladores herramientas potentes para construir aplicaciones de voz inteligentes. El lanzamiento de esta API ha generado un gran interés, especialmente en el OpenAI DevDay de Singapur, donde los ingenieros de Daily.co compartieron sus experiencias y lecciones aprendidas al utilizarla. Estos ingenieros no solo construyeron productos con la API en tiempo real, sino que también participaron activamente en el desarrollo del proyecto de código abierto Pipecat, con el objetivo de facilitar el trabajo a más desarrolladores.

image.png

La función principal de la API en tiempo real es su excelente capacidad de procesamiento de "voz a voz", lo que permite a los desarrolladores lograr interacciones de voz con una latencia mínima. Al convertir la entrada de voz en texto y la salida de GPT-4o en voz, los desarrolladores pueden crear experiencias de conversación más naturales y fluidas. Este proceso es relativamente sencillo, yendo de la entrada de voz a la salida de voz en solo unos pocos pasos: [Entrada de voz] ➔ [GPT-4o] ➔ [Salida de voz].

En la demostración, el equipo destacó la importancia de la detección de actividad de voz (VAD) en las aplicaciones de voz. Dado que rara vez se cuenta con un entorno completamente silencioso durante las demostraciones reales, se recomienda configurar botones de "silencio" y "respuesta forzada" para mejorar la experiencia del usuario. Además, la API en tiempo real admite la gestión del estado de la conversación de múltiples usuarios y la interrupción del usuario en la salida del LLM, lo que hace que la conversación sea más flexible y eficiente.

Para ayudar a los desarrolladores a empezar rápidamente, el proyecto Pipecat proporciona un framework Python neutral para proveedores para la API en tiempo real. Este framework no solo admite GPT-4o de OpenAI, sino que también es compatible con más de 40 API de IA, incluyendo diversas opciones de transmisión como WebSockets y WebRTC, simplificando enormemente el proceso de desarrollo. El framework también incluye una gran cantidad de funciones centrales útiles, como la gestión del contexto, la gestión del estado del usuario y el procesamiento de eventos, ayudando a los desarrolladores a crear aplicaciones de interacción de voz más inteligentes.

La API en tiempo real de OpenAI ofrece a los desarrolladores una forma completamente nueva de construir productos de voz inteligentes. Con la maduración de esta tecnología, las futuras aplicaciones de interacción de voz serán más inteligentes y humanas.