Tras generar cierto interés en el campo de la IA de voz, OpenAI no ha detenido su exploración en este ámbito. Ahora, el creador de ChatGPT vuelve a la carga con tres nuevos modelos de voz de desarrollo propio: gpt-4o-transcribe, gpt-4o-mini-transcribe y gpt-4o-mini-tts. El más destacado es gpt-4o-transcribe.

Estos nuevos modelos ya están disponibles para desarrolladores externos a través de una interfaz de programación de aplicaciones (API), permitiéndoles crear aplicaciones más inteligentes. OpenAI también ofrece un sitio web de demostración, OpenAI.fm, para que los usuarios individuales puedan probarlos.

QQ_1742518825138.png

Descubriendo las funciones principales

¿Qué hace que gpt-4o-transcribe sea tan especial? En pocas palabras, es una versión mejorada del modelo de transcripción de voz de código abierto Whisper, lanzado por OpenAI hace dos años, con el objetivo de ofrecer una tasa de error de texto más baja y un rendimiento superior.

Según datos oficiales de OpenAI, en pruebas con 33 idiomas estándar del sector, gpt-4o-transcribe muestra una reducción significativa de la tasa de error en comparación con Whisper. ¡En inglés, la tasa de error se reduce hasta un 2,46%! Esto supone un gran avance para aplicaciones que requieren una transcripción de voz de alta precisión.

Más aún, este nuevo modelo mantiene un rendimiento excelente en entornos complejos. Ya sea en ambientes ruidosos, con diferentes acentos o con velocidades de habla variables, gpt-4o-transcribe proporciona resultados de transcripción más precisos. Además, admite más de 100 idiomas.

Para mejorar aún más la precisión de la transcripción, gpt-4o-transcribe incorpora tecnologías de reducción de ruido y detección de actividad de voz semántica.

El técnico de OpenAI, Jeff Harris, explica que esta última ayuda al modelo a determinar si el hablante ha terminado una idea completa, evitando errores de puntuación y mejorando la calidad general de la transcripción. Además, gpt-4o-transcribe admite la transcripción de voz a texto en tiempo real, permitiendo la entrada continua de audio y la obtención de resultados de texto instantáneos, lo que hace que la conversación sea más natural.

Cabe destacar que la familia de modelos gpt-4o-transcribe no cuenta actualmente con la función de "separación de hablantes" (diarización). Esto significa que se centra en transcribir el audio recibido (que puede contener varias voces) en texto, sin distinguir ni etiquetar a los diferentes hablantes.

Aunque esto puede ser una limitación en algunos casos donde es necesario distinguir a los hablantes, su ventaja en la mejora de la precisión general de la transcripción sigue siendo significativa.

Prioridad para desarrolladores: la API ya está disponible

gpt-4o-transcribe ya está disponible para los desarrolladores a través de la API de OpenAI. Esto significa que los desarrolladores pueden integrar rápidamente esta potente capacidad de transcripción de voz en sus aplicaciones, ofreciendo a los usuarios una experiencia de interacción de voz más cómoda.

En una demostración en vivo, OpenAI mostró que para aplicaciones ya construidas con modelos de texto grandes como GPT-4o, solo se necesitan unas nueve líneas de código para agregar fácilmente la funcionalidad de interacción de voz. Por ejemplo, una aplicación de comercio electrónico podría implementar rápidamente respuestas de voz a consultas de los usuarios sobre información de pedidos.

Sin embargo, OpenAI también indicó que, teniendo en cuenta las necesidades específicas de ChatGPT en cuanto a coste y rendimiento, estos nuevos modelos no se aplicarán directamente a ChatGPT de momento, aunque se espera su integración gradual en el futuro. Para los desarrolladores que buscan una latencia menor y una interacción de voz en tiempo real, OpenAI recomienda el uso de sus modelos de voz a voz en la API en tiempo real.

Gracias a su potente capacidad de transcripción de voz, gpt-4o-transcribe promete destacar en varios campos. OpenAI considera que escenarios como centros de atención al cliente, generación automática de actas de reuniones y asistentes inteligentes impulsados por IA son ideales para esta tecnología. Algunas empresas que ya han probado el nuevo modelo han confirmado que los modelos de audio de OpenAI han mejorado significativamente el rendimiento de la IA de voz.

Por supuesto, OpenAI también se enfrenta a la competencia de otras empresas de IA de voz, como ElevenLabs, cuyo modelo Scribe también ofrece una baja tasa de error y la función de separación de hablantes. Además, el modelo Octave TTS de Hume AI ofrece opciones de personalización más detalladas en cuanto a pronunciación y control emocional. La comunidad de código abierto también está produciendo continuamente modelos de voz avanzados.

Los nuevos modelos de voz de OpenAI, como gpt-4o-transcribe, demuestran una gran potencia y potencial en el campo de la transcripción de voz. Aunque actualmente están dirigidos principalmente a desarrolladores, su valor para mejorar la experiencia de interacción de voz es innegable. En el futuro, con el desarrollo continuo de la tecnología, es probable que veamos surgir más aplicaciones de IA de voz sorprendentes.

Enlace al sitio web: https://www.openai.fm/