Aujourd'hui, OpenAI annonce une mise à jour de son API en temps réel, actuellement en phase de test. Cette mise à jour met en avant cinq nouvelles options vocales, spécialement conçues pour les applications de synthèse vocale, et réduit les coûts de mise en cache, rendant son utilisation plus économique pour les développeurs.
Parmi ces cinq nouvelles voix, OpenAI a présenté trois nouveaux sons sur X : Ash, Verse et Ballad (à l'accent britannique). Ces voix sont non seulement plus expressives et modulables, mais offrent également une expérience d'interaction plus naturelle. OpenAI mentionne dans sa documentation API que cette fonctionnalité native de synthèse vocale élimine le traitement intermédiaire au format texte, permettant ainsi une faible latence et une sortie plus précise.
Cependant, OpenAI rappelle aux utilisateurs que l'API en temps réel étant toujours en phase de test, l'authentification côté client n'est pas encore disponible. De plus, le traitement audio en temps réel peut être affecté par les conditions du réseau, ce qui pose des défis pour la transmission audio à grande échelle. OpenAI souligne que garantir la fiabilité de la transmission audio en cas de conditions réseau instables est une tâche ardue.
Le parcours d'OpenAI dans le domaine de la technologie vocale est également sujet à controverse. En mars dernier, ils ont lancé « Voice Engine », une plateforme de clonage vocal visant à concurrencer ElevenLabs, mais accessible uniquement à un petit nombre de chercheurs. Suite à la démonstration de GPT-4o et des modèles vocaux, OpenAI a suspendu en mai l'utilisation de la voix nommée « Sky » suite aux objections de l'actrice hollywoodienne Scarlett Johansson, qui estimait que cette voix était trop similaire à la sienne.
En septembre, OpenAI a lancé des modes vocaux avancés pour ses abonnés payants, y compris les utilisateurs de ChatGPT Plus, Enterprise, Teams et Edu. Grâce à cette technologie de synthèse vocale, les entreprises peuvent générer des réponses en temps réel plus rapidement, améliorant ainsi considérablement l'efficacité du service client.
Réduction des coûts, plus de 50 %
Concernant les prix de l'API en temps réel, OpenAI avait initialement fixé le prix à 0,06 $ par minute d'entrée audio et 0,24 $ par minute de sortie audio, des coûts relativement élevés pour les développeurs. Cependant, après cette mise à jour, les coûts d'entrée de texte mis en cache seront réduits de 50 %, tandis que les coûts d'entrée audio mis en cache bénéficieront d'une réduction de 80 %.
Lors de sa journée développeurs, OpenAI a annoncé la nouvelle fonctionnalité « Prompt Caching », qui permet de stocker les invites de contexte fréquemment demandées dans la mémoire du modèle, réduisant ainsi le nombre de jetons nécessaires pour générer une réponse. En réduisant les prix d'entrée, OpenAI espère attirer davantage de développeurs vers son API.
Par ailleurs, d'autres entreprises comme Anthropic ont également introduit des fonctionnalités de mise en cache similaires pour améliorer l'attrait de leurs technologies vocales.
Points clés :
🌟 Cinq nouvelles voix naturelles pour une meilleure expérience des applications vocales
💰 L'API en temps réel réduit les coûts d'entrée grâce à la mise en cache, plus avantageux pour les développeurs
⚡ Le traitement audio en temps réel est affecté par les conditions du réseau, la fiabilité doit être surveillée