Après avoir suscité un certain intérêt dans le domaine de l'IA vocale, OpenAI poursuit ses efforts. Le créateur de ChatGPT lance trois nouveaux modèles vocaux développés en interne : gpt-4o-transcribe, gpt-4o-mini-transcribe et gpt-4o-mini-tts. Le plus remarquable est sans aucun doute gpt-4o-transcribe.

Ces nouveaux modèles sont désormais accessibles aux développeurs tiers via une API, leur permettant de créer des applications plus intelligentes. OpenAI propose également un site de démonstration, OpenAI.fm, pour une première expérience utilisateur.

QQ_1742518825138.png

Décryptage des fonctionnalités clés

Quelles sont les particularités de gpt-4o-transcribe ? En termes simples, il s'agit d'une version améliorée de Whisper, le modèle de transcription vocale open source d'OpenAI lancé il y a deux ans. L'objectif est d'offrir un taux d'erreur plus faible et des performances supérieures.

Selon les données officielles d'OpenAI, gpt-4o-transcribe affiche une baisse significative du taux d'erreur par rapport à Whisper sur 33 langues standardisées. En anglais, le taux d'erreur est même tombé à 2,46 % ! C'est un progrès considérable pour les applications nécessitant une transcription vocale de haute précision.

Plus impressionnant encore, ce nouveau modèle conserve d'excellentes performances dans des environnements complexes. Que ce soit dans un environnement bruyant, avec des accents différents, ou une vitesse de parole variable, gpt-4o-transcribe fournit des résultats de transcription plus précis. Il prend en charge plus de 100 langues.

Pour améliorer encore la précision de la transcription, gpt-4o-transcribe intègre des techniques de suppression du bruit et de détection sémantique de l'activité vocale.

Jeff Harris, ingénieur chez OpenAI, explique que cette dernière fonctionnalité permet au modèle de déterminer si l'interlocuteur a terminé une idée complète, évitant ainsi les erreurs de ponctuation et améliorant la qualité globale de la transcription. De plus, gpt-4o-transcribe prend en charge la transcription vocale en continu, permettant aux développeurs d'introduire de l'audio en continu et d'obtenir des résultats textuels en temps réel, pour une interaction plus naturelle.

Il est important de noter que la famille de modèles gpt-4o-transcribe ne dispose pas actuellement de la fonctionnalité de « séparation des locuteurs » (diarization). En d'autres termes, il se concentre sur la transcription de l'audio reçu (pouvant contenir plusieurs voix) en un seul texte, sans distinguer ni identifier les différents locuteurs.

Bien que cela puisse constituer une limitation dans certains contextes où la distinction des intervenants est nécessaire, son avantage en termes d'amélioration de la précision globale de la transcription reste significatif.

Priorité aux développeurs : l'API est ouverte

gpt-4o-transcribe est désormais accessible aux développeurs via l'API d'OpenAI. Cela permet aux développeurs d'intégrer rapidement cette puissante capacité de transcription vocale à leurs applications, offrant ainsi une expérience d'interaction vocale plus conviviale aux utilisateurs.

Lors d'une démonstration en direct, OpenAI a montré que pour les applications déjà basées sur des grands modèles linguistiques comme GPT-4o, l'ajout de fonctionnalités d'interaction vocale ne nécessite que neuf lignes de code environ. Par exemple, une application de commerce électronique pourrait rapidement mettre en place des réponses vocales aux questions des clients sur leurs commandes.

OpenAI précise toutefois que compte tenu des besoins spécifiques de ChatGPT en termes de coût et de performances, ces nouveaux modèles ne seront pas directement intégrés à ChatGPT pour le moment, mais une intégration progressive est prévue. Pour les développeurs recherchant une faible latence et une interaction vocale en temps réel, OpenAI recommande d'utiliser ses modèles voix-à-voix dans l'API en temps réel.

Grâce à ses puissantes capacités de transcription vocale, gpt-4o-transcribe devrait trouver de nombreuses applications. OpenAI estime que des scénarios tels que les centres d'appels clients, la génération automatique de comptes rendus de réunions et les assistants intelligents basés sur l'IA sont particulièrement adaptés à cette technologie. Des entreprises ayant déjà testé le nouveau modèle ont indiqué une amélioration significative des performances de l'IA vocale grâce aux modèles audio d'OpenAI.

OpenAI fait bien sûr face à la concurrence d'autres entreprises d'IA vocale, comme ElevenLabs avec son modèle Scribe, qui offre un faible taux d'erreur et une fonctionnalité de séparation des locuteurs. Le modèle Octave TTS de Hume AI propose quant à lui des options de personnalisation plus précises pour la prononciation et le contrôle des émotions. La communauté open source propose également des modèles vocaux avancés en constante évolution.

Les nouveaux modèles vocaux d'OpenAI, dont gpt-4o-transcribe, démontrent une puissance et un potentiel considérables dans le domaine de la transcription vocale. Bien qu'ils soient principalement destinés aux développeurs pour le moment, leur valeur en termes d'amélioration de l'expérience d'interaction vocale est indéniable. À l'avenir, avec le développement continu de la technologie, nous pourrons assister à l'émergence d'applications d'IA vocale encore plus surprenantes.

Lien du site : https://www.openai.fm/