ElevenLabs, une startup prometteuse spécialisée dans le clonage et la génération de voix par intelligence artificielle, a récemment lancé son dernier modèle de transcription vocale : Scribe v1. Ce modèle revendique la plus haute précision dans plusieurs langues, et les utilisateurs peuvent l’essayer via le site web de la société.
Selon les tests de référence d'ElevenLabs, Scribe surpasse Gemini 2.0 Flash de Google, Whisper v3 d'OpenAI et Deepgram Nova-3 en matière de conversion précise de la parole en texte, atteignant un taux d'erreur exceptionnellement bas. La société affirme que Scribe prend en charge la transcription haute précision de 99 langues, y compris des langues auparavant négligées telles que le serbe, le cantonais et le malayalam.
Flavio Schneider, chercheur principal chez ElevenLabs, a déclaré sur la plateforme sociale X que Scribe est le « modèle de compréhension audio le plus intelligent » jamais publié par la société. Il a souligné que Scribe n'est pas qu'un simple outil de transcription, mais qu'il comprend également le contenu audio, détectant les événements non verbaux (tels que les rires, les effets sonores, la musique et le bruit de fond) et analysant des contenus audio longs dans des environnements complexes pour une identification précise des locuteurs. Il est à noter que Scribe peut identifier et isoler jusqu'à 32 locuteurs différents dans un même fichier audio.
ElevenLabs rappelle aux utilisateurs que Scribe « est le plus adapté aux situations nécessitant une transcription de haute précision, et non à la transcription en temps réel ». La société prévoit également de lancer une version à faible latence pour étendre son utilisation aux applications en temps réel.
D'après les résultats de référence de FLEURS et Common Voice, Scribe excelle dans la gestion des défis audio du monde réel, atteignant notamment les taux d'erreur de mots les plus bas en italien (98,7 % de précision) et en anglais (96,7 % de précision).
Scribe est désormais disponible via le site web et l'API d'ElevenLabs, au prix de 0,40 $ par heure d'audio en entrée, avec une réduction de 50 % pendant les six prochaines semaines. Une version à faible latence pour les applications en temps réel est également en cours de développement.
Pour les décideurs, Scribe offre un outil évolutif pour la transcription haute précision, adapté aux secteurs nécessitant une automatisation de la documentation, la transcription de réunions et l'accessibilité des contenus. Le traitement haute précision de plusieurs langues bénéficiera également aux multinationales, aux sociétés de médias et aux applications de support client.
Il est à noter que le lancement de Scribe a eu lieu le même jour que celui d'Octave, le modèle de texte à parole de son concurrent Hume. Octave est un outil de texte à parole basé sur un grand modèle linguistique, permettant aux utilisateurs de personnaliser la voix générée par l'IA en fonction de leurs besoins émotionnels, destiné à la création de contenu tel que les livres audio, les podcasts et le doublage de jeux vidéo. Bien que Scribe et Octave aient des fonctionnalités différentes, leurs lancements reflètent la compétition de plus en plus intense dans le domaine des modèles audio pilotés par l'IA.
Accès au produit : https://elevenlabs.io/blog/meet-scribe
Points clés :
🌟 Scribe v1 est le dernier modèle de transcription vocale d'ElevenLabs, atteignant des niveaux de précision inégalés dans plusieurs langues.
🗣️ Il prend en charge 99 langues, peut distinguer jusqu'à 32 locuteurs différents et s'adapte aux environnements audio complexes.
💰 Le prix actuel est de 0,40 $ par heure, avec une réduction de 50 % pendant les six prochaines semaines. Une version à faible latence est en cours de développement.