ElevenLabs vient de lancer son nouveau modèle de synthèse vocale, Flash, qu'il présente comme la solution de texte à parole (TTS) la plus rapide à ce jour, avec un temps de latence de seulement 75 millisecondes (hors latence de l'application et du réseau). Flash est particulièrement adapté aux assistants vocaux conversationnels à faible latence, et cette nouvelle fonctionnalité est disponible dès maintenant sur la plateforme IA conversationnelle d'ElevenLabs.
Le modèle Flash est disponible en deux versions : Flash v2, qui ne prend en charge que l'anglais, et Flash v2.5, qui prend en charge 32 langues. Pour chaque paire de caractères générés, 1 point est consommé pour l'utilisation de ces deux modèles. Bien que la qualité sonore et la profondeur émotionnelle de Flash soient légèrement inférieures à celles du modèle Turbo, ses performances en termes de faible latence lui ont permis de surpasser ses concurrents lors de tests comparatifs à l'aveugle, faisant de lui la solution de texte à parole la plus rapide du marché.
L'équipe technique d'ElevenLabs affirme que le lancement du modèle Flash améliorera considérablement la fluidité et le naturel des interactions homme-machine. Les développeurs peuvent appeler directement le modèle via l'API en utilisant les ID « eleven_flash_v2 » et « eleven_flash_v2_5 ». Vous trouverez des informations de référence sur l'API sur le site web d'ElevenLabs. Grâce à cette innovation, ElevenLabs espère ouvrir la voie à des interactions conversationnelles plus humaines et à faible latence.
ElevenLabs propose également une gamme de produits et de solutions, notamment des assistants vocaux personnalisés, des outils de création audio et des studios de doublage, afin d'aider les utilisateurs et les développeurs de différents secteurs à créer des contenus audio IA de haute qualité. Par ailleurs, ElevenLabs poursuit activement ses recherches et développements pour améliorer constamment les performances techniques de ses produits et répondre aux besoins croissants des utilisateurs.
Points clés :
🌟 Le modèle Flash génère de la parole avec une latence de seulement 75 millisecondes, idéal pour les assistants vocaux conversationnels à faible latence.
🌍 Flash v2.5 prend en charge 32 langues, et chaque paire de caractères générés coûte 1 point.
🚀 Lors de tests comparatifs à l'aveugle, le modèle Flash a surpassé ses concurrents, devenant la solution de texte à parole la plus rapide.