Récemment, la société Doubao a annoncé le lancement de son tout nouveau grand modèle de synthèse vocale en temps réel, se vantant d'une "avance fulgurante" dans les conversations en chinois, marquant une amélioration significative des capacités de dialogue de l'IA. Ce modèle est entièrement disponible dans l'application Doubao (version 7.2.0 édition Nouvel An), offrant aux utilisateurs une expérience d'échange vocal plus riche et plus réaliste.

Selon les informations fournies, le grand modèle de synthèse vocale en temps réel de Doubao a réalisé une fusion profonde entre la compréhension et la génération vocale, formant un système de dialogue vocal de bout en bout. Cette percée technologique permet au modèle d'obtenir d'excellents résultats en termes d'expressivité vocale, de contrôle et de gestion des émotions, avec une faible latence et la possibilité d'interrompre la conversation à tout moment, améliorant considérablement l'expérience interactive des utilisateurs. L'entreprise affirme que cette technologie a non seulement amélioré son "QI", mais aussi son "QE", lui permettant de mieux comprendre et exprimer les émotions.

image.png

Cette mise à jour inclut également une fonction d'appel vocal en temps réel, qui s'appuie sur le dernier grand modèle de Doubao et permet d'ajuster de manière flexible le rythme de la conversation, les sons enfantins, le volume et le souffle dans différents contextes. De plus, la nouvelle fonction vocale peut imiter différentes voix, prendre en charge les conversations dans plusieurs dialectes et en anglais, et même chanter certaines chansons. Tout cela élève le réalisme des conversations homme-machine à un niveau supérieur, atteignant presque un point où il est difficile de distinguer l'homme de la machine.

L'équipe de recherche et développement de Doubao a déclaré que cette nouvelle technologie est basée sur un framework de bout en bout, utilisant une méthode native pour fusionner profondément les modes vocaux et textuels afin de créer une modélisation unifiée. Cette conception optimise non seulement le processus de reconnaissance et de génération vocale, mais confère également à l'IA une "âme" plus riche, lui permettant de mieux communiquer avec les humains.

Le lancement du grand modèle de synthèse vocale en temps réel de Doubao dans le domaine des conversations vocales en chinois offrira aux utilisateurs une expérience interactive sans précédent et stimulera le développement des technologies vocales intelligentes.