Les assistants vocaux sont devenus une partie intégrante de notre vie quotidienne. Cependant, les assistants vocaux numériques actuels manquent souvent d'émotion et d'humanité dans leurs interactions avec les utilisateurs. L'équipe Sesame s'attaque à ce problème en travaillant sur un nouveau concept : la « présence vocale », visant à rendre les assistants numériques plus authentiques, compréhensifs et appréciés lors des échanges.

QQ_1740965796294.png

L'objectif principal de Sesame est de créer un compagnon numérique, non pas un simple outil pour traiter les demandes, mais un véritable partenaire capable de mener des conversations authentiques. Ces compagnons numériques visent à établir progressivement un climat de confiance et de sécurité grâce à l'interaction avec les utilisateurs, leur permettant ainsi de vivre des échanges plus riches et plus profonds au quotidien. Pour ce faire, l'équipe Sesame se concentre sur plusieurs éléments clés : l'intelligence émotionnelle, la dynamique conversationnelle, la conscience contextuelle et une personnalité cohérente.

L'intelligence émotionnelle permet à l'assistant vocal de comprendre et de répondre aux états émotionnels de l'utilisateur. Il ne s'agit pas seulement de comprendre les commandes vocales, mais aussi de percevoir les variations émotionnelles dans la voix afin de fournir une réponse plus appropriée. Ensuite, la dynamique conversationnelle souligne le rythme naturel que doit avoir l'assistant vocal lors d'un échange, y compris les pauses opportunes, l'intonation appropriée et les interruptions, pour rendre la conversation plus fluide et naturelle.

De plus, la conscience contextuelle est essentielle. Elle exige que l'assistant vocal ajuste son ton et son style en fonction du contexte et de l'historique de la conversation. Cette capacité permet à l'assistant numérique d'être pertinent en toutes circonstances, améliorant ainsi la satisfaction de l'utilisateur. Enfin, une personnalité cohérente signifie que l'assistant vocal doit maintenir une personnalité et un style relativement constants dans toutes les conversations, afin de renforcer la confiance de l'utilisateur.

Cependant, atteindre l'objectif de la « présence vocale » n'est pas une mince affaire. L'équipe Sesame a réalisé des progrès constants dans plusieurs domaines, notamment la personnalité, la mémoire, l'expressivité et l'adaptation. Récemment, l'équipe a présenté des résultats expérimentaux en matière de génération de parole conversationnelle, en particulier en termes d'amabilité et d'expressivité, démontrant ainsi le potentiel de sa méthode.

Sur le plan technique, l'équipe Sesame a proposé une nouvelle méthode appelée « modèle de parole conversationnelle » (CSM) pour pallier les insuffisances des modèles traditionnels de synthèse vocale (TTS). Cette méthode utilise une architecture de transformateur pour générer une parole plus naturelle et cohérente. Le CSM traite non seulement l'apprentissage multi-modal du texte et de l'audio, mais il peut également adapter sa sortie en fonction de l'historique de la conversation, résolvant ainsi les faiblesses des modèles traditionnels en matière de compréhension contextuelle.

Pour valider l'efficacité du modèle, l'équipe Sesame a utilisé un grand nombre de données audio publiques pour l'entraînement, et a préparé des échantillons d'entraînement par transcription et segmentation. Ils ont entraîné des modèles de différentes tailles et ont obtenu de bons résultats sur des indicateurs d'évaluation objectifs et subjectifs. Bien que le modèle se rapproche du niveau humain en termes de naturel et d'adaptabilité vocale, des améliorations sont encore nécessaires dans des contextes de conversation spécifiques.

D'après les échantillons fournis, les créations générées sont presque impossibles à distinguer de celles d'un humain, elles sont incroyablement réalistes.

L'équipe Sesame prévoit de rendre ses résultats de recherche open source afin que la communauté puisse participer aux expérimentations et aux améliorations. Cette initiative contribuera non seulement à accélérer le développement de l'IA conversationnelle, mais permettra également, grâce à l'extension de l'échelle des modèles et de la prise en charge linguistique, de couvrir un plus grand nombre de scénarios d'application. De plus, l'équipe envisage d'explorer comment utiliser les modèles linguistiques pré-entraînés pour jeter les bases de la construction de modèles multimodaux.

Démo du projet : https://www.sesame.com/research/crossing_the_uncanny_valley_of_voice#demo

Points clés :

🌟 L'équipe Sesame s'efforce de réaliser une « présence vocale », permettant aux assistants numériques non seulement d'exécuter des commandes, mais aussi de mener des conversations authentiques.

🔧 Grâce au « modèle de parole conversationnelle » (CSM), l'équipe a réalisé de nouvelles avancées en matière de compréhension contextuelle et de génération vocale.

🌐 L'équipe prévoit de rendre ses résultats de recherche open source et d'étendre la prise en charge linguistique afin de promouvoir le développement de l'IA conversationnelle.