Le 20 janvier 2025, l'application Doubao a officiellement lancé son dernier modèle linguistique vocal « de bout en bout » et a apporté d'importantes mises à jour à sa fonction d'appel vocal en temps réel. Cette avancée marque un nouveau bond en avant pour Doubao dans le domaine de l'interaction vocale, dépassant les solutions en cascade précédentes d'ASR (reconnaissance automatique de la parole), de LLM (grand modèle linguistique) et de TTS (texte-à-parole), en intégrant la reconnaissance, la compréhension et la génération vocales dans un seul modèle.
Testé par l'émergence intelligente, le principal atout de la nouvelle version de Doubao réside dans sa capacité d'expression et ses émotions humaines, améliorant ainsi la fluidité et l'intelligence des conversations. En particulier, les modes « chanteur d'âme » et « caméléon » permettent à Doubao non seulement de chanter, mais aussi d'incarner de nombreux personnages, devenant ainsi le chouchou des interactions utilisateurs. Par exemple, lorsqu'un utilisateur demande à Doubao d'imiter la voix de la star Yu Shuxin, Doubao reproduit non seulement le ton de la personnalité, mais exprime aussi sa propre personnalité espiègle.
Il est également important de noter que Doubao est capable de créer des chansons improvisées lors de conversations naturelles, sans instructions complexes ni indications professionnelles. Les utilisateurs peuvent demander à Doubao de chanter à volonté, et même spécifier un thème pour les paroles. Bien que Doubao puisse parfois commettre de petites erreurs, sa vitesse de réaction et sa capacité de création improvisée sont étonnantes, démontrant ses puissantes capacités d'anthropomorphisme.
De plus, les nouveaux modes de personnalité « petit paquet boudeur » et « maître des compliments » ajoutés à Doubao offrent aux utilisateurs une expérience nouvelle. Ces modes de personnalité permettent à Doubao d'exprimer différentes émotions et styles dans différents contextes, augmentant ainsi l'intérêt et le réalisme de l'interaction.
À l'heure où les technologies d'interaction vocale sont en plein essor, cette mise à jour de Doubao étend non seulement les applications de l'IA aux domaines de la compagnie affective et des consultations psychologiques, mais rapproche également les capacités d'échange émotionnel de l'IA de celles des humains. Cette évolution permettra sans aucun doute à Doubao de se tailler une place de choix sur un marché concurrentiel et de diriger le développement futur de l'interaction par IA.