Lors du récent AI DAY de Baidu, Wen Xiaoyan a officiellement annoncé son renouvellement de marque et la mise à niveau de ses fonctionnalités. Cette mise à jour comprend non seulement une nouvelle identité visuelle, mais surtout l'intégration d'une technologie de planification de fusion multi-modèles, ce qui améliorera considérablement ses capacités de reconnaissance vocale et de questions-réponses sur les images.

La planification de fusion multi-modèles de Wen Xiaoyan est le point culminant de cette mise à niveau. En intégrant les modèles développés par Baidu, tels que Wenxin X1 et Wenxin 4.5, et en ajoutant des modèles tiers de haute qualité comme DeepSeek-R1 et Ke Ling, les utilisateurs peuvent choisir le modèle le plus adapté à leurs besoins. Il suffit de cliquer sur le « mode automatique » pour que le système sélectionne intelligemment la meilleure combinaison de modèles, améliorant ainsi considérablement la vitesse de réponse et les capacités de traitement des tâches, pour une expérience utilisateur optimale en un seul clic.

image.png

En termes de capacités vocales, le nouveau modèle linguistique vocal amélioré prend en charge les conversations en plusieurs dialectes, les questions-réponses sur des connaissances complexes et permet même d'interrompre la conversation à tout moment. Cela signifie que les utilisateurs peuvent non seulement obtenir des réponses à leurs questions par la voix, mais aussi participer à des jeux de rôle amusants, pour une expérience interactive plus riche. Jia Lei, architecte en chef de la voix chez Baidu, a souligné que ce modèle est le premier modèle linguistique vocal de bout en bout basé sur la nouvelle technologie d'attention croisée (Cross-Attention) du secteur. Comparé à la moyenne du secteur, son coût d'appel est réduit de 50 % à 90 %. De plus, la vitesse de réponse de ce modèle est extrêmement rapide, le temps d'attente étant réduit à environ une seconde, pour une interaction plus fluide.

De plus, Wen Xiaoyan a lancé une fonction innovante de questions-réponses sur les images. Les utilisateurs peuvent prendre des photos ou télécharger des images et poser des questions par écrit ou par la voix pour obtenir des analyses détaillées. Par exemple, en prenant une photo d'un problème de mathématiques, l'utilisateur peut obtenir en temps réel la solution et une explication vidéo ; en téléchargeant une image d'un produit, il peut comparer les caractéristiques et les prix pour faciliter sa décision d'achat. La nouvelle fonction « Anecdotes visuelles » est également très amusante : les utilisateurs peuvent définir un point de vue, comme « historien » ou « expert en technologie », pour interpréter la même image sous différents angles, ce qui rend l'interaction plus divertissante.

Cette mise à niveau de Baidu Wen Xiaoyan offre aux utilisateurs une expérience plus intelligente et plus pratique, et les interactions futures seront encore plus diversifiées.