Une avancée révolutionnaire dans le domaine de l'interaction vocale ! Step Audio, une entreprise chinoise d'IA, a récemment publié en open source un modèle vocal ultralarge de 130 milliards de paramètres, suscitant un vif intérêt de l'industrie. Considéré comme un modèle « dominant », ce puissant système est le premier système de dialogue vocal en temps réel open source au monde intégrant la compréhension et la génération vocale. Sa polyvalence fonctionnelle et son avance technologique sont impressionnantes, suggérant une avancée significative et rapide de la technologie vocale IA.

Le point fort de ce modèle open source réside dans sa conception intégrée et sa puissante capacité de contrôle. Il comprend non seulement avec précision les instructions vocales de l'utilisateur, mais il contrôle également de manière très flexible le processus de génération vocale, offrant une expérience d'interaction vocale personnalisée sans précédent.

image.png

En termes de prise en charge linguistique, ce modèle affiche des capacités multilingues étonnantes, passant fluidement du chinois, à l'anglais et au japonais, gérant facilement les échanges interlinguistiques. Plus surprenant encore, il prend en charge en profondeur les dialectes, couvrant actuellement des dialectes majeurs tels que le cantonais et le Sichuan, rendant l'interaction vocale plus réaliste et humaine.

Au-delà de la langue, ce modèle permet un contrôle précis des émotions vocales. L'utilisateur peut définir librement le ton émotionnel de la voix, par exemple la joie ou la tristesse, rendant l'expression de l'IA plus expressive. La vitesse et le style rythmique peuvent également être ajustés à volonté pour répondre aux besoins d'expression dans différents contextes. Il prend même en charge le rap et le chant pour des formes vocales plus créatives, ouvrant des possibilités infinies pour la création de contenu.

image.png

Plus impressionnant encore, ce modèle possède une fonction de clonage vocal, ce qui signifie que les utilisateurs peuvent utiliser cette technologie pour créer des assistants vocaux très personnalisés, voire « reproduire » et « transmettre » des voix.

La publication en open source d'un modèle vocal aussi puissant par Step Audio stimulera sans aucun doute le progrès technologique et l'innovation applicative de l'ensemble du secteur. Il réduit considérablement le seuil d'application de la technologie vocale IA et préfigure un avenir où l'interaction vocale sera plus intelligente, naturelle et personnalisée, véritablement intégrée à la vie quotidienne.

Adresse du projet : https://github.com/stepfun-ai/Step-Audio/tree/main