IA vocale révolutionnaire ! Le modèle linguistique géant de 130 milliards de paramètres de Step Audio, conversation en temps réel + clonage émotionnel, arrive en force !

AIbase基地

Publié leActualités IA · 5 minutes de lecture · Feb 18, 2025

498

Une avancée révolutionnaire dans le domaine de l'interaction vocale ! Step Audio, une entreprise chinoise d'IA, a récemment publié en open source un modèle vocal ultralarge de 130 milliards de paramètres, suscitant un vif intérêt de l'industrie. Considéré comme un modèle « dominant », ce puissant système est le premier système de dialogue vocal en temps réel open source au monde intégrant la compréhension et la génération vocale. Sa polyvalence fonctionnelle et son avance technologique sont impressionnantes, suggérant une avancée significative et rapide de la technologie vocale IA.

Le point fort de ce modèle open source réside dans sa conception intégrée et sa puissante capacité de contrôle. Il comprend non seulement avec précision les instructions vocales de l'utilisateur, mais il contrôle également de manière très flexible le processus de génération vocale, offrant une expérience d'interaction vocale personnalisée sans précédent.

En termes de prise en charge linguistique, ce modèle affiche des capacités multilingues étonnantes, passant fluidement du chinois, à l'anglais et au japonais, gérant facilement les échanges interlinguistiques. Plus surprenant encore, il prend en charge en profondeur les dialectes, couvrant actuellement des dialectes majeurs tels que le cantonais et le Sichuan, rendant l'interaction vocale plus réaliste et humaine.

Au-delà de la langue, ce modèle permet un contrôle précis des émotions vocales. L'utilisateur peut définir librement le ton émotionnel de la voix, par exemple la joie ou la tristesse, rendant l'expression de l'IA plus expressive. La vitesse et le style rythmique peuvent également être ajustés à volonté pour répondre aux besoins d'expression dans différents contextes. Il prend même en charge le rap et le chant pour des formes vocales plus créatives, ouvrant des possibilités infinies pour la création de contenu.

Plus impressionnant encore, ce modèle possède une fonction de clonage vocal, ce qui signifie que les utilisateurs peuvent utiliser cette technologie pour créer des assistants vocaux très personnalisés, voire « reproduire » et « transmettre » des voix.

La publication en open source d'un modèle vocal aussi puissant par Step Audio stimulera sans aucun doute le progrès technologique et l'innovation applicative de l'ensemble du secteur. Il réduit considérablement le seuil d'application de la technologie vocale IA et préfigure un avenir où l'interaction vocale sera plus intelligente, naturelle et personnalisée, véritablement intégrée à la vie quotidienne.

Adresse du projet : https://github.com/stepfun-ai/Step-Audio/tree/main

Interaction vocale Step Audio Modèle linguistique géant Système de dialogue vocal en temps réel open source

Cet article provient d'AIbase Daily

Bienvenue dans la section [AI Quotidien] ! Voici votre guide pour explorer le monde de l'intelligence artificielle chaque jour. Chaque jour, nous vous présentons les points forts du domaine de l'IA, en mettant l'accent sur les développeurs, en vous aidant à comprendre les tendances technologiques et à découvrir des applications de produits IA innovantes.

—— Créé par le groupe AIbase Daily

Recommandations d'actualités IA connexes

Le groupe Yiwu Mall intègre le modèle linguistique géant Tongyi d'Alibaba pour créer un assistant de gestion intelligent basé sur l'IA

Le groupe Yiwu Mall a annoncé l'intégration officielle du modèle linguistique géant Tongyi d'Alibaba. En combinant les avantages d'Alibaba dans le cloud computing, le big data et le commerce électronique, cette collaboration aidera 2,1 millions de petites et moyennes entreprises à utiliser l'IA pour une gestion précise et une expansion rapide sur les marchés étrangers. Ce partenariat marque une étape importante dans la transformation numérique et le déploiement mondial du groupe Yiwu Mall, et souligne le rôle crucial d'Alibaba dans la promotion de la transformation numérique des PME.

Apr 17, 2025

Manus, fondé par Ji Yichao : un produit basé sur le modèle linguistique géant Qianwen d'Alibaba

Manus, le produit Agent IA de la startup chinoise Monica, a récemment suscité un engouement sur la plateforme X. Son fondateur, Ji Yichao, a dévoilé aujourd'hui des détails techniques supplémentaires sur les médias sociaux. Selon Ji Yichao, Manus est développé sur la base du modèle linguistique géant Qianwen d'Alibaba, et utilise plusieurs modèles finement ajustés pour réaliser ses fonctionnalités uniques. Cette annonce a non seulement déclenché une discussion au sein de l'industrie sur l'origine technologique de Manus, mais a également ravivé l'intérêt de la communauté mondiale de l'IA pour son potentiel. Ji Yichao...

Mar 11, 2025

AI Quotidien : Plateforme de supercalcul national, modèle linguistique géant Alibaba Qwen ; TikTok lutte contre les escroqueries boursières liées à l'IA ; effets spéciaux IA sur Keeling AI

Bienvenue à la rubrique 【AI Quotidien】 ! Votre guide quotidien pour explorer le monde de l'intelligence artificielle. Chaque jour, nous vous présentons les sujets d'actualité du domaine de l'IA, en nous concentrant sur les développeurs, pour vous aider à comprendre les tendances technologiques et les applications innovantes des produits IA. Découvrez de nouveaux produits IA : https://top.aibase.com/1、Attention ! Foxconn espère prendre une place de choix dans la compétition mondiale de l'IA grâce à FoxBrain, et continuera d'optimiser les modèles pour relever les défis technologiques.

Mar 10, 2025

Dépassant DeepSeek-R1 ! Le modèle linguistique géant Wanxiang d'Alibaba atteint le sommet du classement mondial des modèles open source

Selon le dernier classement publié par la communauté open source Hugging Face, le modèle linguistique géant Wanxiang d'Alibaba, lancé il y a seulement 6 jours, a dépassé DeepSeek-R1 pour atteindre la première place des deux classements importants, le classement des modèles populaires et le classement de l'espace des modèles. Cette réussite met non seulement en évidence les performances techniques exceptionnelles du modèle Wanxiang, mais reflète également sa large reconnaissance et son influence au sein de la communauté open source mondiale.

Mar 3, 2025

L'entrée "Recherche IA" est officiellement lancée sur la page d'accueil Web de Baidu, intégrant pleinement les capacités du modèle linguistique géant Wenxin

Baidu Search a subi une mise à jour majeure. Récemment, l'entrée 'Recherche IA' a été officiellement lancée sur sa page d'accueil Web. Cette fonctionnalité, issue d'une mise à niveau complète de l'assistant IA de Baidu Search, marque une nouvelle percée de Baidu dans le domaine de la recherche intelligente. Ce moteur de recherche IA pour ordinateur de bureau, basé sur le modèle linguistique géant Wenxin, a réalisé une intégration approfondie avec l'écosystème Baidu. En intégrant plusieurs plateformes de contenu telles que le moteur de recherche Baidu, Baidu Santé, Baidu Lvlin, Baidu Wenku et Baidu Éducation, la 'Recherche IA' peut fournir aux utilisateurs des résultats de recherche plus fiables et plus fiables.

Jan 2, 2025

4.6k

State Grid, Alibaba et Baidu lancent le modèle linguistique géant "Bright Power Model" pour le secteur de l'électricité

State Grid Corporation of China a récemment annoncé le lancement du premier grand modèle d'intelligence artificielle de Chine pour le secteur de l'énergie électrique : le modèle Bright Power. Un accord-cadre de coopération stratégique a été signé avec Baidu Group et Alibaba Group. Les autorités ont indiqué qu'une collaboration entre les parties prenantes permettra de construire ensemble le modèle Bright Power, et de promouvoir l'innovation technologique et industrielle dans le secteur de l'énergie électrique.

Dec 20, 2024

3.8k

Step-1o Audio : Lancement d'un modèle linguistique géant de synthèse vocale de 100 milliards de paramètres, intégré à l'application Yuewen

Jieyue Xingchen a récemment annoncé le lancement de Step-1o, un nouveau modèle de synthèse vocale direct appartenant à la matrice de modèles Step. Il s'agit du premier modèle linguistique géant de synthèse vocale direct de 100 milliards de paramètres en Chine. Ce nouveau modèle marque une avancée majeure dans le domaine de la technologie vocale. Grâce à une solution vocale directe, il permet une intégration de la compréhension et de la génération de la parole, améliorant ainsi le QI et le QE du modèle et offrant une expérience de communication de haute qualité et hyperréaliste.

Dec 16, 2024

3.6k

Anthropic et Hume AI explorent une nouvelle technologie d'interaction vocale, redéfinissant l'avenir de l'interface homme-machine

Anthropic et Hume AI ont récemment lancé une technologie d'interaction vocale innovante, visant à réaliser une interaction homme-machine plus naturelle et émotionnellement intelligente. Cette technologie combine les capacités de traitement du langage naturel de Claude et les fonctionnalités de reconnaissance émotionnelle d'EVI2, offrant de nouvelles perspectives pour les modes d'interaction avec les assistants numériques. La technologie clé, EVI2, est capable d'identifier les nuances émotionnelles dans la voix de l'utilisateur et d'adapter l'interaction en conséquence. Comparé aux assistants vocaux traditionnels, ce système améliore considérablement la fluidité et la personnalisation de l'interaction.

Nov 26, 2024

1.3k

Google lance l'application IA Gemini pour iPhone et introduit la fonction d'interaction vocale Gemini Live

Google a officiellement lancé la nouvelle application Gemini sur l'App Store d'Apple, et introduit la fonction d'interaction vocale Gemini Live, marquant ainsi une avancée majeure dans le domaine des assistants vocaux intelligents. Simultanément, l'annonce d'Apple concernant l'intégration de ChatGPT d'OpenAI dans Siri souligne l'intensification de la compétition dans ce secteur. Version améliorée de Bard, lancé par Google en 2023, Gemini est...

Nov 18, 2024

1.8k

Création vidéo améliorée ! Le modèle linguistique géant Tongyi d'Alibaba bientôt disponible, l'inscription est ouverte

Alibaba Tongyi lancera son modèle linguistique géant de génération vidéo lors de la prochaine conférence Cloud Computing, suscitant un vif intérêt dans le secteur. Actuellement, des inscriptions pour la « génération vidéo » sont discrètement apparues sur la chaîne d'applications Tongyi et sur la version PC de Tongyi Wanxiang, mais la fonctionnalité n'est pas encore disponible. Selon les informations de la page, ce nouveau modèle linguistique géant de génération vidéo est développé en interne par le laboratoire Tongyi d'Alibaba et comprend deux modes de création principaux : « texte vers vidéo » et « image vers vidéo ». Les utilisateurs peuvent générer du contenu vidéo à partir de texte ou d'images. Ce lancement apportera sans aucun doute de nouvelles opportunités aux créateurs de contenu.

Sep 14, 2024

3.1k

Actualités IA

IA Quotidien

Chronologie de l'IA

Al hardware

Derniers cas

Collection d'images

Collection de vidéos

Collection audio

Collection de contenu

Derniers tutoriels

Classement des produits IA

Classement de la croissance du trafic IA

Classement de la baisse du trafic IA

Classement hebdomadaire de l'IA

États-Unis

Chine

Inde

Brésil

Génération d'images

Assistant personnel

Génération de personnages

Génération de vidéos

Classement des projets IA

Classement de la croissance des projets IA

Classement des développeurs IA

Classement des organisations IA

Deepseek

TTS

LLM

ChatGPT

Aperçu