Lancement mondial simultané de la synthèse vocale Holo de MiniMax, incluant les modèles T2A-01-Turbo

AIbase基地

Publié leActualités IA · 5 minutes de lecture · Jan 20, 2025

358

Le 20 janvier 2025, MiniMax, filiale de Shanghai Xiyu Technology Co., Ltd., a annoncé le lancement mondial de sa nouvelle génération de modèles vocaux T2A-01, ainsi que le lancement de son produit vocal Hailuo. La série T2A-01 comprend deux modèles : T2A-01-HD et T2A-01-Turbo. Les services API sont également disponibles sur la plateforme ouverte MiniMax. Les entreprises peuvent choisir le modèle en fonction de leurs besoins en qualité audio et en vitesse de génération.

MiniMax, en tant que société de technologie d'intelligence artificielle générale de premier plan, se concentre sur le développement indépendant de grands modèles multimodaux, notamment des grands modèles de texte MoE à mille milliards de paramètres, des grands modèles vocaux et des grands modèles d'images. Sur la base de ces modèles, MiniMax a lancé des applications natives telles que Xingye et Hailuo AI, et fournit des services API de plateforme ouverte aux entreprises et aux développeurs. Les modèles vocaux T2A-01, lancés cette fois-ci, se caractérisent par une qualité audio claire, un rythme naturel et une expression émotionnelle précise. Ils prennent en charge 17 langues, dont le chinois, le cantonais, l'anglais, le japonais, le coréen, l'arabe et l'espagnol, ainsi que des centaines de timbres vocaux prédéfinis, offrant aux utilisateurs professionnels et particuliers une expérience de génération vocale naturelle et fluide.

微信截图_20250120115029.png

L'un des points forts de Hailuo est sa puissante capacité de synthèse multi-langues. Grâce au modèle T2A-01, Hailuo surpasse les produits concurrents en termes de similarité, de taux d'erreur et d'évaluation de l'expérience auditive. Dans plusieurs langues, dont le chinois, le cantonais, l'anglais, le japonais, le coréen et l'arabe, Hailuo affiche une similarité et un taux de précision nettement supérieurs. Ses capacités globales sont comparables à celles d'ElevenLabs, un modèle de pointe international. De plus, Hailuo possède une capacité de compréhension émotionnelle, capable de détecter et de reproduire intelligemment les nuances émotionnelles de la parole. Les utilisateurs peuvent spécifier l'émotion souhaitée pour générer une sortie vocale qui capture avec précision les émotions profondes de l'être humain.

Hailuo offre également aux utilisateurs un large choix de timbres vocaux et des fonctions de personnalisation. Les utilisateurs peuvent filtrer par langue, accent, sexe et âge, choisir parmi plus de 300 timbres vocaux prédéfinis et affiner les timbres à l'aide d'égaliseurs, en ajustant par exemple la clarté, l'intensité, et en ajoutant des effets spéciaux comme l'écho, la diffusion, la distorsion ou les effets électroniques, pour répondre aux besoins de différents contextes.

Hailuo :

https://hailuoai.com/audio

Hailuo Audio (version internationale) :

https://hailuo.ai/audio

Service API en Chine :

https://platform.minimaxi.com/document/T2A%20V2

Service API international :

https://intl.minimaxi.com/document/T2A%20V2?key=66719005a427f0c8a5701643

Le modèle linguistique de grande taille Wenxin 4.5 de Baidu sera lancé le 16 mars, doté de capacités multimodales natives et de réflexion approfondie

Baidu a annoncé que son dernier modèle linguistique de grande taille Wenxin 4.5 sera officiellement lancé le 16 mars. Il est entendu que le modèle linguistique de grande taille Wenxin est un élément important du déploiement de Baidu dans le domaine de l'intelligence artificielle. Depuis son lancement initial il y a deux ans, il a eu un impact profond à l'échelle mondiale.

Microsoft open-source un nouvel agent IA multi-modal « Magma » : passation de commandes automatique et prédiction comportementale

Microsoft a récemment publié en open-source sur son site officiel un nouveau modèle d'agent IA multi-modal appelé « Magma ». Ce nouvel agent d'intelligence artificielle possède des capacités qui transcendent les mondes numérique et physique, capable de traiter simultanément plusieurs types de données, telles que des images, des vidéos et du texte. Contrairement aux assistants IA traditionnels, Magma se distingue par sa fonction de prédiction comportementale, lui permettant de comprendre plus précisément les intentions et les comportements futurs des personnes ou des objets dans une vidéo. Les applications de Magma sont vastes ; les utilisateurs peuvent exploiter cette IA pour…

Tuhu rachète 11 280 000 actions de catégorie A et intègre le modèle linguistique de grande taille DeepSeek

Récemment, Tuhu a annoncé dans un communiqué de presse que, conformément à l'autorisation de rachat d'actions approuvée par les actionnaires, il prévoit de racheter 11 284 400 actions de catégorie A sur le marché libre entre le 25 juin 2024 et le 14 février 2025. Ce rachat représente 1,38 % du capital social émis de la société. Il est à noter que Tuhu a déjà racheté et annulé 12 286 900 actions de catégorie A au premier semestre 2024, ce qui témoigne de l'attitude proactive de la société en matière d'opérations financières. Sur un autre plan important de son développement commercial, Tuhu a récemment...

Intégration du modèle linguistique de grande taille Huazhi de CNKI à DeepSeek AI : une amélioration significative de l'assistant de recherche académique

CNKI a récemment annoncé le lancement officiel de son nouveau service de connaissance, une application combinant le modèle linguistique de grande taille Huazhi et DeepSeek. Cette collaboration vise à fournir aux utilisateurs des réponses plus précises et complètes grâce à des capacités de services de connaissance professionnelles couvrant toutes les disciplines et tous les domaines, ainsi qu'à un mode de réflexion approfondie.