Le 20 janvier 2025, MiniMax, filiale de Shanghai Xiyu Technology Co., Ltd., a annoncé le lancement mondial de sa nouvelle génération de modèles vocaux T2A-01, ainsi que le lancement de son produit vocal Hailuo. La série T2A-01 comprend deux modèles : T2A-01-HD et T2A-01-Turbo. Les services API sont également disponibles sur la plateforme ouverte MiniMax. Les entreprises peuvent choisir le modèle en fonction de leurs besoins en qualité audio et en vitesse de génération.
MiniMax, en tant que société de technologie d'intelligence artificielle générale de premier plan, se concentre sur le développement indépendant de grands modèles multimodaux, notamment des grands modèles de texte MoE à mille milliards de paramètres, des grands modèles vocaux et des grands modèles d'images. Sur la base de ces modèles, MiniMax a lancé des applications natives telles que Xingye et Hailuo AI, et fournit des services API de plateforme ouverte aux entreprises et aux développeurs. Les modèles vocaux T2A-01, lancés cette fois-ci, se caractérisent par une qualité audio claire, un rythme naturel et une expression émotionnelle précise. Ils prennent en charge 17 langues, dont le chinois, le cantonais, l'anglais, le japonais, le coréen, l'arabe et l'espagnol, ainsi que des centaines de timbres vocaux prédéfinis, offrant aux utilisateurs professionnels et particuliers une expérience de génération vocale naturelle et fluide.
L'un des points forts de Hailuo est sa puissante capacité de synthèse multi-langues. Grâce au modèle T2A-01, Hailuo surpasse les produits concurrents en termes de similarité, de taux d'erreur et d'évaluation de l'expérience auditive. Dans plusieurs langues, dont le chinois, le cantonais, l'anglais, le japonais, le coréen et l'arabe, Hailuo affiche une similarité et un taux de précision nettement supérieurs. Ses capacités globales sont comparables à celles d'ElevenLabs, un modèle de pointe international. De plus, Hailuo possède une capacité de compréhension émotionnelle, capable de détecter et de reproduire intelligemment les nuances émotionnelles de la parole. Les utilisateurs peuvent spécifier l'émotion souhaitée pour générer une sortie vocale qui capture avec précision les émotions profondes de l'être humain.
Hailuo offre également aux utilisateurs un large choix de timbres vocaux et des fonctions de personnalisation. Les utilisateurs peuvent filtrer par langue, accent, sexe et âge, choisir parmi plus de 300 timbres vocaux prédéfinis et affiner les timbres à l'aide d'égaliseurs, en ajustant par exemple la clarté, l'intensité, et en ajoutant des effets spéciaux comme l'écho, la diffusion, la distorsion ou les effets électroniques, pour répondre aux besoins de différents contextes.
Hailuo :
https://hailuoai.com/audio
Hailuo Audio (version internationale) :
https://hailuo.ai/audio
Service API en Chine :
https://platform.minimaxi.com/document/T2A%20V2
Service API international :
https://intl.minimaxi.com/document/T2A%20V2?key=66719005a427f0c8a5701643