Westlake-Omni : Modèle linguistique vocal d'extrémité à extrémité en chinois à émotions ouvertes

AIbase基地

Publié leActualités IA · 2 minutes de lecture · Sep 26, 2024

428

Xihu Xinchen annonce la publication en open source de son modèle Westlake-Omni. Premier grand modèle linguistique d'interaction vocale émotionnelle en chinois à être open source au monde, Westlake-Omni utilise une représentation discrète pour unifier les modalités textuelles et vocales. Il met particulièrement l'accent sur le temps réel, offrant une expérience quasi instantanée avec une latence minimale.

Ce modèle possède d'excellentes capacités de compréhension et d'expression des émotions, capable de générer de la parole chinoise claire, naturelle et expressive. Cette capacité est le fruit d'un entraînement approfondi sur un ensemble de données de haute qualité concernant la parole émotionnelle en chinois, permettant au modèle non seulement de comprendre les émotions complexes dans le contexte de la langue chinoise, mais aussi de rendre l'interaction plus humaine.

微信截图_20240926081503.png

Xihu Xinchen espère qu'en publiant en open source le modèle Westlake-Omni, davantage de développeurs participeront au développement des technologies d'interaction vocale émotionnelle en chinois, contribuant ainsi à faire progresser et à développer ce domaine.

Adresse du projet : https://github.com/xinchen-ai/Westlake-Omni

L'efficacité des grands modèles explose : la technologie COMET de ByteDance est open source, accélérant la vitesse de 1,7 fois

L'équipe du modèle de langage large Doubao de ByteDance a récemment annoncé avoir réussi à surmonter les goulots d'étranglement clés de l'architecture du modèle d'expert mixte (MoE) et a publié en open source une technologie d'optimisation majeure nommée COMET. Cette technologie améliore considérablement l'efficacité de l'entraînement des grands modèles, permettant une augmentation de l'efficacité allant jusqu'à 1,7 fois et réduisant efficacement les coûts de formation de 40 %. Remarque sur l'image : l'image a été générée par l'IA, le fournisseur de services d'autorisation d'image étant Midjourney. COMET a déjà été appliquée à l'entraînement en cluster de plusieurs milliers de cartes chez ByteDance, permettant des économies de plusieurs millions de GP.

Navigateur possédé par l'IA ? L'outil open source Browser Use enflamme le monde de la technologie ! Les développeurs crient au génie !

Récemment, le monde de la technologie et la communauté des développeurs ont été submergés par un projet open source nommé Browser Use ! Cet outil est comme des ailes pour l'IA, lui permettant de contrôler un navigateur aussi facilement qu'un humain. Il suffit d'un langage naturel pour commander à l'IA d'effectuer automatiquement diverses tâches sur le Web. Ses puissantes capacités d'automatisation et sa flexibilité de déploiement ont instantanément enflammé la passion des amateurs de technologie du monde entier, déclenchant une vague immense sur la plateforme X (anciennement Twitter). Browser Use se propage à une vitesse fulgurante, propulsant l'IA dans le domaine de l'automatisation des navigateurs.

Huawei Ascend et Step-Video lancent un modèle multimodale open source, faisant leur entrée dans le nouveau domaine de l'IA

Récemment, la communauté Modelers a officiellement lancé Step-Video et Step-Audio, deux grands modèles multimodaux open source développés par Step-Video. Ces deux modèles sont respectivement utilisés pour la génération de vidéo et l'interaction vocale, visant à fournir aux développeurs et aux entreprises des outils IA plus performants. Step-Video, dont le nom complet est Step-Video-T2V, est un modèle de génération de vidéo open source parmi les plus grands au monde, avec un nombre de paramètres atteignant 30 milliards. Ce modèle est capable de générer directement des vidéos de 20...

Actualités IA

Westlake-Omni : Modèle linguistique vocal d'extrémité à extrémité en chinois à émotions ouvertes

AIbase基地

Recommandations d'actualités IA connexes

L'efficacité des grands modèles explose : la technologie COMET de ByteDance est open source, accélérant la vitesse de 1,7 fois

Navigateur possédé par l'IA ? L'outil open source Browser Use enflamme le monde de la technologie ! Les développeurs crient au génie !

Huawei Ascend et Step-Video lancent un modèle multimodale open source, faisant leur entrée dans le nouveau domaine de l'IA

Heygem arrive ! La version open source de HeyGen : clonage précis du visage et de la voix, avec synchronisation labiale