Huawei Ascend et Step-Video lancent un modèle multimodale open source, faisant leur entrée dans le nouveau domaine de l'IA

AIbase基地

Publié leActualités IA · 4 minutes de lecture · Mar 10, 2025

Récemment, la communauté Modelers (魔乐社区) a officiellement lancé Step-Video et Step-Audio, deux modèles multimodaux open source développés par Step-Star (阶跃星辰). Ces deux modèles sont respectivement destinés à la génération de vidéos et à l'interaction vocale, visant à fournir aux développeurs et aux entreprises des outils IA plus performants.

Step-Video, dont le nom complet est Step-Video-T2V, est le plus grand modèle open source de génération de vidéo au monde, avec un nombre de paramètres atteignant 30 milliards. Ce modèle est capable de générer directement des vidéos de haute qualité de 204 images et d'une résolution de 540p. Il surpasse les modèles vidéo open source de pointe existants sur le marché en termes d'obéissance aux instructions, de fluidité des mouvements, de cohérence physique et d'esthétique.

Par ailleurs, Step-Audio est le premier modèle de grande envergure du secteur capable de générer de la voix avec diverses émotions, dialectes, langues, styles de chant et styles personnalisés. Le lancement de cette technologie marque une avancée majeure dans le domaine de l'interaction vocale par IA.

Métavers, science-fiction, cyberpunk, peinture (4) grand modèle

Source : Image générée par IA, fournisseur de services d'autorisation d'images : Midjourney

Il est à noter que ces modèles sont adaptés à l'architecture de calcul hétérogène CANN de Huawei Ascend et aux serveurs Ascend. Les développeurs et les entreprises peuvent télécharger et utiliser facilement ces modèles sur la communauté Modelers. Afin de simplifier encore l'utilisation, la communauté Modelers fournit également un support de puissance de calcul gratuit, permettant aux utilisateurs d'effectuer des inférences de modèles en ligne sans avoir besoin d'une configuration d'environnement complexe, et de valider rapidement leurs solutions IA.

De plus, les modèles open source de Step-Star ont attiré l'attention de plusieurs entreprises phares du secteur, notamment Tensens, Alibaba Cloud, Volcano Engine et TCL, qui ont déjà intégré cet écosystème open source. À l'avenir, Step-Star prévoit de lancer un nouveau modèle de génération de vidéo à partir d'images en mars, enrichissant ainsi sa gamme de produits.

Ce partenariat entre Huawei Ascend et Step-Star élargit non seulement les applications des modèles IA multimodaux, mais fournit également aux développeurs des outils plus puissants, stimulant ainsi le progrès technologique de l'ensemble du secteur.

Genmo publie le modèle de génération de vidéo open source Mochi1 : rivalisant avec Runway, Kuaishou et autres, utilisable gratuitement par les utilisateurs

Récemment, la société d'IA vidéo Genmo a annoncé le lancement de Mochi1, un nouveau modèle de génération de vidéo open source permettant aux utilisateurs de générer des vidéos de haute qualité à partir d'invites textuelles. Les performances de Mochi1 sont considérées comme comparables, voire supérieures, à celles des principaux concurrents propriétaires du marché, tels que Runway, Dream Machine de Luma AI, Kuaishou et Hailuo de Minimax. Le modèle est disponible sous licence Apache2.0.

CogVideoX-5B : Un modèle de génération de vidéo open source offrant une qualité et des visuels supérieurs !

Le modèle de génération de vidéo open source CogVideoX-5B, de fabrication chinoise, est officiellement disponible sur la communauté ModelScope de Modèles. Il améliore considérablement la qualité et les effets visuels de la génération de vidéos. Basé sur le modèle DiT à grande échelle, il utilise un autoencodeur variationnel causal 3D, une technique de transformateur expert, et un encodage de position 3D-RoPE et un mécanisme d'attention 3D complet pour réaliser une modélisation conjointe spatio-temporelle. L'utilisation de la technique d'entraînement progressif permet au modèle de générer des vidéos longues, cohérentes et de haute qualité avec des caractéristiques de mouvement évidentes.

Google lance Gemini 1.0, un grand modèle multimodale, prévu pour les développeurs début 2024

Gemini est le dernier modèle d'IA de Google, doté de capacités multimodales. Il est disponible en trois tailles : Ultra, Pro et Nano, adaptées à différentes tâches et appareils. Gemini offre des performances exceptionnelles, surpassant d'autres modèles dans plusieurs tests de référence. Il possède des capacités de raisonnement et de codage multimodales, permettant de traiter des informations textuelles, images et audio. Gemini sera mis à la disposition des développeurs et des entreprises début 2024.

Actualités IA

Huawei Ascend et Step-Video lancent un modèle multimodale open source, faisant leur entrée dans le nouveau domaine de l'IA

AIbase基地

Recommandations d'actualités IA connexes

Genmo publie le modèle de génération de vidéo open source Mochi1 : rivalisant avec Runway, Kuaishou et autres, utilisable gratuitement par les utilisateurs

CogVideoX-5B : Un modèle de génération de vidéo open source offrant une qualité et des visuels supérieurs !

Google lance Gemini 1.0, un grand modèle multimodale, prévu pour les développeurs début 2024