MiniMax a récemment lancé discrètement son premier grand modèle de génération de vidéo, et a simultanément publié une vidéo de 2 minutes intitulée « Pièce magique » générée par ce modèle. Bien que l'entreprise n'ait pas encore révélé les paramètres et les détails techniques spécifiques du modèle, le fondateur Yan Junjie a déclaré lors d'une interview de groupe avec les médias que ses résultats de génération vidéo étaient supérieurs à ceux de Runway.
Yan Junjie a révélé que la version actuellement publiée n'était que la première version du modèle, et que des itérations continues seraient effectuées ultérieurement sur les données, les algorithmes et les détails d'utilisation. En plus de la fonctionnalité actuelle de génération de vidéo à partir de texte, des capacités de génération de vidéo à partir d'images et de génération de vidéo à partir d'une combinaison de texte et d'images seront ajoutées à l'avenir. Concernant le plan de commercialisation, Yan Junjie a déclaré qu'il serait envisagé une fois que les nouvelles versions auront atteint un niveau de satisfaction.
Par rapport à Kuaishou Ke Ling, le modèle de génération de vidéo de MiniMax a été lancé avec un à deux mois de retard. Yan Junjie a expliqué que cela était dû au fait que l'équipe travaillait à résoudre des problèmes techniques plus complexes, notamment la manière de former du contenu nécessitant une puissance de calcul élevée. Il a souligné que l'approche de recherche et développement principale de MiniMax était de rechercher une amélioration significative des performances, et non de simples améliorations mineures.
Source : L'image a été générée par l'IA, fournisseur de services d'autorisation d'images : Midjourney
Yan Junjie estime que la motivation principale du développement de la capacité de génération de vidéo est d'améliorer la couverture et l'utilisation par les utilisateurs. Il a souligné que le contenu consommé quotidiennement par les humains est principalement composé de texte et d'images et de vidéos, de sorte que la génération de contenu multimodale est une orientation de développement inévitable.
Cependant, les grands modèles de génération de vidéo sont confrontés à de nombreux défis. Yan Junjie explique que la complexité de la génération de vidéo est bien supérieure à celle du texte, notamment le traitement de longs contextes, les besoins importants en stockage et la mise à niveau des infrastructures.
Wei Weiye, responsable de la plateforme ouverte de MiniMax, a indiqué que les principaux défis auxquels sont confrontés les grands modèles actuels incluent les hallucinations inévitables, les coûts d'utilisation élevés et le développement d'applications multimodales. Il estime qu'avec la baisse continue des coûts des API, davantage de scénarios d'application verront le jour.
Face aux nombreuses controverses du secteur, telles que le choix entre une approche B2B ou B2C, ou entre le marché intérieur et le marché étranger, Yan Junjie a déclaré que MiniMax restait optimiste quant aux progrès technologiques, aux utilisateurs et à l'efficacité de l'itération des produits.