Le 9 mars 2025, en Californie, États-Unis – Les modèles open source rendent la technologie de génération de vidéos à partir de texte de plus en plus intéressante. Le développeur d'IA Ostris (@ostrisai) a récemment partagé sur la plateforme X les résultats de son modèle Wan2.1LoRA entraîné avec ses propres photos. Avec seulement une vingtaine de photos et une carte graphique RTX4090 grand public, il a réussi à générer des vidéos étonnantes. Cette réussite met en lumière le potentiel des technologies open source et a suscité de nombreuses discussions au sein de la communauté X sur les outils d'entraînement vidéo LoRA.

image.png

L'expérience impressionnante d'Ostris

Ostris a présenté pour la première fois les résultats de l'entraînement de Wan2.114B LoRA dans un post X le 7 mars. Il a écrit : « L'entraînement de Wan2.114B LoRA fonctionne correctement sur 24 Go ! Sur une 4090, à une résolution de 480p, la vitesse moyenne est de 1,7 seconde par étape. » Il a également partagé une vidéo préliminaire démontrant la faisabilité de ce modèle sur du matériel grand public. Le 9 mars, il a publié une courte vidéo musicale « low-cost », avec des paroles de sa composition et de la musique générée par @SunoMusic. Le personnage numérique de la vidéo est basé sur ses propres photos.

Ostris a indiqué qu'il n'avait utilisé qu'une vingtaine de photos personnelles pour réaliser ce processus grâce à son outil d'entraînement vidéo LoRA. Il a écrit dans son post : « Je n'aurais jamais pensé que le résultat serait aussi bon ! Je me suis bien amusé. » Cette expérience a non seulement prouvé la puissance de Wan2.1LoRA, mais a aussi démontré la possibilité pour les utilisateurs ordinaires de créer des vidéos de haute qualité à partir de texte grâce à des outils open source.

Partage de l'outil d'entraînement open source L'outil d'entraînement vidéo LoRA développé par Ostris est un point fort de cette publication. L'utilisateur @sundyme a posté le 9 mars : « L'entraînement vidéo LoRA est arrivé, devenez le héros de vos vidéos IA ! » et a partagé le lien vers l'outil d'Ostris. Cet outil prend en charge le modèle Wan2.1 et permet aux utilisateurs d'entraîner des modèles vidéo personnalisés à partir d'un petit nombre de photos, réduisant ainsi considérablement le seuil technologique.

Les utilisateurs de X ont manifesté un vif intérêt pour cet outil. @sundyme a déclaré : « L'outil d'entraînement LoRA développé par @ostrisai, compatible avec Wan2.1, offre des résultats époustouflants. » Les retours de la communauté montrent que le fonctionnement efficace de cet outil sur des cartes graphiques grand public comme la RTX 4090 permet à davantage de créateurs d'expérimenter la génération de vidéos IA à domicile.

Réactions de la communauté et signification technique

Les réactions sur X montrent que les résultats d'Ostris ont suscité un grand enthousiasme. Un utilisateur a commenté : « Entraîner un avatar numérique aussi réaliste avec seulement 20 photos, c'est incroyable ! » Un autre utilisateur a salué le potentiel des modèles open source : « La génération de vidéos à partir de texte devient de plus en plus intéressante, l'open source permet à tous de maîtriser l'IA. »

Des experts du secteur estiment que l'expérience d'Ostris souligne les progrès des modèles open source dans le domaine de la génération vidéo. Wan2.1LoRA, combiné à la technique d'apprentissage avec peu d'exemples, réduit non seulement les besoins en matériel, mais améliore également l'accessibilité à la création personnalisée. Comparée aux modèles traditionnels nécessitant d'énormes ensembles de données et des serveurs hautes performances, cette méthode ouvre de nouvelles voies aux développeurs indépendants et aux petites équipes.

Adresse du projet : https://github.com/ostris/ai-toolkit