9 de marzo de 2025, California, Estados Unidos — Los modelos de código abierto están haciendo que la tecnología de video a partir de texto sea cada vez más interesante. El desarrollador de IA Ostris (@ostrisai) compartió recientemente en la plataforma X los resultados de su modelo Wan2.1LoRA entrenado con sus propias fotos. Con solo unas 20 fotos y una tarjeta gráfica RTX4090 doméstica, logró generar videos sorprendentes. Este logro no solo muestra el potencial de la tecnología de código abierto, sino que también ha generado un animado debate en la comunidad X sobre las herramientas de entrenamiento de video LoRA.
El sorprendente experimento de Ostris
Ostris presentó por primera vez los resultados del entrenamiento de Wan2.114B LoRA en una publicación de X el 7 de marzo. Escribió: "¡El entrenamiento de Wan2.114B LoRA se ejecutó correctamente en 24 GB! En una 4090, a una resolución de 480p, el promedio es de 1.7 segundos por paso". También compartió un video preliminar que demostraba la viabilidad de este modelo en hardware doméstico. Posteriormente, el 9 de marzo, publicó un "corto video musical de prueba de concepto de bajo costo", con letras de su propia creación y música generada por @SunoMusic. El personaje digital del video está basado en fotos suyas.
Ostris afirma que solo usó aproximadamente 20 fotos personales para este proceso, utilizando su herramienta de entrenamiento de video LoRA. En su publicación, exclamó: "¡No esperaba que el resultado fuera tan bueno! Me lo estoy pasando genial". Este experimento no solo valida el potente rendimiento de Wan2.1LoRA, sino que también muestra la posibilidad de que los usuarios comunes creen videos de alta calidad a partir de texto utilizando herramientas de código abierto.
Herramienta de entrenamiento de código abierto y compartida La herramienta de entrenamiento de video LoRA desarrollada por Ostris es uno de los puntos destacados de este lanzamiento. El usuario @sundyme publicó el 9 de marzo: "¡Ya llegó el entrenamiento de video LoRA, conviértete en el protagonista de tus videos de IA!" y compartió el enlace a la herramienta de Ostris. Esta herramienta es compatible con el modelo Wan2.1 y permite a los usuarios entrenar modelos de video personalizados con pocas fotos, reduciendo significativamente la barrera de entrada técnica.
Los usuarios de X mostraron un gran interés en esta herramienta. @sundyme comentó: "La herramienta de entrenamiento LoRA desarrollada por @ostrisai, compatible con Wan2.1, ofrece resultados sorprendentes". Los comentarios de la comunidad indican que el eficiente funcionamiento de la herramienta en tarjetas gráficas de consumo como la RTX 4090 permite a más creadores experimentar con la generación de videos de IA en casa.
Impacto en la comunidad y significado técnico
Las reacciones en X muestran que los logros de Ostris han generado un gran entusiasmo. Un usuario comentó: "¡Es increíble poder entrenar un personaje digital tan realista con solo 20 fotos!". Otro usuario elogió el potencial de los modelos de código abierto: "La generación de video a partir de texto es cada vez más interesante, el código abierto permite a cualquiera usar la IA".
Expertos de la industria consideran que el experimento de Ostris destaca el avance de los modelos de código abierto en el campo de la generación de video. Wan2.1LoRA, combinado con la técnica de entrenamiento con pocos ejemplos, no solo reduce los requisitos de hardware, sino que también mejora la accesibilidad de la creación personalizada. En comparación con los modelos tradicionales que requieren grandes conjuntos de datos y servidores de alto rendimiento, este método abre nuevas vías para desarrolladores independientes y equipos pequeños.
Dirección del proyecto: https://github.com/ostris/ai-toolkit