Recientemente, la empresa de video con IA Genmo anunció el lanzamiento de Mochi1, un nuevo modelo de generación de video de código abierto que permite a los usuarios generar videos de alta calidad a través de indicaciones de texto. El rendimiento de Mochi1 se considera comparable, o incluso superior, a los principales competidores de código cerrado del mercado, como Runway, Dream Machine de Luma AI, Kuaishou's Keling, Hailuo de Minimax, etc.
Este modelo está disponible bajo la licencia Apache2.0, lo que significa que los usuarios pueden disfrutar de tecnología de generación de video de vanguardia sin ningún costo, a diferencia de otros productos de la competencia cuyos precios van desde planes gratuitos limitados hasta 94.99 dólares mensuales.
Los usuarios pueden descargar gratuitamente los pesos del modelo y el código de Mochi1 en Hugging Face. Sin embargo, para ejecutar este modelo en un dispositivo personal, se necesitan al menos cuatro GPU Nvidia H100. Para que los usuarios puedan experimentar las funciones de Mochi1, Genmo también ofrece una plataforma de prueba en línea que permite a todos probar esta nueva tecnología.
Ejemplos de videos generados con Mochi1:
Según Genmo, Mochi1 destaca por seguir instrucciones detalladas de los usuarios, permitiendo un control preciso sobre los personajes, escenarios y acciones en los videos generados. Genmo afirma que, en pruebas internas, Mochi1 superó a la mayoría de los otros modelos de IA de video, incluidos los competidores propietarios como Runway y Luna, en términos de velocidad de adhesión y calidad del movimiento.
Mochi1 ha logrado un progreso significativo en el campo de la generación de video, incluyendo un rendimiento de movimiento de alta fidelidad y una capacidad precisa de seguimiento de indicaciones. El CEO de Genmo, Paras Jain, afirma que su objetivo es reducir la brecha entre los modelos de generación de video de código abierto y los de código cerrado. Destaca que el video es la forma de comunicación más importante, por lo que desean poner esta tecnología al alcance de más personas.
Simultáneamente, Genmo anunció que ha completado una ronda de financiación Serie A de 28,4 millones de dólares, con inversores como NEA y varias empresas de capital riesgo. Jain señala que la generación de video no es solo entretenimiento o creación de contenido, sino también una herramienta importante para los robots y sistemas autónomos del futuro.
La arquitectura de Mochi1 se basa en el transformador de difusión asimétrico (AsymmDiT) de Genmo, el modelo de generación de video de código abierto más grande lanzado hasta la fecha, con hasta 10 mil millones de parámetros. Este modelo se centra en el razonamiento visual, lo que le proporciona una ventaja en el procesamiento de datos de video.
Ejemplos de videos generados con Mochi1:
A pesar de las potentes funciones de Mochi1, aún existen algunas limitaciones, como la resolución actual de 480p y una posible ligera distorsión visual en escenas de movimiento complejo. Genmo planea lanzar una versión Mochi1HD con resolución de 720p a finales de año para mejorar la experiencia del usuario.
Enlace de prueba: https://www.genmo.ai/play
Descarga del modelo: https://huggingface.co/genmo/mochi-1-preview
Puntos clave:
🌟 Mochi1 es un modelo de generación de video de código abierto de Genmo, de uso gratuito para los usuarios, con un rendimiento comparable al de varios productos de código cerrado.
💰 Genmo completó una ronda de financiación Serie A de 28,4 millones de dólares, con el objetivo de impulsar la democratización de la tecnología de video con IA.
🎥 Se lanzará próximamente la versión Mochi1HD para solucionar las limitaciones actuales de resolución de 480p y algunas distorsiones en escenas de movimiento complejo.