Genmo lanza Mochi1, un modelo de generación de video de código abierto: a la altura de Runway y otros, disponible gratuitamente para los usuarios

AIbase基地

Publicado elNoticias de IA · 7 minutos de lectura · Oct 23, 2024

439

Recientemente, la empresa de video con IA Genmo anunció el lanzamiento de Mochi1, un nuevo modelo de generación de video de código abierto que permite a los usuarios generar videos de alta calidad a través de indicaciones de texto. El rendimiento de Mochi1 se considera comparable, o incluso superior, a los principales competidores de código cerrado del mercado, como Runway, Dream Machine de Luma AI, Kuaishou's Keling, Hailuo de Minimax, etc.

Este modelo está disponible bajo la licencia Apache2.0, lo que significa que los usuarios pueden disfrutar de tecnología de generación de video de vanguardia sin ningún costo, a diferencia de otros productos de la competencia cuyos precios van desde planes gratuitos limitados hasta 94.99 dólares mensuales.

Los usuarios pueden descargar gratuitamente los pesos del modelo y el código de Mochi1 en Hugging Face. Sin embargo, para ejecutar este modelo en un dispositivo personal, se necesitan al menos cuatro GPU Nvidia H100. Para que los usuarios puedan experimentar las funciones de Mochi1, Genmo también ofrece una plataforma de prueba en línea que permite a todos probar esta nueva tecnología.

Ejemplos de videos generados con Mochi1:

Según Genmo, Mochi1 destaca por seguir instrucciones detalladas de los usuarios, permitiendo un control preciso sobre los personajes, escenarios y acciones en los videos generados. Genmo afirma que, en pruebas internas, Mochi1 superó a la mayoría de los otros modelos de IA de video, incluidos los competidores propietarios como Runway y Luna, en términos de velocidad de adhesión y calidad del movimiento.

Mochi1 ha logrado un progreso significativo en el campo de la generación de video, incluyendo un rendimiento de movimiento de alta fidelidad y una capacidad precisa de seguimiento de indicaciones. El CEO de Genmo, Paras Jain, afirma que su objetivo es reducir la brecha entre los modelos de generación de video de código abierto y los de código cerrado. Destaca que el video es la forma de comunicación más importante, por lo que desean poner esta tecnología al alcance de más personas.

Simultáneamente, Genmo anunció que ha completado una ronda de financiación Serie A de 28,4 millones de dólares, con inversores como NEA y varias empresas de capital riesgo. Jain señala que la generación de video no es solo entretenimiento o creación de contenido, sino también una herramienta importante para los robots y sistemas autónomos del futuro.

La arquitectura de Mochi1 se basa en el transformador de difusión asimétrico (AsymmDiT) de Genmo, el modelo de generación de video de código abierto más grande lanzado hasta la fecha, con hasta 10 mil millones de parámetros. Este modelo se centra en el razonamiento visual, lo que le proporciona una ventaja en el procesamiento de datos de video.

Ejemplos de videos generados con Mochi1:

A pesar de las potentes funciones de Mochi1, aún existen algunas limitaciones, como la resolución actual de 480p y una posible ligera distorsión visual en escenas de movimiento complejo. Genmo planea lanzar una versión Mochi1HD con resolución de 720p a finales de año para mejorar la experiencia del usuario.

Enlace de prueba: https://www.genmo.ai/play

Descarga del modelo: https://huggingface.co/genmo/mochi-1-preview

Puntos clave:
🌟 Mochi1 es un modelo de generación de video de código abierto de Genmo, de uso gratuito para los usuarios, con un rendimiento comparable al de varios productos de código cerrado.
💰 Genmo completó una ronda de financiación Serie A de 28,4 millones de dólares, con el objetivo de impulsar la democratización de la tecnología de video con IA.
🎥 Se lanzará próximamente la versión Mochi1HD para solucionar las limitaciones actuales de resolución de 480p y algunas distorsiones en escenas de movimiento complejo.

AI2 lanza el modelo de código abierto Tülu3, con rendimiento comparable a GPT-4o mini

En el campo de la inteligencia artificial, las técnicas de post-entrenamiento se están convirtiendo en una herramienta clave para mejorar el rendimiento de los modelos. Recientemente, el Instituto de Inteligencia Artificial Allen (AI2) ha publicado la serie de modelos Tülu3, un conjunto de modelos de lenguaje avanzados completamente de código abierto, con un rendimiento comparable a modelos propietarios como GPT-4o-mini. Tülu3 incluye no solo los datos del modelo, el código y las recetas de entrenamiento, sino también un marco de evaluación, con el objetivo de impulsar el desarrollo de técnicas de post-entrenamiento para modelos de código abierto. Tradicionalmente, los modelos que solo han sido pre-entrenados a menudo no satisfacen las necesidades de las aplicaciones reales de manera efectiva, pudiendo...

AI2 lanza el nuevo modelo de código abierto OLMoE: ¡eficiente, potente y asequible!

El Instituto de Inteligencia Artificial Allen (AI2) ha lanzado OLMoE, un modelo de lenguaje grande de código abierto diseñado para ofrecer un alto rendimiento a bajo coste. Este modelo utiliza una arquitectura de expertos mixtos dispersos (MoE), con 7 mil millones de parámetros, pero mediante un mecanismo de enrutamiento inteligente, cada token de entrada solo utiliza 1 mil millones de parámetros, lo que permite un cálculo eficiente. OLMoE incluye versiones de ajuste general e instrucciones, y admite una ventana de contexto de 4096 tokens. Sus datos de entrenamiento provienen de diversas fuentes, incluyendo Common Crawl, Dolma CC y Wikipedia.

¡Nuevo titán en la generación de imágenes con IA! El modelo de código abierto FLUX.1 irrumpe en escena, ¿Midjourney y DALL·E 3 en alerta?

FLUX.1, una plataforma de modelos grandes de código abierto desarrollada por el experto en generación de imágenes con IA Robin Rombach, utiliza una arquitectura Vision Transformer de 12.000 millones de parámetros, entrenamiento de coincidencia de flujo y técnicas de incrustación de posición rotacional, superando considerablemente a modelos cerrados como DALL·E 3, Midjourney V6 y la serie SD3. En cuanto a rendimiento, FLUX.1 destaca en la reproducción semántica de texto, calidad de imagen, coherencia de movimiento, coherencia y diversidad, incluso en la generación de texto...

¡Llega el modelo de código abierto más potente! Llama 3.1 supera a GPT-4o con 405 mil millones de parámetros

El modelo Llama 3.1, publicado por Meta AI, compite en rendimiento con los modelos propietarios de primer nivel, lo que supone un gran avance para la IA de código abierto. Se trata de un modelo lingüístico grande de nueva generación, respaldado por una pila de entrenamiento optimizada y recursos de computación GPU a gran escala, que presenta varias características destacadas. Entre ellas, se incluye una longitud de contexto ampliada a 128 K, compatibilidad con 8 idiomas y un rendimiento excepcional en diversas áreas de prueba. Mediante un proceso iterativo de post-entrenamiento, el modelo mejora continuamente su rendimiento, especialmente en el seguimiento de instrucciones, la coherencia y la traducción entre múltiples idiomas.