Emu2: El nuevo modelo multimodal de investigación de inteligencia artificial

Emu2: El nuevo modelo multimodal de investigación de inteligencia artificial

El Instituto de Investigación de Inteligencia Artificial (AIR) ha lanzado Emu2, un nuevo modelo básico multimodal de última generación. A través del entrenamiento previo multimodal generativo autorregresivo a gran escala, Emu2 ha logrado un avance significativo en la capacidad de aprendizaje contextual multimodal. Emu2 destaca en tareas de comprensión multimodal con pocos ejemplos, superando a modelos de entrenamiento previo multimodal líderes como Flamingo-80B e IDEFICS-80B.

Emu2 ha alcanzado el rendimiento óptimo en varias tareas de comprensión con pocos ejemplos, preguntas y respuestas visuales y generación de imágenes. Emu2-Chat comprende con precisión las instrucciones de texto e imagen, logrando una mejor percepción de la información, comprensión de la intención y planificación de decisiones. Emu2-Gen puede aceptar secuencias entrelazadas de imágenes, texto y ubicaciones como entrada, permitiendo la generación de imágenes y videos flexibles, controlables y de alta calidad.

Emu2 utiliza un marco de modelado más simple y escala el modelo a 37 mil millones de parámetros.

Para más detalles, consulte el enlace al proyecto publicado por el Instituto de Investigación de Inteligencia Artificial (enlace a insertar aquí).