Recientemente, investigadores de la Universidad de California, Berkeley, han lanzado un modelo de mundo grande de código abierto (LWM), capaz de interpretar un millón de datos a la vez y generar videos e imágenes a partir de texto. Este modelo resuelve el difícil problema del cálculo de la atención de secuencias largas mediante la tecnología Ring Attention, permitiendo un procesamiento eficiente de la información multimodal. Tras dos etapas de entrenamiento, una de preentrenamiento de modelos lingüísticos y otra de preentrenamiento multimodal, ha logrado resultados impresionantes.
Modelo Mundial a Gran Escala: Generación de videos e imágenes con IA, interpretación de 1 millón de datos a la vez

AIGC开放社区
Este artículo proviene de AIbase Daily
¡Bienvenido a la columna [AI Diario]! Aquí está tu guía diaria para explorar el mundo de la inteligencia artificial. Todos los días te presentamos el contenido más destacado en el campo de la IA, centrándonos en los desarrolladores para ayudarte a comprender las tendencias tecnológicas y conocer las aplicaciones innovadoras de productos de IA.