Recientemente, investigadores de la Universidad de California, Berkeley, han lanzado un modelo de mundo grande de código abierto (LWM), capaz de interpretar un millón de datos a la vez y generar videos e imágenes a partir de texto. Este modelo resuelve el difícil problema del cálculo de la atención de secuencias largas mediante la tecnología Ring Attention, permitiendo un procesamiento eficiente de la información multimodal. Tras dos etapas de entrenamiento, una de preentrenamiento de modelos lingüísticos y otra de preentrenamiento multimodal, ha logrado resultados impresionantes.