El equipo Emu3 del Instituto de Inteligencia Artificial de Beijing (BAAI) ha lanzado Emu3, un nuevo modelo multimodal que se entrena únicamente mediante la predicción del siguiente token. Este enfoque revolucionario abandona las arquitecturas tradicionales de modelos de difusión y modelos combinados, logrando un rendimiento de vanguardia tanto en tareas generativas como perceptivas.
Durante mucho tiempo, la predicción del siguiente token se ha considerado la vía prometedora hacia la Inteligencia Artificial General (AGI), pero su rendimiento en tareas multimodales ha sido deficiente. Actualmente, este campo sigue dominado por modelos de difusión (como Stable Diffusion) y modelos combinados (como la combinación de CLIP y LLM). El equipo Emu3 ha tokenizado imágenes, texto y vídeo en un espacio discreto, entrenando desde cero un único modelo Transformer en secuencias multimodales mixtas. Esto permite una unificación de las tareas multimodales sin depender de arquitecturas de difusión o combinadas.
Emu3 supera en rendimiento a los modelos específicos para cada tarea existentes, incluso a modelos emblemáticos como SDXL y LLaVA-1.6, tanto en tareas generativas como perceptivas. Emu3 también puede generar vídeos de alta fidelidad prediciendo el siguiente token en una secuencia de vídeo. A diferencia de Sora, que utiliza modelos de difusión de vídeo para generar vídeos a partir de ruido, Emu3 genera vídeos de forma causal prediciendo el siguiente token en la secuencia. El modelo puede simular aspectos del mundo real, como entornos, personas y animales, y predecir qué sucederá a continuación dado un contexto de vídeo.
Emu3 simplifica el diseño de modelos multimodales complejos, centrándose en los tokens y liberando así un enorme potencial de escalabilidad en los procesos de entrenamiento e inferencia. Los resultados de la investigación demuestran que la predicción del siguiente token es una vía eficaz para construir una inteligencia multimodal general que trasciende el lenguaje. Para fomentar la investigación en este campo, el equipo Emu3 ha hecho de código abierto las tecnologías y modelos clave, incluyendo un potente tokenizador visual que convierte vídeos e imágenes en tokens discretos, algo que antes no estaba disponible públicamente.
El éxito de Emu3 marca una dirección prometedora para el futuro desarrollo de modelos multimodales y ofrece nuevas esperanzas para el logro de la AGI.
Dirección del proyecto: https://github.com/baaivision/Emu3