El Instituto de Investigación de Inteligencia Artificial de Beijing (BAAI) ha anunciado el lanzamiento de Emu3, un modelo mundial multi-modal nativo. Este modelo, basado en la tecnología de predicción del siguiente token, puede comprender y generar datos de tres modalidades (texto, imagen y vídeo) sin depender de modelos de difusión o métodos combinados.
Emu3 supera a modelos de código abierto conocidos como SDXL, LLaVA y OpenSora en tareas de generación de imágenes, generación de vídeo y comprensión visual del lenguaje, demostrando un rendimiento excepcional.
El núcleo de Emu3 es un potente tokenizer visual que convierte imágenes y vídeos en tokens discretos. Estos tokens se pueden introducir en el modelo junto con los tokens discretos generados por el tokenizer de texto. Los tokens discretos de salida del modelo se pueden convertir en texto, imágenes y vídeos, proporcionando un paradigma de investigación unificado para tareas de cualquier tipo a cualquier tipo (Any-to-Any).
Además, la flexibilidad del marco de predicción del siguiente token de Emu3 permite la aplicación sin problemas de la optimización directa de preferencias (DPO) a la generación visual autorregresiva, lo que garantiza la alineación del modelo con las preferencias humanas.
Los resultados de la investigación de Emu3 demuestran que la predicción del siguiente token puede servir como un paradigma robusto para modelos multimodales, permitiendo el aprendizaje multimodal a gran escala que trasciende el lenguaje en sí mismo y logrando un rendimiento de vanguardia en tareas multimodales. Al simplificar el complejo diseño multimodal a los propios tokens, Emu3 libera un enorme potencial en el entrenamiento y la inferencia a gran escala. Este logro abre una prometedora vía para la construcción de una IA general multi-modal (AGI).
Actualmente, las tecnologías y modelos clave de Emu3, incluyendo modelos de chat y generación entrenados con SFT (Supervised Fine-Tuning), así como el código de entrenamiento SFT correspondiente, están disponibles de código abierto para futuras investigaciones y desarrollo comunitario.
Código:https://github.com/baaivision/Emu3
Página del proyecto:https://emu.baai.ac.cn/
Modelo:https://huggingface.co/collections/BAAI/emu3-66f4e64f70850ff358a2e60f