O Instituto de Pesquisa de Inteligência Artificial de Pequim (BAAI) anunciou o lançamento do modelo de mundo multimodal nativo Emu3. Este modelo, baseado na técnica de previsão do próximo token, consegue compreender e gerar dados de três modalidades – texto, imagem e vídeo – sem depender de modelos de difusão ou métodos combinados. O Emu3 superou modelos open source conhecidos em tarefas de geração de imagens, geração de vídeo e compreensão de linguagem visual, como SDXL, LLaVA e OpenSora, demonstrando desempenho excepcional.

微信截图_20241021135044.png

O núcleo do modelo Emu3 é um poderoso tokenizer visual, que converte vídeos e imagens em tokens discretos. Esses tokens podem ser inseridos no modelo junto com os tokens discretos gerados pelo tokenizer de texto. Os tokens discretos gerados pelo modelo podem ser convertidos em texto, imagens e vídeos, fornecendo um paradigma de pesquisa unificado para tarefas Any-to-Any. Além disso, a flexibilidade da estrutura de previsão do próximo token do Emu3 permite a aplicação perfeita da otimização de preferência direta (DPO) na geração visual autorregressiva, alinhando o modelo com as preferências humanas.

微信截图_20241021135121.png

Os resultados da pesquisa do Emu3 demonstram que a previsão do próximo token pode servir como um paradigma poderoso para modelos multimodais, permitindo a aprendizagem multimodal em larga escala que vai além da linguagem em si e alcançando desempenho de ponta em tarefas multimodais. Ao convergir o design multimodal complexo para os próprios tokens, o Emu3 libera um enorme potencial em treinamento e inferência em larga escala. Este resultado abre caminho para a construção de um AGI multimodal.

Atualmente, as tecnologias e modelos principais do Emu3 já foram disponibilizados como código aberto, incluindo modelos de bate-papo e modelos geradores com SFT (Fine-tuning Supervisionado), além do código de treinamento SFT correspondente, para facilitar pesquisas posteriores e a construção e integração pela comunidade.

Código: https://github.com/baaivision/Emu3

Página do projeto: https://emu.baai.ac.cn/

Modelo: https://huggingface.co/collections/BAAI/emu3-66f4e64f70850ff358a2e60f