A equipe Emu3 do Instituto de Inteligência Artificial de Pequim (BAAI) lançou um novo modelo multi-modal, o Emu3. Treinado apenas com previsão do próximo token, este modelo quebra com a arquitetura tradicional de modelos de difusão e modelos combinados, alcançando desempenho de ponta em tarefas de geração e percepção.
A previsão do próximo token sempre foi considerada um caminho promissor para a inteligência artificial geral (AGI), mas apresentava desempenho inferior em tarefas multimodais. Atualmente, o campo multimodal é dominado por modelos de difusão (como Stable Diffusion) e modelos combinados (como a combinação de CLIP e LLM). A equipe Emu3 tokenizou imagens, texto e vídeo em um espaço discreto e treinou um único modelo Transformer do zero em sequências multimodais mistas, alcançando uma unificação das tarefas multimodais sem depender de arquiteturas de difusão ou combinadas.
O Emu3 superou modelos específicos para tarefas existentes, inclusive modelos de ponta como SDXL e LLaVA-1.6, tanto em tarefas de geração quanto de percepção. O Emu3 também consegue gerar vídeos de alta fidelidade prevendo o próximo token em uma sequência de vídeo. Diferentemente do Sora, que usa modelos de difusão de vídeo para gerar vídeos a partir de ruído, o Emu3 gera vídeos de forma causal, prevendo o próximo token na sequência de vídeo. O modelo consegue simular aspectos do mundo real, como ambientes, pessoas e animais, e prever o que acontecerá a seguir, dado o contexto de um vídeo.
O Emu3 simplifica o design complexo de modelos multimodais, focando nos tokens, o que libera um enorme potencial de expansão nos processos de treinamento e inferência. Os resultados da pesquisa mostram que a previsão do próximo token é uma abordagem eficaz para construir uma inteligência multimodal geral que vai além da linguagem. Para apoiar pesquisas futuras na área, a equipe Emu3 tornou o código-fonte de tecnologias e modelos-chave disponíveis publicamente, incluindo um poderoso tokenizador visual que converte vídeos e imagens em tokens discretos – algo que antes não estava disponível publicamente.
O sucesso do Emu3 aponta o caminho para o futuro do desenvolvimento de modelos multimodais e traz novas esperanças para a realização da AGI.
Endereço do projeto: https://github.com/baaivision/Emu3