O Instituto de Inteligência Artificial de Pequim (BAAI) lançou o Emu2, um novo modelo de base multimodal de última geração. Através do treinamento prévio multimodal autoregressivo em larga escala, o Emu2 alcançou um avanço significativo na capacidade de aprendizado de contexto multimodal. O Emu2 se destaca em tarefas de compreensão multimodal com poucos exemplos, superando modelos de treinamento prévio multimodal de ponta como o Flamingo-80B e o IDEFICS-80B.
O Emu2 alcançou o melhor desempenho em várias tarefas de compreensão com poucos exemplos, perguntas e respostas visuais e geração de imagens. O Emu2-Chat consegue entender com precisão instruções de texto e imagem, permitindo melhor percepção de informações, compreensão de intenções e planejamento de decisões. O Emu2-Gen aceita sequências intercaladas de imagens, texto e localização como entrada, permitindo a geração de imagens e vídeos flexíveis, controláveis e de alta qualidade.
O Emu2 utiliza uma estrutura de modelagem mais simples e escala o modelo para 37 bilhões de parâmetros. Para mais detalhes, consulte o link do projeto publicado pelo Instituto de Inteligência Artificial de Pequim.