O modelo de linguagem multimodal Yi-VL, da Zero One Wanwu (Yi), é o novo membro da família de modelos Yi. Ele demonstra capacidades excepcionais em compreensão de imagens e texto e geração de diálogos. O modelo Yi-VL alcançou resultados de ponta em conjuntos de dados em inglês (MMMU) e chinês (CMMMU), mostrando sua força em tarefas complexas e interdisciplinares.

O Yi-VL-34B superou outros grandes modelos multimodais no novo teste de referência multimodal MMMU, alcançando uma precisão de 41,6%, demonstrando uma poderosa capacidade de compreensão e aplicação de conhecimento interdisciplinar.

O modelo Yi-VL é baseado na arquitetura de código aberto LLaVA, incluindo um Transformador de Visão (ViT), um módulo de projeção e os grandes modelos de linguagem Yi-34B-Chat e Yi-6B-Chat. O ViT é usado para codificação de imagens, o módulo de projeção alinha os recursos de imagem e texto, e os grandes modelos de linguagem fornecem uma poderosa capacidade de compreensão e geração de linguagem.