InternLM-XComposer2
Modelo de linguagem visual de grande escala para síntese e compreensão de imagem de texto de forma livre
Produto ComumDesignModelo de linguagem visualSíntese de imagem a partir de texto
O InternLM-XComposer2 é um modelo de linguagem visual de ponta, especializado na síntese e compreensão de imagens a partir de texto de forma livre. O modelo não apenas compreende a linguagem visual tradicional, mas também consegue habilmente construir conteúdo de imagem de texto entrelaçado a partir de diversas entradas, como esboços, especificações de texto detalhadas e imagens de referência, permitindo a criação de conteúdo altamente personalizável. O InternLM-XComposer2 apresenta um método LoRA parcial (PLoRA), que aplica especificamente parâmetros LoRA adicionais a marcadores de imagem, preservando a integridade do conhecimento da linguagem pré-treinado e alcançando um equilíbrio entre compreensão visual precisa e composição textual com capacidade literária. Os resultados experimentais demonstram a superioridade do InternLM-XComposer2, baseado no InternLM2-7B, na geração de conteúdo multimodais de texto longo de alta qualidade, além de um desempenho excepcional em compreensão de linguagem visual em diversos benchmarks, superando significativamente modelos multimodais existentes e, em algumas avaliações, chegando a superar ou igualar o GPT-4V e o Gemini Pro. Isso destaca sua capacidade excepcional na área de compreensão multimodal. Os modelos da série InternLM-XComposer2 possuem 7 bilhões de parâmetros e estão disponíveis publicamente em https://github.com/InternLM/InternLM-XComposer.
InternLM-XComposer2 Situação do Tráfego Mais Recente
Total de Visitas Mensais
474564576
Taxa de Rejeição
36.20%
Média de Páginas por Visita
6.1
Duração Média da Visita
00:06:34