InternLM-XComposer2

Modelo de linguagem visual de grande escala para síntese e compreensão de imagem de texto de forma livre

Produto ComumDesignModelo de linguagem visualSíntese de imagem a partir de texto
O InternLM-XComposer2 é um modelo de linguagem visual de ponta, especializado na síntese e compreensão de imagens a partir de texto de forma livre. O modelo não apenas compreende a linguagem visual tradicional, mas também consegue habilmente construir conteúdo de imagem de texto entrelaçado a partir de diversas entradas, como esboços, especificações de texto detalhadas e imagens de referência, permitindo a criação de conteúdo altamente personalizável. O InternLM-XComposer2 apresenta um método LoRA parcial (PLoRA), que aplica especificamente parâmetros LoRA adicionais a marcadores de imagem, preservando a integridade do conhecimento da linguagem pré-treinado e alcançando um equilíbrio entre compreensão visual precisa e composição textual com capacidade literária. Os resultados experimentais demonstram a superioridade do InternLM-XComposer2, baseado no InternLM2-7B, na geração de conteúdo multimodais de texto longo de alta qualidade, além de um desempenho excepcional em compreensão de linguagem visual em diversos benchmarks, superando significativamente modelos multimodais existentes e, em algumas avaliações, chegando a superar ou igualar o GPT-4V e o Gemini Pro. Isso destaca sua capacidade excepcional na área de compreensão multimodal. Os modelos da série InternLM-XComposer2 possuem 7 bilhões de parâmetros e estão disponíveis publicamente em https://github.com/InternLM/InternLM-XComposer.
Abrir Site

InternLM-XComposer2 Situação do Tráfego Mais Recente

Total de Visitas Mensais

474564576

Taxa de Rejeição

36.20%

Média de Páginas por Visita

6.1

Duração Média da Visita

00:06:34

InternLM-XComposer2 Tendência de Visitas

InternLM-XComposer2 Distribuição Geográfica das Visitas

InternLM-XComposer2 Fontes de Tráfego

InternLM-XComposer2 Alternativas