InternLM-XComposer2
Modelo de lenguaje visual de gran formato para la síntesis e interpretación de imágenes a partir de texto de forma libre.
Producto ComúnDiseñoModelo de lenguaje visualSíntesis de imágenes a partir de texto
InternLM-XComposer2 es un modelo de lenguaje visual líder, experto en la síntesis e interpretación de imágenes a partir de texto de forma libre. Este modelo no solo comprende el lenguaje visual tradicional, sino que también puede construir hábilmente contenido de imágenes y texto entrelazado a partir de diversas entradas, como bocetos, especificaciones de texto detalladas e imágenes de referencia, permitiendo así una creación de contenido altamente personalizable. InternLM-XComposer2 presenta un método LoRA parcial (PLoRA), que aplica específicamente parámetros LoRA adicionales a los tokens de imagen para preservar la integridad del conocimiento del lenguaje preentrenado, logrando un equilibrio entre la comprensión visual precisa y la composición textual con talento literario. Los resultados experimentales demuestran la superioridad de InternLM-XComposer2, basado en InternLM2-7B, en la generación de contenido multimodal de texto largo y alta calidad, así como su excelente rendimiento en la comprensión del lenguaje visual en diversas pruebas de referencia. No solo supera significativamente a los modelos multimodales existentes, sino que en algunas evaluaciones incluso iguala o supera a GPT-4V y Gemini Pro. Esto destaca su excepcional capacidad en el campo de la comprensión multimodal. Los modelos de la serie InternLM-XComposer2, con 7B parámetros, están disponibles públicamente en https://github.com/InternLM/InternLM-XComposer.
InternLM-XComposer2 Situación del tráfico más reciente
Total de visitas mensuales
474564576
Tasa de rebote
36.20%
Páginas promedio por visita
6.1
Duración promedio de la visita
00:06:34