En el campo de la tecnología actual, CLIP (Contrastive Language-Image Pre-training) es un importante modelo base multimodal. Combina señales visuales y de texto en un espacio de características compartido mediante el uso de una pérdida de aprendizaje contrastiva en pares de imágenes y texto a gran escala.

CLIP, como sistema de recuperación, admite varias tareas, incluyendo clasificación, detección, segmentación y recuperación de imágenes y texto de cero disparos. Además, como extractor de características, ocupa una posición dominante en casi todas las tareas de representación multimodal, como la comprensión de imágenes y vídeo, y la generación de imágenes o vídeos a partir de texto. La potencia de CLIP reside en su capacidad para conectar imágenes con lenguaje natural y capturar el conocimiento humano, gracias a su entrenamiento en datos de la web a gran escala con descripciones de texto detalladas.

Sin embargo, CLIP tiene limitaciones al procesar descripciones de texto largas y complejas. Para superar este problema, investigadores de Microsoft y la Universidad de Tongji propusieron el método LLM2CLIP, que busca mejorar el aprendizaje de la representación visual mediante la integración de modelos lingüísticos grandes (LLM). Este método reemplaza audazmente el codificador de texto CLIP original, utilizando el conocimiento rico de los LLM para mejorar el rendimiento del codificador visual de CLIP. Los estudios revelaron que la integración directa de los LLM en CLIP conduce a una disminución del rendimiento, por lo que es necesario abordar este desafío.

image.png

El método LLM2CLIP, mediante la introducción de la técnica de "ajuste fino contrastivo de títulos", mejora considerablemente la capacidad del LLM para separar los títulos de las imágenes, logrando así una mejora significativa del rendimiento.

Los investigadores realizaron experimentos de ajuste fino con conjuntos de datos de diferentes tamaños, incluyendo CC-3M (pequeño y mediano), CC-12M (mediano y grande), YFCC-15M y Recaption-1B (grande). Los resultados muestran que los modelos entrenados con LLM2CLIP superan a los modelos CLIP y EVA tradicionales en tareas de recuperación de imagen a texto y de texto a imagen.

image.png

Mediante el entrenamiento multimodal combinado con modelos como Llava1.5, LLM2CLIP destaca en casi todas las pruebas de referencia, especialmente en tareas de recuperación de texto largo y corto, mejorando el rendimiento del modelo EVA02 anterior en un 16,5%. Este método innovador no solo transforma CLIP de un modelo que procesa únicamente datos en inglés a un potente modelo multilingüe, sino que también sienta las bases para futuras investigaciones sobre el entrenamiento de CLIP.

Modelo: https://huggingface.co/collections/microsoft/llm2clip-672323a266173cfa40b32d4c

Código: https://github.com/microsoft/LLM2CLIP/

Artículo: https://arxiv.org/abs/2411.04997

Puntos clave:

🌟 LLM2CLIP es un método innovador propuesto por Microsoft y la Universidad de Tongji, que busca mejorar el rendimiento del codificador visual de CLIP reemplazando su codificador de texto.

📈 Este método, mediante la técnica de "ajuste fino contrastivo de títulos", mejora significativamente la capacidad del modelo para la coincidencia de imágenes y texto, superando a los modelos de vanguardia existentes.

🌐 Los experimentos de LLM2CLIP en múltiples conjuntos de datos muestran un rendimiento superior al de los modelos tradicionales en tareas de recuperación de texto largo y corto, impulsando el desarrollo de modelos multilingües.