Na área da tecnologia atual, CLIP (Contrastive Language-Image Pre-training) é um importante modelo multimodal básico. Ele combina sinais visuais e de texto em um espaço de recursos compartilhado, usando uma perda de aprendizado contrastiva em pares de imagem-texto em larga escala.
Como um mecanismo de recuperação, o CLIP suporta várias tarefas, incluindo classificação de zero-shot, detecção, segmentação e recuperação de imagem-texto. Ao mesmo tempo, como um extrator de recursos, ele domina quase todas as tarefas de representação multimodal, como compreensão de imagem, compreensão de vídeo e geração de imagem ou vídeo a partir de texto. A força do CLIP reside em sua capacidade de conectar imagens à linguagem natural e capturar o conhecimento humano, graças ao seu treinamento em dados da web em larga escala, contendo descrições de texto detalhadas.
No entanto, o CLIP tem algumas limitações no tratamento de descrições de texto longas e complexas. Para superar esse problema, pesquisadores da Microsoft e da Universidade Tongji propuseram o método LLM2CLIP, que visa aprimorar o aprendizado de representação visual integrando modelos de linguagem grandes (LLMs). Este método substitui ousadamente o codificador de texto CLIP original, usando o conhecimento rico dos LLMs para melhorar o desempenho do codificador visual do CLIP. A pesquisa descobriu que a integração direta de LLMs no CLIP leva a uma queda no desempenho, portanto, esse desafio precisa ser resolvido.
O método LLM2CLIP, através da introdução da técnica de "ajuste fino de contraste de título", melhora significativamente a capacidade do LLM em separar títulos de imagens, resultando em um aumento significativo no desempenho.
Os pesquisadores realizaram experimentos de ajuste fino usando conjuntos de dados de diferentes tamanhos, incluindo o pequeno CC-3M, os médios CC-3M e CC-12M, e os grandes CC-3M, CC-12M, YFCC-15M e Recaption-1B. Os resultados mostram que os modelos treinados com LLM2CLIP superam os modelos CLIP e EVA tradicionais nas tarefas de recuperação de imagem para texto e texto para imagem.
Através do treinamento multimodal em conjunto com modelos como o Llava1.5, o LLM2CLIP apresentou excelente desempenho em quase todos os benchmarks, especialmente nas tarefas de recuperação de texto longo e curto, melhorando o desempenho do modelo EVA02 anterior em 16,5%. Este método inovador não apenas transforma o CLIP de um modelo que processa apenas dados em inglês em um poderoso modelo multilíngue, mas também estabelece uma base para pesquisas futuras sobre o treinamento do CLIP.
Modelo: https://huggingface.co/collections/microsoft/llm2clip-672323a266173cfa40b32d4c
Código: https://github.com/microsoft/LLM2CLIP/
Artigo: https://arxiv.org/abs/2411.04997
Destaques:
🌟 O LLM2CLIP é um método inovador proposto pela Microsoft e pela Universidade Tongji, que visa melhorar o desempenho do codificador visual substituindo o codificador de texto do CLIP.
📈 Este método, através da técnica de "ajuste fino de contraste de título", aumenta significativamente a capacidade do modelo em corresponder imagens e texto, superando os modelos de ponta existentes.
🌐 Experimentos do LLM2CLIP em vários conjuntos de dados mostram que seu desempenho em tarefas de recuperação de texto longo e curto é superior aos modelos tradicionais, impulsionando o desenvolvimento de modelos multilíngues.