Recentemente, uma equipe de pesquisa conjunta entre o Microsoft Research e a Universidade de Aeronáutica e Astronáutica de Pequim lançou uma nova estrutura chamada E5-V, projetada para fornecer uma solução mais eficiente para embeddings multimodais. Com o avanço contínuo da inteligência artificial, os modelos de linguagem grandes multimodais (MLLMs) tornaram-se um foco de pesquisa, capazes de entender simultaneamente informações de texto e visuais para melhor lidar com relações de dados complexas. No entanto, em aprendizado multimodal, a representação eficaz de várias informações continua sendo um grande desafio.
Entrada do projeto: https://github.com/kongds/E5-V/
Modelos anteriores, como o CLIP, embora alinhem as representações visuais e de linguagem por meio de aprendizado contrastivo, a maioria ainda depende de codificadores independentes para pares de imagem e texto, resultando em integração de entrada ineficaz. Além disso, esses modelos geralmente exigem grandes quantidades de dados de treinamento multimodais, o que é caro e apresenta desempenho insuficiente em tarefas complexas de compreensão de linguagem e visão-linguagem.
A inovação da estrutura E5-V reside em sua abordagem de treinamento unimodal, usando apenas pares de texto para treinamento. Isso não apenas reduz significativamente os custos de treinamento, mas também elimina a necessidade de coleta de dados multimodais. Durante o treinamento, a estrutura E5-V elimina a lacuna modal convertendo entradas multimodais em palavras. Esse método permite que o modelo execute tarefas complexas, como recuperação de imagens compostas, com maior precisão.
De acordo com os resultados experimentais da equipe de pesquisa, o E5-V apresentou desempenho excepcional em várias tarefas, como recuperação de texto-imagem e recuperação de imagens compostas. Ele demonstrou desempenho superior em tarefas de recuperação de imagem de zero-shot, superando o modelo de ponta CLIP ViT-L, com aumento de Recall@1 de 12,2% e 15,0% nos conjuntos de dados Flickr30K e COCO, respectivamente.
Além disso, em tarefas de recuperação de imagens compostas, o E5-V superou o método mais avançado atual, iSEARLE-XL, com melhorias de 8,50% e 10,07% no conjunto de dados CIRR.
A estrutura E5-V representa um avanço significativo no aprendizado multimodal. Ao utilizar treinamento unimodal e um método de representação baseado em prompts, o E5-V aborda as limitações dos métodos tradicionais, fornecendo uma solução mais eficiente e eficaz para embeddings multimodais.
Destaques:
🌟 A estrutura E5-V simplifica o aprendizado multimodal por meio de treinamento unimodal, reduzindo custos.
📈 O E5-V demonstrou desempenho superior a modelos de ponta existentes em várias tarefas.
🔑 Esta estrutura estabelece um novo padrão para o desenvolvimento futuro de modelos multimodais, com amplo potencial de aplicação.