Modelo de aprendizado de representação de linguagem visual RWKV-CLIP de código aberto da Geling Deep Pupil

A DeepGlint lançou o modelo RWKV-CLIP de código aberto, um aprendizado de representação de linguagem visual que combina as vantagens dos modelos Transformer e RNN. O modelo, por meio de tarefas de pré-treinamento de imagem e texto, utiliza conjuntos de dados expandidos de pares imagem-texto obtidos de sites, melhorando significativamente o desempenho em tarefas de visão e linguagem.

Para resolver o problema de dados ruidosos e melhorar a qualidade dos dados, a equipe de pesquisa introduziu uma estrutura diversificada de geração de descrições, utilizando modelos de linguagem grandes (LLM) para sintetizar e refinar conteúdo a partir de texto baseado na web, legendas sintéticas e etiquetas de detecção.

O modelo RWKV-CLIP adota uma arquitetura de duas torres, combinando o treinamento paralelo eficiente do Transformer e a inferência eficiente do RNN. O modelo é composto por várias pilhas de módulos de mistura espacial e mistura de canais, que realizam um processamento profundo das imagens e textos de entrada. Na fase de mistura espacial, o modelo utiliza um mecanismo de atenção para calcular a complexidade linear global, reforçando a interação de recursos no nível da camada de canais. A fase de mistura de canais refina ainda mais a representação de recursos. O modelo RWKV-CLIP, em termos de aumento da entrada, aumenta a robustez do modelo selecionando aleatoriamente o texto original, legendas sintéticas ou descrições geradas como entrada de texto.

微信截图_20240722083639.png

Os resultados experimentais mostram que o RWKV-CLIP alcançou desempenho de ponta em várias tarefas downstream, incluindo sondagem linear, classificação de amostra zero e recuperação de imagem-texto de amostra zero. Em comparação com os modelos de referência, o RWKV-CLIP obteve uma melhoria significativa no desempenho.

A análise transmodal do modelo RWKV-CLIP mostra que as representações aprendidas exibem maior discriminabilidade na mesma modalidade e distâncias mais curtas no espaço modal imagem-texto, indicando um desempenho de alinhamento transmodal superior.

Endereço do modelo: https://wisemodel.cn/models/deepglint/RWKV-CLIP

Notícias e Informações de IA

Modelo de aprendizado de representação de linguagem visual RWKV-CLIP de código aberto da Geling Deep Pupil

AIbase基地