DeepGlint ha lanzado el modelo RWKV-CLIP de código abierto, un aprendiz de representación de lenguaje visual que combina las ventajas de los transformadores y las RNN. Este modelo, mediante tareas de preentrenamiento de imagen y texto, utiliza conjuntos de datos ampliados con pares imagen-texto obtenidos de sitios web, mejorando significativamente el rendimiento en tareas de visión y lenguaje.

Para abordar el problema de los datos ruidosos y mejorar la calidad de los datos, el equipo de investigación introdujo un marco de generación de descripciones diverso, utilizando modelos de lenguaje grandes (LLM) para sintetizar y refinar contenido a partir de texto basado en web, subtítulos sintéticos y etiquetas de detección.

El modelo RWKV-CLIP adopta una arquitectura de dos torres, fusionando el entrenamiento paralelo eficiente de los transformadores y la inferencia eficiente de las RNN. El modelo está compuesto por múltiples módulos de mezcla espacial y mezcla de canales apilados, que permiten un procesamiento profundo de las imágenes y el texto de entrada. En la etapa de mezcla espacial, el modelo utiliza mecanismos de atención para realizar cálculos de complejidad lineal global, reforzando la interacción de las características en el nivel de canal. La etapa de mezcla de canales refina aún más la representación de las características. El modelo RWKV-CLIP, en cuanto al aumento de la entrada, mejora la robustez del modelo seleccionando aleatoriamente el texto original, los subtítulos sintéticos o las descripciones generadas como entrada de texto.

微信截图_20240722083639.png

Los resultados experimentales muestran que RWKV-CLIP ha logrado un rendimiento de vanguardia en múltiples tareas posteriores, incluyendo la detección lineal, la clasificación de cero disparos y la recuperación de imágenes y texto de cero disparos. En comparación con los modelos de referencia, RWKV-CLIP ha logrado una mejora significativa en el rendimiento.

El análisis multimodal de RWKV-CLIP muestra que las representaciones aprendidas presentan una mayor discriminabilidad dentro de la misma modalidad y una distancia más cercana en el espacio modal imagen-texto, lo que indica un mejor rendimiento de alineación multimodal.

Dirección del modelo: https://wisemodel.cn/models/deepglint/RWKV-CLIP