Grishin Deep Eyes a publié le modèle RWKV-CLIP, un apprenant de représentation visuel-linguistique combinant les avantages des modèles Transformer et RNN. Ce modèle, grâce à une tâche de pré-entraînement image-texte utilisant un ensemble de données étendu d'images-textes provenant de sites web, améliore considérablement les performances des tâches visuelles et linguistiques.

Pour résoudre le problème des données bruitées et améliorer la qualité des données, l'équipe de recherche a introduit un cadre de génération de descriptions diversifié, utilisant un grand modèle linguistique (LLM) pour synthétiser et affiner le contenu à partir de texte web, de légendes synthétiques et d'étiquettes de détection.

Le modèle RWKV-CLIP adopte une architecture à deux tours, fusionnant l'entraînement parallèle efficace des Transformer et l'inférence efficace des RNN. Le modèle est constitué de plusieurs modules de mélange spatial et de mélange de canaux empilés, permettant un traitement approfondi des images et des textes d'entrée. Lors de la phase de mélange spatial, le modèle utilise un mécanisme d'attention pour effectuer un calcul de complexité linéaire globale, renforçant l'interaction des caractéristiques au niveau des canaux. La phase de mélange de canaux affine davantage la représentation des caractéristiques. Le modèle RWKV-CLIP, en termes d'augmentation des entrées, améliore sa robustesse en sélectionnant aléatoirement le texte original, les légendes synthétiques ou les descriptions générées comme entrée textuelle.

微信截图_20240722083639.png

Les résultats expérimentaux montrent que RWKV-CLIP a obtenu des performances de pointe dans plusieurs tâches en aval, notamment la détection linéaire, la classification à zéro coup et la recherche d'images-texte à zéro coup. Comparé aux modèles de référence, RWKV-CLIP a réalisé une amélioration significative des performances.

L'analyse multimodale du modèle RWKV-CLIP montre que les représentations apprises présentent une meilleure discernabilité au sein de la même modalité et une distance plus courte dans l'espace modal image-texte, indiquant de meilleures performances d'alignement multi-modal.

Adresse du modèle : https://wisemodel.cn/models/deepglint/RWKV-CLIP