ChinaZ.com, le 17 juin : Une équipe de recherche de l'Université chinoise de Hong Kong et de l'Académie chinoise des sciences a proposé un paradigme d'entraînement préalable multi-modal appelé MiCo (Multimodal Context). Cette méthode a obtenu des résultats significatifs dans le domaine de l'apprentissage multi-modal, battant 37 records de performances de pointe (SOTA).

1.jpg

Caractéristiques principales :

  • Compréhension multi-modale : MiCo vise à construire une intelligence multi-modale capable de comprendre n'importe quelle modalité et d'apprendre des représentations universelles.

  • Entraînement préalable à grande échelle : En introduisant davantage de modalités, de données et de paramètres de modèle, MiCo simule le processus cognitif multi-modal du cerveau humain pendant l'entraînement préalable.

  • Conception de l'architecture du réseau neuronal : MiCo divise les différentes modalités en « modalités de connaissance » et « modalités d'interface », et conçoit une architecture d'apprentissage multi-modale correspondante, en utilisant une méthode d'inférence générative pour l'alignement.

  • Contexte et loi d'échelle multi-modaux : MiCo utilise le contexte multi-modal pour renforcer l'interaction mutuelle entre les modalités et construit des relations contextuelles inter-modales.

Résultats expérimentaux :

  • MiCo a obtenu 7 scores SOTA sur 10 tests de référence de perception unimodale de différentes modalités.

  • Sur 25 tâches de compréhension inter-modales, y compris la recherche, les questions-réponses et la description, MiCo a obtenu 20 scores SOTA.

  • Sur 18 tests de référence de grands modèles linguistiques multi-modaux, MiCo a obtenu 10 scores SOTA.

Méthode d'entraînement préalable de MiCo :

L'équipe a utilisé l'entraînement préalable conjoint de vidéos avec des paires d'audio, de descriptions textuelles, de profondeur et de normales, simulant les capacités de perception visuelle, auditive et spatio-temporelle du cerveau humain.

Des caractéristiques multi-modales ont été extraites à l'aide d'un encodeur multi-modal (tel que ViT), et des caractéristiques textuelles ont été extraites à l'aide d'un encodeur textuel, construisant ainsi des relations contextuelles multi-modales.

Conclusion et travaux futurs :

Le projet MiCo est une tentative importante d'IA pour simuler la cognition multi-modale du cerveau humain. L'équipe espère qu'il inspirera les recherches futures et permettra de développer des modèles de base multi-modaux plus puissants.

Les travaux futurs prévus comprennent l'intégration de modalités supplémentaires, telles que le flux optique, les données IMU et les fichiers d'événements, afin de continuer à améliorer l'entraînement préalable conjoint multi-modal.